About connecting the dots.

data science related trivial things

kaggleで予測モデルを構築してみた (4) - データの背景を調べる

前回は,データの前処理に先立って,各データの概要をみました.その上で今回は,Web上で手に入るタイタニックの史実をまとめて,データ前処理のための手がかりをつかむことにしましょう.

タイタニック号の客室区分

客室は主に1-3等の客室と,その上の特等と呼ばれるランクに分けられていたようです.ただ特等は数が少なかったのか,特等の乗客が何人いたのかはよくわからないみたいです.とりあえずWikipediaによると,乗客数は以下の通りだったそうですね.

船客数:
  1等329人
  2等285人
  3等710人
乗組員数:
  899人

また,等級ごとの生存率がこちらのページにまとまっており,これによると明確に高い等級の乗客ほど生き残っていることがみてとれます.

区分 女性・子供 男性
一等船客 94% 31% 60%
二等船客 81% 10% 44%
三等船客 47% 14% 25%
乗務員 87% 22% 24%

性年齢による生存率の違い

上記の表をみてもわかるように,明確に女性ほど,また子どもほど生存率が高いことがみてとれます.お年寄りの生存率については,ちゃんとまとまった資料がみつからなかったのと,そもそもお年寄りを優遇していないという記述もあったりで,正直何ともいえない感じです.そのあたりについては,またもやWikipediaを引用しておきます.

沈没が差し迫ったタイタニックでは左舷はライトラー2等航海士が、右舷はマードック1等航海士が救命ボートへの移乗を指揮し、ライトラーは1等船客の女性・子供優先の移乗を徹底して行い、一方のマードックは比較的男性にも寛大な対応をした。

客室位置による違い

上記の引用から,船の右側の船室だったのか,それとも左側だったのかというのが意味を持ってくるかもしれないことがわかりました.そこで部屋番号から右左がわかるかを調べてみたところ,フランス語のサイト船内の見取り図がありましたので,これから奇数の部屋番号は船の進行方向右側,偶数は左側ということが明らかになりました.

また,客室名にはアルファベットのA-Gの文字が頭についていますが,これはどうやら階層を表しているようです.こちらこちらのサイトに詳細な船内見取り図があるのですが,上から順番にA-Gとなっていて,大半のフロアは1等の客室で,2等は一番下の階層に,また3等は船尾に位置していたようです.

乗船地による違い

これについては,ほとんど資料が見つからず正直よくわからない部分が多いです.ただこちらのアイルランドのツアーガイドさんのブログによると,少なくともクイーンズタウンで乗船した乗客は,その多くがアメリカへの移民である3等船室の客であったようです.

北アイルランドのベルファーストで造船されたタイタニック号は、イギリスのサザンプトンを出航してフランスのシェルブールに停泊。1912年4月11日、当時クイーンズタウンと呼ばれていたコーヴ港へやって来ました。
ここで乗客123人(多くがアメリカへ移民する3等客船の乗客たち)を乗せ、ニューヨーク目指して大西洋航海へ出発、その3日半後に海難事故で遭難してしまいました。

運賃のばらつきの意味

運賃についても,至極ざっくりとした情報しかWebでざっと探した範囲では見つかりませんでした.このあたり,書籍等で細かく検証しないと本当はいけないのでしょうが,今回はあくまで予測モデル構築の教材なので,そこまではしません.ただ先述のサイトによると,一等船室は870ポンドで,3等船室は3-6ポンドとあります.

区分 料金
一等 870ポンド,4350ドル(現在の価値で50000ドル(約575万円))
三等 3~6ポンド,15~30ドル(現在の価値で172~345ドル(約2~4万円))

おそらく,この1等の料金は,特等客室の料金ではないかと推測されます.値段にばらつきがあるのは,同じ等級の中でも細かくグレードが分かれているということなのかと推測されます.

沈没までの時間経過

沈没までのタイムラインはこちらにまとまっています.脱出の際には,まず船の先頭からボートをおろし,それが終わってから船尾のボートをおろすという流れだったようです.

以上が,資料からわかる情報となります.これをもとに次回はデータの前処理を行っていきたいと思います.