About connecting the dots.

data science related trivial things

kaggleで予測モデルを構築してみた の検索結果:

kaggleで予測モデルを構築してみた (7) - モデル作成とkaggleでのテスト実行

さて,長々と書いてきた予測モデルの構築についてですが,今回でいったんの区切りを付けたいと思います. モデル構築 これまでやってきた手順で,データの作成とモデル構築を以下のように行っていきます.モデルはランダムフォレストで,クロスバリデーションで結果を確認した上でテストデータで予測値の算出をしています. # ライブラリの読み込み library('randomForest') library('e1071') library('nnet') library('mi') libr…

kaggleで予測モデルを構築してみた (6) - FIMLの仕組みとRのimputationパッケージ

さて,前回で述べた通りに今回はFIMLについてみていこうと思っていろいろ調べていましたが,結論からいうとFIMLでは欠測値の推定は行わないということがわかりました.FIMLの数理的な意味については,以下の論文に書かれているので,詳しくは読んでください.http://www4.ocn.ne.jp/~murakou/missing_data.pdf FIMLの概要 FIMLというのは,平たくいえばサンプルごとに異なる多変量正規分布を仮定したEMアルゴリズムということになります.E…

kaggleで予測モデルを構築してみた (5) - Rで行うMultipleImputation

ということで,前回で触れたように,データの前処理を実際に行っていきたいと思います.その中でも今回は,欠損値補完についての話をしていきます.今回のデータでは,NAが含まれているageのデータを補完する必要があります.とはいえ,欠損値を補完するにもいくつか方法があって,どの補完を行うのが妥当かというのを考えなければいけません.そこでまず,欠損値がどういう性質を持っているかについてみていきましょう. 欠損のメカニズム 欠損のパターン データの欠損には大きく分けて3つのパターンがあり…

kaggleで予測モデルを構築してみた (4) - データの背景を調べる

前回は,データの前処理に先立って,各データの概要をみました.その上で今回は,Web上で手に入るタイタニックの史実をまとめて,データ前処理のための手がかりをつかむことにしましょう. タイタニック号の客室区分 客室は主に1-3等の客室と,その上の特等と呼ばれるランクに分けられていたようです.ただ特等は数が少なかったのか,特等の乗客が何人いたのかはよくわからないみたいです.とりあえずWikipediaによると,乗客数は以下の通りだったそうですね. 船客数: 1等329人 2等285…

kaggleで予測モデルを構築してみた (3) - データの構成を確認する

ということで,前回に引き続きタイタニックのデータを使って分析をしていきましょう.といっても今回は判別手法から戻って,データの前処理のお話です. データの前処理とは 今回のデータはところどころに欠損があったり,推測の値が入っていたりして,機械学習にかけるにはわりと"汚い"データだといえるでしょう.そんなときに,前回のように適当な補完をしていたのでは,得られるはずの精度も得られなくなってしまいます.勝負は機械学習のパラメタチューニングをする前の,データ取得とデータ加工にかかってい…

kaggleで予測モデルを構築してみた (2) - Rで機械学習パッケージをまとめて試してみる

ということで,引き続き入手したデータをRStudioに読み込んで予測モデルを試すところに進みたいと思います. データ読み込み RStudioでのデータ読み込みは簡単で,下の図のように画面右上部分のボタンを押してファイルを読み出せば,csvファイルを普通に読み込んでくれると思います.データファイル自体は文字コードがShift-JISでWindows用なので,Macの人は文字コードをUTF8,改行コードをLFにしておくとよいと思います.文字コードと改行コードの変更は,CotEdi…

kaggleで予測モデルを構築してみた (1) - kaggleって何?

データ解析に適したデータというのは案外世の中にはないもので,官公庁データやらなんやらをみても,エクセルにまとめられた集計表がポンッとおいてあるだけだったりして,しょんぼりすることが多いですね.そんなおり,昨年のRのアドベントカレンダーでKaggleで予測モデルを作ってみよう!(Rアドベントカレンダー) - iAnalysis 〜おとうさんの解析日記〜という記事をみつけたので,試してみました.このKaggle: making data science a sportというサイト…