About connecting the dots.

data science related trivial things

2013-01-01から1ヶ月間の記事一覧

Rで生存時間分析を行う

私事ですが,インフルエンザで1週間くたばっていたせいでR勉強会に参加できませんでした.ただ体調は既にすこぶる回復し,かつ外にも出れなくて暇なので,今まで試したことのなかった生存時間分析を試してみることにしました. 生存時間分析とは 詳しくはwha…

TaskTrackerとDataNodeのゾンビプロセスをすべてkillする

一昨日書いたように,ノードのプロセスがまとめてゾンビ化すると,割と泣きそうになりますよね.クラスタがでかければでかいほど,手作業でやるとかあり得ない話なので.なので,こんな感じの自動化スクリプトを作ってみました.ほんとはbashの1ライナーでや…

JobTrackerのヒープ領域を増やしてOOMEを防ぐ

Hadoopで重たいジョブをたくさん回していると,JobTrackerのヒープ領域がだんだん食われていって,そのうちOut of Memory Errorになって落ちちゃうことが結構多いんですよね.なんか適切にGCとかしてくれないのかなぁとか思うんですが,Dark side of Hadoop…

kaggleで予測モデルを構築してみた (7) - モデル作成とkaggleでのテスト実行

さて,長々と書いてきた予測モデルの構築についてですが,今回でいったんの区切りを付けたいと思います. モデル構築 これまでやってきた手順で,データの作成とモデル構築を以下のように行っていきます.モデルはランダムフォレストで,クロスバリデーショ…

kaggleで予測モデルを構築してみた (6) - FIMLの仕組みとRのimputationパッケージ

さて,前回で述べた通りに今回はFIMLについてみていこうと思っていろいろ調べていましたが,結論からいうとFIMLでは欠測値の推定は行わないということがわかりました.FIMLの数理的な意味については,以下の論文に書かれているので,詳しくは読んでください…

kaggleで予測モデルを構築してみた (5) - Rで行うMultipleImputation

ということで,前回で触れたように,データの前処理を実際に行っていきたいと思います.その中でも今回は,欠損値補完についての話をしていきます.今回のデータでは,NAが含まれているageのデータを補完する必要があります.とはいえ,欠損値を補完するにも…

kaggleで予測モデルを構築してみた (4) - データの背景を調べる

前回は,データの前処理に先立って,各データの概要をみました.その上で今回は,Web上で手に入るタイタニックの史実をまとめて,データ前処理のための手がかりをつかむことにしましょう. タイタニック号の客室区分 客室は主に1-3等の客室と,その上の特等…

kaggleで予測モデルを構築してみた (3) - データの構成を確認する

ということで,前回に引き続きタイタニックのデータを使って分析をしていきましょう.といっても今回は判別手法から戻って,データの前処理のお話です. データの前処理とは 今回のデータはところどころに欠損があったり,推測の値が入っていたりして,機械…