Rで生存時間分析を行う

私事ですが，インフルエンザで1週間くたばっていたせいでR勉強会に参加できませんでした．ただ体調は既にすこぶる回復し，かつ外にも出れなくて暇なので，今まで試したことのなかった生存時間分析を試してみることにしました．生存時間分析とは詳しくはwha…

TaskTrackerとDataNodeのゾンビプロセスをすべてkillする

一昨日書いたように，ノードのプロセスがまとめてゾンビ化すると，割と泣きそうになりますよね．クラスタがでかければでかいほど，手作業でやるとかあり得ない話なので．なので，こんな感じの自動化スクリプトを作ってみました．ほんとはbashの1ライナーでや…

Hadoopで重たいジョブをたくさん回していると，JobTrackerのヒープ領域がだんだん食われていって，そのうちOut of Memory Errorになって落ちちゃうことが結構多いんですよね．なんか適切にGCとかしてくれないのかなぁとか思うんですが，Dark side of Hadoop…

さて，長々と書いてきた予測モデルの構築についてですが，今回でいったんの区切りを付けたいと思います．モデル構築これまでやってきた手順で，データの作成とモデル構築を以下のように行っていきます．モデルはランダムフォレストで，クロスバリデーショ…

さて，前回で述べた通りに今回はFIMLについてみていこうと思っていろいろ調べていましたが，結論からいうとFIMLでは欠測値の推定は行わないということがわかりました．FIMLの数理的な意味については，以下の論文に書かれているので，詳しくは読んでください…

ということで，前回で触れたように，データの前処理を実際に行っていきたいと思います．その中でも今回は，欠損値補完についての話をしていきます．今回のデータでは，NAが含まれているageのデータを補完する必要があります．とはいえ，欠損値を補完するにも…

前回は，データの前処理に先立って，各データの概要をみました．その上で今回は，Web上で手に入るタイタニックの史実をまとめて，データ前処理のための手がかりをつかむことにしましょう．タイタニック号の客室区分客室は主に1-3等の客室と，その上の特等…

ということで，前回に引き続きタイタニックのデータを使って分析をしていきましょう．といっても今回は判別手法から戻って，データの前処理のお話です．データの前処理とは今回のデータはところどころに欠損があったり，推測の値が入っていたりして，機械…