About connecting the dots.

data science related trivial things

2013-01-01から1年間の記事一覧

入門はじめての統計的推定と最尤法

入門はじめての統計的推定と最尤法作者: 石村貞夫,石村光資郎,劉晨出版社/メーカー: 東京図書発売日: 2010/02メディア: 単行本購入: 3人 クリック: 9回この商品を含むブログ (3件) を見る本業ではコードを書いたり応用的な統計処理はするものの,基礎的な統…

マンガでわかる統計学

マンガでわかる統計学作者: 高橋信,トレンドプロ出版社/メーカー: オーム社発売日: 2004/07メディア: 単行本購入: 150人 クリック: 1,707回この商品を含むブログ (191件) を見る会社の蔵書にあったので,30分くらいでざーっと読んでみたんですが,思った以上…

パラメトリックとノンパラメトリック

前回Cox比例ハザードモデルについてまとめましたが,その中でパラメトリック,ノンパラメトリックという言葉が出てきました.この言葉って,字句通りの意味と実際に意味するところが乖離していて,勘違いしやすいので,軽くまとめました.あくまで統計学の文…

Rで生存時間分析を行う

私事ですが,インフルエンザで1週間くたばっていたせいでR勉強会に参加できませんでした.ただ体調は既にすこぶる回復し,かつ外にも出れなくて暇なので,今まで試したことのなかった生存時間分析を試してみることにしました. 生存時間分析とは 詳しくはwha…

TaskTrackerとDataNodeのゾンビプロセスをすべてkillする

一昨日書いたように,ノードのプロセスがまとめてゾンビ化すると,割と泣きそうになりますよね.クラスタがでかければでかいほど,手作業でやるとかあり得ない話なので.なので,こんな感じの自動化スクリプトを作ってみました.ほんとはbashの1ライナーでや…

JobTrackerのヒープ領域を増やしてOOMEを防ぐ

Hadoopで重たいジョブをたくさん回していると,JobTrackerのヒープ領域がだんだん食われていって,そのうちOut of Memory Errorになって落ちちゃうことが結構多いんですよね.なんか適切にGCとかしてくれないのかなぁとか思うんですが,Dark side of Hadoop…

kaggleで予測モデルを構築してみた (7) - モデル作成とkaggleでのテスト実行

さて,長々と書いてきた予測モデルの構築についてですが,今回でいったんの区切りを付けたいと思います. モデル構築 これまでやってきた手順で,データの作成とモデル構築を以下のように行っていきます.モデルはランダムフォレストで,クロスバリデーショ…

kaggleで予測モデルを構築してみた (6) - FIMLの仕組みとRのimputationパッケージ

さて,前回で述べた通りに今回はFIMLについてみていこうと思っていろいろ調べていましたが,結論からいうとFIMLでは欠測値の推定は行わないということがわかりました.FIMLの数理的な意味については,以下の論文に書かれているので,詳しくは読んでください…

kaggleで予測モデルを構築してみた (5) - Rで行うMultipleImputation

ということで,前回で触れたように,データの前処理を実際に行っていきたいと思います.その中でも今回は,欠損値補完についての話をしていきます.今回のデータでは,NAが含まれているageのデータを補完する必要があります.とはいえ,欠損値を補完するにも…

kaggleで予測モデルを構築してみた (4) - データの背景を調べる

前回は,データの前処理に先立って,各データの概要をみました.その上で今回は,Web上で手に入るタイタニックの史実をまとめて,データ前処理のための手がかりをつかむことにしましょう. タイタニック号の客室区分 客室は主に1-3等の客室と,その上の特等…

kaggleで予測モデルを構築してみた (3) - データの構成を確認する

ということで,前回に引き続きタイタニックのデータを使って分析をしていきましょう.といっても今回は判別手法から戻って,データの前処理のお話です. データの前処理とは 今回のデータはところどころに欠損があったり,推測の値が入っていたりして,機械…