2013-01-01から1年間の記事一覧
入門はじめての統計的推定と最尤法作者: 石村貞夫,石村光資郎,劉晨出版社/メーカー: 東京図書発売日: 2010/02メディア: 単行本購入: 3人 クリック: 9回この商品を含むブログ (3件) を見る本業ではコードを書いたり応用的な統計処理はするものの,基礎的な統…
マンガでわかる統計学作者: 高橋信,トレンドプロ出版社/メーカー: オーム社発売日: 2004/07メディア: 単行本購入: 150人 クリック: 1,707回この商品を含むブログ (191件) を見る会社の蔵書にあったので,30分くらいでざーっと読んでみたんですが,思った以上…
前回Cox比例ハザードモデルについてまとめましたが,その中でパラメトリック,ノンパラメトリックという言葉が出てきました.この言葉って,字句通りの意味と実際に意味するところが乖離していて,勘違いしやすいので,軽くまとめました.あくまで統計学の文…
私事ですが,インフルエンザで1週間くたばっていたせいでR勉強会に参加できませんでした.ただ体調は既にすこぶる回復し,かつ外にも出れなくて暇なので,今まで試したことのなかった生存時間分析を試してみることにしました. 生存時間分析とは 詳しくはwha…
一昨日書いたように,ノードのプロセスがまとめてゾンビ化すると,割と泣きそうになりますよね.クラスタがでかければでかいほど,手作業でやるとかあり得ない話なので.なので,こんな感じの自動化スクリプトを作ってみました.ほんとはbashの1ライナーでや…
Hadoopで重たいジョブをたくさん回していると,JobTrackerのヒープ領域がだんだん食われていって,そのうちOut of Memory Errorになって落ちちゃうことが結構多いんですよね.なんか適切にGCとかしてくれないのかなぁとか思うんですが,Dark side of Hadoop…
さて,長々と書いてきた予測モデルの構築についてですが,今回でいったんの区切りを付けたいと思います. モデル構築 これまでやってきた手順で,データの作成とモデル構築を以下のように行っていきます.モデルはランダムフォレストで,クロスバリデーショ…
さて,前回で述べた通りに今回はFIMLについてみていこうと思っていろいろ調べていましたが,結論からいうとFIMLでは欠測値の推定は行わないということがわかりました.FIMLの数理的な意味については,以下の論文に書かれているので,詳しくは読んでください…
ということで,前回で触れたように,データの前処理を実際に行っていきたいと思います.その中でも今回は,欠損値補完についての話をしていきます.今回のデータでは,NAが含まれているageのデータを補完する必要があります.とはいえ,欠損値を補完するにも…
前回は,データの前処理に先立って,各データの概要をみました.その上で今回は,Web上で手に入るタイタニックの史実をまとめて,データ前処理のための手がかりをつかむことにしましょう. タイタニック号の客室区分 客室は主に1-3等の客室と,その上の特等…
ということで,前回に引き続きタイタニックのデータを使って分析をしていきましょう.といっても今回は判別手法から戻って,データの前処理のお話です. データの前処理とは 今回のデータはところどころに欠損があったり,推測の値が入っていたりして,機械…