About connecting the dots.

data science related trivial things

2013-04-01から1ヶ月間の記事一覧

みせかけの回帰 (1)

先日話題になっていたエントリのなかで,みせかけの回帰というものがありました.すごく乱暴にひとことで要約すると,前の値に数字を足すことで次の値が導かれるような変数の場合,全く関係ない2変数で相関がみられてしまう,ということだそうです.というこ…

セミコロンに関するPigの既知のバグ

問題:セミコロンをパースできない PigにはSTRSPRITという,区切り文字で文字列を分割する関数があります.PHPでいうところのexplode()みたいなもんですね.Pigでは改行文字として";"を使ってるんですが,このセミコロンを区切り文字にしてしまうと,以下の…

crontab表記の間違いにはまったこと

よくある処理で,30 秒おきにバッチを実行するcrontabを設定してたんですが,これがどうやら正常に終了せず延々と繰り返し実行され続け,最終的にプロセス過多で落ちるなんてことが,この前ありました.設定してたのがこんな感じ. * * * * * /usr/bin/php /…

Rで高速に大量データを読み込んでデータフレームに格納する方法 (2)

前回,read.table()とscan()を比較したんですが,もう少しきちんと調べてみると,実はread.tableパッケージというものがあるということを知りました.さらにstackoverflowにドンピシャのスレッドを見つけたので,これを実際に確かめてみました. freadの検証…

Rで高速に大量データを読み込んでデータフレームに格納する方法 (1)

注)この記事よりもっと効率的なやり方が,Rで高速に大量データを読み込んでデータフレームに格納する方法 (2) - About connecting the dots.に載っています.===サンプリングした小規模データをRでいろいろ処理して,必要な分析がすべてできたら,最後に全…