About connecting the dots.

data science related trivial things

2013-01-01から1年間の記事一覧

プロ野球の投手力をMCMC+階層ベイズモデルで計算してみる

大分間が空きましたが,師走で本業が忙しくて,なかなか時間が取れませんでした.その間に時期外れになってしまった気もしますが,今さら流行に乗ってMCMC+BUGSでモデリングしてみました.ネタは,これもまた旬を逃した2013プロ野球です. お題 よくいわれる…

Rで単純パーセプトロンを組んでみる

社内の勉強会で,単純パーセプトロンを実装したので,公開してみます.単純パーセプトロンとはなんぞや,という方については,TJOさんとかあんちべさんのエントリを読んでいただければと思います.今回の実装では,あんちべさんの説明のを下敷きにして,ベタ…

ShinyでGETパラメタを受け取ってグラフを更新する

shinyって簡単にグラフを作るのは便利なんですが,ちゃんとメンテしようと思うと割と大変です.なので,メインのui.Rとserver.Rコンポーネントを作って,あとはGETパラメタを引き渡して複数のグラフを表示する形にするとよさそうです.さて,ではshinyにどう…

MacからRDCでWindows7のExcelを快適に操る方法

問題 最近メインマシンがMacになったんですが,問題が一つ.ちょっとしたデータを軽く加工してグラフを作るときなんかに,Excelのピボットテーブルを重宝しているわけですが,MacのExcelはゴミなので,ピボットグラフ機能が存在しません.こんなExcelには何…

調査観察データにおける因果推論(4) - Rで傾向スコアを出す際の共変量選択基準

目次 調査観察データにおける因果推論(1) - 無作為割り当てされていないことの問題 - About connecting the dots. 調査観察データにおける因果推論(2) - 傾向スコアとIPW推定量,二重にロバストな推定量 - About connecting the dots. 調査観察データにおけ…

調査観察データにおける因果推論(3) - Rによる傾向スコア,IPW推定量,二重にロバストな推定量の算出

目次 調査観察データにおける因果推論(1) - 無作為割り当てされていないことの問題 - About connecting the dots. 調査観察データにおける因果推論(2) - 傾向スコアとIPW推定量,二重にロバストな推定量 - About connecting the dots. 調査観察データにおけ…

調査観察データにおける因果推論(2) - 傾向スコアとIPW推定量,二重にロバストな推定量

目次 調査観察データにおける因果推論(1) - 無作為割り当てされていないことの問題 - About connecting the dots. 調査観察データにおける因果推論(2) - 傾向スコアとIPW推定量,二重にロバストな推定量 - About connecting the dots. 調査観察データにおけ…

調査観察データにおける因果推論(1) - 無作為割り当てされていないことの問題

目次 調査観察データにおける因果推論(1) - 無作為割り当てされていないことの問題 - About connecting the dots. 調査観察データにおける因果推論(2) - 傾向スコアとIPW推定量,二重にロバストな推定量 - About connecting the dots. 調査観察データにおけ…

言語処理のための機械学習入門

言語処理のための機械学習入門 (自然言語処理シリーズ)作者: 高村大也,奥村学出版社/メーカー: コロナ社発売日: 2010/07メディア: 単行本購入: 13人 クリック: 235回この商品を含むブログ (33件) を見る自然言語処理と書いてありますが,普通に機械学習の教…

Rで複数変数のサマリをさくっと可視化する

変数の要約をして,だいたいの概要を把握するときって,だいたいboxplotとかみてこんなもんかーって思って,あとは相関表をだして眺めるみたいなことをよくやったりするんですけど,これが案外面倒なので,もう少し楽にできないかなって思ってました.特に相…

施策の効果をどうやって測るか(3) - compute.esパッケージによる効果量の計算

前回までで説明した効果量について,実際にRで計算してみましょう.使用するのは{compute.es}パッケージです.基本は実験系の研究分野でメタ分析を実施する際に使われるパッケージだそうです.パッケージマニュアルはこちらにあるので,詳細はこちらを見てく…

施策の効果をどうやって測るか(2) - 検出力と効果量

前回で仮説検定のお話をしましたが,その中で「有意水準」というものがでてきました.今回は,その有意水準を正しく検出できる力(=検出力)と,検出された効果の実質的な意味(=効果量)についてみていきます. 有意水準とは 前回でも触れましたが,有意…

施策の効果をどうやって測るか(1) - 仮説検定とは

なんかの施策を打ったときに,それが実際に効果を持っていたか,というのを正しく測定するにはどうしたらいいのでしょうか.ということで今回はべたべたですが統計的仮説検定のお話です.定義的な部分が先にくるのはご容赦を...そもそものきっかけは,お仕事…

Box-Cox変換で変数を正規分布に近づける

よくある問題 実データを使って分析するときによくあるのが,すっごく偏った分布のデータで,正規性を仮定した分析を行いたいという状況です.具体的には,回帰分析の独立変数に年収とかを使う場合なんかです.回帰分析だと,独立変数が正規分布をしていない…

Rでの平均値の差の検定のスニペット

仕事でぱぱっと平均値の差の検定のコードを書かないといけなくて,そういやRでどう書くんだっけとか思って若干調べたので,スニペットがわりにまとめておくことにします.今回は,サンプルデータとして有名なirisを使います.irisのデータは以下の構成です.…

データ分析から戦略を考える立場になりつつある状況で役に立ちそうな本3+1冊

ということで,職域の変化に伴い,技術書以外の本を読む機会が増えてきている今日この頃です.大学にいた頃は割といろいろ読んでたんですが,ソフトウェア / データマイニングエンジニアのようなことをしていると,専門分野でも覚えることが多いので,なかな…

excelのピボットテーブルで値がない部分のラベルも表示させる方法

最近職域がちょっと変化して,マネジメント側の業務量の比率が上がりました.そんなわけで,レポーティングのためにexcelをいじる機会が激増しているわけです.これまでピボットテーブルってそんなに使う機会なかったんですけど,これを機にいろいろ覚えてい…

みせかけの回帰 (3)

前回までで,みせかけの回帰に関する基礎概念の説明を終えました.今回は,実際にRを使ってみせかけの回帰の再現と,単位根検定の実施をしていきたいと思います.そのために,あらかじめ{tseries}パッケージを入れておきましょう. MSCIデータ データの読み…

みせかけの回帰 (2)

ということで,しばらく時間があいてしまいましたが.前回の続きです.この間に,せっせと沖本先生の計量時系列分析を読んでいました.そして,さらにその間に,もともとこのエントリを書くきかっけになった@TJO_datasciさんのエントリで,さらに詳しいみせ…

みせかけの回帰 (1)

先日話題になっていたエントリのなかで,みせかけの回帰というものがありました.すごく乱暴にひとことで要約すると,前の値に数字を足すことで次の値が導かれるような変数の場合,全く関係ない2変数で相関がみられてしまう,ということだそうです.というこ…

セミコロンに関するPigの既知のバグ

問題:セミコロンをパースできない PigにはSTRSPRITという,区切り文字で文字列を分割する関数があります.PHPでいうところのexplode()みたいなもんですね.Pigでは改行文字として";"を使ってるんですが,このセミコロンを区切り文字にしてしまうと,以下の…

crontab表記の間違いにはまったこと

よくある処理で,30 秒おきにバッチを実行するcrontabを設定してたんですが,これがどうやら正常に終了せず延々と繰り返し実行され続け,最終的にプロセス過多で落ちるなんてことが,この前ありました.設定してたのがこんな感じ. * * * * * /usr/bin/php /…

Rで高速に大量データを読み込んでデータフレームに格納する方法 (2)

前回,read.table()とscan()を比較したんですが,もう少しきちんと調べてみると,実はread.tableパッケージというものがあるということを知りました.さらにstackoverflowにドンピシャのスレッドを見つけたので,これを実際に確かめてみました. freadの検証…

Rで高速に大量データを読み込んでデータフレームに格納する方法 (1)

注)この記事よりもっと効率的なやり方が,Rで高速に大量データを読み込んでデータフレームに格納する方法 (2) - About connecting the dots.に載っています.===サンプリングした小規模データをRでいろいろ処理して,必要な分析がすべてできたら,最後に全…

統計学を拓いた異才たち

統計学を拓いた異才たち―経験則から科学へ進展した一世紀作者: デイヴィッドサルツブルグ,David S. Salsburg,竹内惠行,熊谷悦生出版社/メーカー: 日本経済新聞社発売日: 2006/03メディア: 単行本購入: 28人 クリック: 366回この商品を含むブログ (90件) を見…

Rのggplot2のスニペット(主に自分用)

主に自分用のメモです.ggplot2って,コマンドがややこしいので,いったん覚えてもすぐ忘れちゃうんですよね.なのでスニペットでもつくって楽したいですね,というのが今回の趣旨です. 基本的な使い方 まずggplot()の中で,使用するデータフレームや変数名…

1からみなおす線形モデル (3) - 一般化線形混合モデル

目次 1からみなおす線形モデル (1) - 一般線形モデル - About connecting the dots. 1からみなおす線形モデル (2) - 一般化線形モデル - About connecting the dots. 1からみなおす線形モデル (3) - 一般化線形混合モデル - About connecting the dots. はじ…

1からみなおす線形モデル (2) - 一般化線形モデル

目次 1からみなおす線形モデル (1) - 一般線形モデル - About connecting the dots. 1からみなおす線形モデル (2) - 一般化線形モデル - About connecting the dots. 1からみなおす線形モデル (3) - 一般化線形混合モデル - About connecting the dots. はじ…

1からみなおす線形モデル (1) - 一般線形モデル

目次 1からみなおす線形モデル (1) - 一般線形モデル - About connecting the dots. 1からみなおす線形モデル (2) - 一般化線形モデル - About connecting the dots. 1からみなおす線形モデル (3) - 一般化線形混合モデル - About connecting the dots. はじ…

Apacheログのフォーマットと各項目の意味

最近LTSVが界隈でブームな訳ですが,そういやAPacheログのフォーマットってちゃんと理解していなかったなと思って,きちんと調べなおしてみました.というわけで,今回は自分の備忘録的なメモということで. Apacheログの設定 ログの形式は,Apacheの設定フ…