About connecting the dots.

data science related trivial things

施策の効果をどうやって測るか(1) - 仮説検定とは

なんかの施策を打ったときに,それが実際に効果を持っていたか,というのを正しく測定するにはどうしたらいいのでしょうか.ということで今回はべたべたですが統計的仮説検定のお話です.定義的な部分が先にくるのはご容赦を...

そもそものきっかけは,お仕事でχ2検定周りを復習したり,サンプルサイズの決め方を読んだりしていて,そういやそもそも検定って何だっけとかいう根本的なことについて,理解のし直しをしたりしていました.大学の学部で習ったはずなんだけど,まるですっかり理屈の部分が抜けたりしているのですね... といったところが発端です.

サンプルサイズの決め方 (統計ライブラリー)

サンプルサイズの決め方 (統計ライブラリー)

定義的なもの

統計学入門 (基礎統計学)

統計学入門 (基礎統計学)

手元にあった東大出会の統計学入門を引っ張りだして,第12章の序文のところを引いてみると,

「仮説検定」は,統計的仮説の「有意性」の検定である.仮説の下でわれわれが期待するものと,観測した結果との違いを,これらの差が単に「偶然」によって起こったものか否かという見地から,確率の基準で評価する.

とのことです.ターゲットとなる出来事が,偶然に起こったのかどうかを確率的な基準で判断して,それが確率的にまれにしか起こらないはずであれば,それは偶然じゃなく意味がある差なんだよ,と考えるわけですね.で,ここでいう確率的な基準を当てはめるために使われるのが,一般に「統計量」と呼ばれる指標です.

この統計量は,すでに分布の形がわかっており,実際の数値を当てはめて計算することで,分布内のどの辺りに位置しているものかがわかるようなものが用いられます.と言葉で書いてもわかりにくいので,例を挙げましょう.

t統計量

t統計量とは,t分布という分布に従うような値のことをさします.最も良く知られている,スチューデントのt統計量は,以下の数式で表されます.

T=\frac{(\bar{x}-\mu)}{\frac{s}{\sqrt{n}}}

ここで\bar{x}は変数xの得られたデータの平均値,\muは母集団の真の平均,sは変数xの得られたデータの標準偏差,nは得られたデータ数です.で,データを当てはめて得られるt統計量Tが,事前に定めた有意水準を超えた場合に,これは偶然じゃない,というふうに結論づけるわけです.

要するに,知りたい値を,何らかの分布に従う統計量になんとかして当てはめて,その統計量がでかければ偶然じゃない,そうでなければ偶然だ,としてしまおうというのが仮説検定というお話なんですね.かなり乱暴な話ですが...

χ2分布とF分布

その他に古典的な仮説検定でよく使われるのが,χ2分布とF分布に従う統計量ですね.χ2分布に従う統計量というのは,下記の数式のように,正規分布に従う変数xの二乗値を足し算したものですね.

Z=\sum^{k}_{i=1}\frac{(x_{i}-\mu_{i})}{\sigma_{i}}

このような値を作れたら,それはχ2分布に従うので,χ2検定を行うことで仮説検定の枠組みに持ち込むことができるようになります.典型的には,標本として得られたデータの分散に対してχ2検定を行うことで,分散が母集団と異なっていないかの検定を行うことができる,といったものです.

同様にF分布に従う統計量というものは,χ2分布に従う2つの変数の比で表すことができます.たとえば,正規分布に従う2つの群の「標準偏差が等しい」という帰無仮説の検定なんかが,典型的な例ですね*1

要するに

なんか知りたい値があったときに,それが従うような分布をなんとかして昔のえらい統計学者さんたちが導きだしてくれていて,それをわれわれが使わせてもらっているというお話なわけですね.便利なもんです,統計量.

*1:この例は,分散分析の前の等分散性の検定で行われるものですね