施策の効果をどうやって測るか(2) - 検出力と効果量

前回で仮説検定のお話をしましたが，その中で「有意水準」というものがでてきました．今回は，その有意水準を正しく検出できる力（＝検出力）と，検出された効果の実質的な意味（＝効果量）についてみていきます．

有意水準とは

前回でも触れましたが，有意水準（significance level）は，それより確率が低い事象が起きたときには「その事象は偶然ではない」と判断するための基準値です．分野によって違いますが，だいたいの行動科学では，通常は5%が，効果が検出しづらい研究対象/分野では10%が有意水準として使われる場合が多いです．なので，5%とか10%とかに実質的な意味はありません．単なる慣習です．

サンプルサイズと検出力

検定を行う対象となる統計量は，基本的にはサンプルサイズが増えれば増えるほど大きな値を取る傾向があります．たとえば下の例は，スチューデントのt統計量ですが，式をみればわかる通り，サンプル数のnが大きければ大きいほど，分母の値が小さくなります．

$T=\frac{(\bar{x}-\mu)}{\frac{s}{\sqrt{n}}}$

ですのでサンプル数が増えるほど，有意水準を超えやすくなります．この「H0 が誤っているときに，H0 を棄却できる確率」を検出力（power）といいます(詳細は青木先生の説明あたりを参考にしてください)．たとえば，ほんのちょっとではあるけどこの場合には差がみられるだろう，という仮説を立てた場合に，サンプル数が10とか15とか非常に少なかった場合には，もともとほんのちょっとしかない差なわけですから，そもそも差を正しく統計的に検出することができないわけです．

ですので，どのくらい差があるかまで含めて仮説を立てられるのであれば，その有意水準を超えるようなサンプルをちゃんと取りましょうね，という話になるわけです．

効果量

と，ここまでは統計学の教科書にも割とよくでているお話です．統計を使ったような研究だと，有意かどうかだけが大事で，実際のところどれだけの差があったのかには言及しないことが多いです．しかし企業で業績を上げるための分析を行っている場合，「この施策を打ったら95%以上の確率で，月の総売上が500円増えます！」とかいったら，さすがに怒られますよね（笑）　つまり「差があるかどうか」だけではなく「どのくらいの差があるか」を考える必要があります．

その「どのくらいの差」を表す指標が，効果量（effect size）です．Cohen(1988)が提唱した行動科学における効果量の目安が有名なようです．Cohenの著書の中では，以下のような基準が示されています．

項目	指標	効果量小	効果量中	効果量大
相関係数	$r$	0.10	0.30	0.50
カイ二乗検定（2*2の場合）	$\hat{\omega}$	0.10	0.30	0.50
カイ二乗検定（それ以外）	φ	0.10	0.30	0.50
独立な2群のt検定	$d$	0.20	0.50	0.80
分散分析	$f$	0.10	0.25	0.40
重回帰分析	$R^2$	0.02	0.13	0.26

たとえばdは平均値の差を標準偏差で割ったもので，以下の値で算出できます．

$d=\frac{\mu-\mu_{0}}{\sigma}$

要するに，平均値の差が標準偏差の10%もないようでは，有意水準を超えていたとしても，実質的な意味はないといわれてしまうわけです．ただまぁ，このあたりの値はあくまで目安ですし，分野によっても基準となる値が変わってきます．さらにいえば，企業の実務においては，類例の事例があるわけでもなく，ある程度は感覚的にそれだと意味がない，といった判断にならざるを得ないです．ただその際の目安にはなるのかな，ということではありますが...

同じように，カイ二乗検定の場合，2*2の場合は $\hat{\omega}$ が使えるので，下記の式になります．

$\hat{\omega}=\sqrt{\sum\frac{(p_{0}-p_{e})^2}{p_{e}}}$