About connecting the dots.

data science related trivial things

調査観察データにおける因果推論(2) - 傾向スコアとIPW推定量,二重にロバストな推定量

補正法の概要

傾向スコア

平たくいえば,さまざまな共変量から割当群を予測するロジスティック回帰(またはプロビット回帰)を行って,得られた予測確率のことです.つまり「処置群に割り当てられる傾向をあらわすスコア」なので,傾向スコアと呼ばれます.処置群ダミーに加えて,この傾向スコアを共変量として投入した回帰分析を行うことで,共変量の効果を調整した,処置による因果効果を推定することができます*1

これにより,処置の有無により目的変数の平均値がいくら変動するか,という因果効果を推定することができます*2.それ以外に,傾向スコアの似たサンプル同士のマッチング,層別解析といった,前回紹介したような手法によって推定することも可能です.

IPW推定量

IPW推定量は,傾向スコアの逆数による重み付け平均を用いた,因果効果の推定量(処置群の目的変数の期待値E(y_{1})と,対照群の目的変数の期待値E(y_{0})の差分)です.というのは,傾向スコアには以下にあげるようないくつかの欠点があります,

  • マッチング・層別解析では標準誤差や周辺期待値(処置群の目的変数の期待値E(y_{1})と,対照群の目的変数の期待値E(y_{0}))を求めることができない
  • 傾向スコアを用いても厳密に同一の傾向スコア同士のマッチングを行うことは至難で,かつ群毎のサンプル数に偏りがある場合,片方の群のデータの多くが無駄になってしまう
  • 回帰分析による推定では,傾向スコアと,目的変数が線形な関係になる必要があるが,傾向スコア自体は(ロジスティック回帰による処置群に含まれる確率であるため)0-1の間の値をとるので,線形性を仮定するのは論理的におかしい

こういった問題を解決するために,傾向スコアの逆数を用いて,目的変数の値に重み付けを行う手法が提案されました.これがIPW推定量(Inverse Probability Weighting Estimator: IPWE)です.具体的には,処置群と対照群の周辺期待値は以下のように表されます.また,後述する計算手法により,各群の周辺標準誤差も求めることが可能です.

\displaystyle\hat{E}(y_{1})=\sum^N_{i=1}\frac{\frac{z_{i}y_{i}}{e_{i}}}{\frac{z_{i}}{e_{i}}}

\displaystyle\hat{E}(y_{0})=\sum^N_{i=1}\frac{\frac{(1-z_{i})y_{i}}{1-e_{i}}}{\frac{1-z_{i}}{1-e_{i}}}

二重にロバストな推定量

IPW推定量は,傾向スコアより明らかに精度の高い調整を行うことができます.しかしこのモデルでは,傾向スコアを推定した後の,目的変数の周辺分布の母数推定に際して,対照群のデータの共変量の情報を用いていないため,データから得られる情報の一部を無駄にしていることになります.また当然ですが,共変量から処置群を予測するモデルの推定精度が低い場合には,当然IPW推定量自体の精度も低くなります.

そこで,上記の問題を改善するために,「傾向スコアを計算するために利用する「割り当てと共変量のモデル」が正しく推定されている」「「共変量で目的変数を説明する回帰関数」が正しく指定されている」のどちらかが成立してれば,正しく因果効果や周辺期待値を正しく推定できるモデルとして,二重にロバストな推定量(Doubly Robust Estimator: DRE)が提案されました.この方法における周辺期待値は以下のようになります.

\displaystyle\hat{E}^{DR}(y_1)=\frac{1}{N}\sum^N\left(y_{i1}+\frac{z_i-e(x_i,\hat{\alpha})}{e(x_i,\hat{\alpha})}(y_{i1}-g(x_i,\hat{\beta}_1))\right)\displaystyle\hat{E}^{DR}(y_0)=\frac{1}{N}\sum^N\left(\frac{(1-z_i)y_{i0}}{1-e(x_i,\hat{\alpha})}+(1-\frac{1-z_i}{1-e(x_i,\hat{\alpha})}g(x_i,\hat{\beta}_0)\right)

と,ここでRのコードを紹介しようと思ったのですが,予想以上に説明が長くなったので,この辺りは次回に回します.

*1:ここでは詳細について割愛しますが,このような推定が正しく行われるためには,「強く無視できる割り当て」という前提が満たされている必要があります.これは「共変量を条件付ければ,y1(処置群における目的変数)とy0(対象群の目的変数)の同時分布の形は,どちらの群に割り当てられたかには依存しない」という仮定のことです.詳細は星野本の第2章を参照してください.

*2:ただしこの方法では,y1の平均値およびy2の平均値を求めることはできず,あくまで両群の差とその標準誤差のみが求められることになります