About connecting the dots.

data science related trivial things

みせかけの回帰 (2)

ということで,しばらく時間があいてしまいましたが.前回の続きです.この間に,せっせと沖本先生の計量時系列分析を読んでいました.そして,さらにその間に,もともとこのエントリを書くきかっけになった@TJO_datasciさんのエントリで,さらに詳しいみせかけの回帰の説明がアップされました.

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

そんなわけで,今更通り一遍のことをやっても意味ないよなぁという気はしているのですが,もう少し初歩的な部分と,触れていないような側面からいくつかまとめてみようかなと思った次第です.

時系列データ

前回のエントリを読みなおしていて,実は肝心なことが抜けていたことに気づきました.このみせかけの回帰というのは,回帰一般のお話ではなくて,あくまで時系列データの回帰においてのみ問題になってくることである,という話です.当然,前回説明した定常過程や単位根過程というのは,すべて時系列データについてのものです.

というのをふまえた上で,実際に単位根検定にいく前に,さらにいくつか基礎的な部分のサマリをまとめておきたいと思います.時系列データを扱う際の最も基本的な捉え方として,AR過程とMA過程という2つがあります.

AR過程

AR過程(自己回帰過程,autoregressive process)は,過去データを説明変数とした回帰の形で,現在のデータを予測するモデルです.1次AR過程(AR(1)過程)は以下の式で表されます.つまり1時点前のデータから,現在のデータを予測する形です.同様に2時点前,3時点前とさらに過去の時点のデータを用いることができ,それぞれAR(2),AR(3)と表されます.

y_{\fs{-1}t}=c+\phi_{\fs{-1}1}x_{\fs{-1}t-1}+\epsilon_{\fs{-1}t}

MA過程

MA過程(移動平均過程,moving average process)は,過去のホワイトノイズを説明変数とした回帰の形で,現在のデータを予測するモデルです.AR過程と同様,n時点前のホワイトノイズまで含んだものをMA(n)と書きます.

y_{\fs{-1}t}=\mu+\epsilon_{\fs{-1}t}+\theta_{\fs{-1}1}\epsilon_{\fs{-1}t-1}+\theta_{\fs{-1}2}\epsilon_{\fs{-1}t-2} + ... +\theta_{\fs{-1}n}\epsilon_{\fs{-1}t-n}

ホワイトノイズ

上で出てきたホワイトノイズとは,沖本先生の定義では以下のようになります.分散が一定で,かつ自己相関を持たない(自身の他時点のデータと相関を持たない)というものです.

すべての時点tにおいて,
E(\epsilon_{\fs{-1}t})=0
\gamma_{\fs{-1}k}=E(\epsilon_{\fs{-1}t},\epsilon_{\fs{-1}t-k})=\{\sigma_{\fs{1}2},\;\;k=0\;;\;\;\;\;\;\; 0,\;\;k\neq0\}

上記のAR(p)過程とMA(q)過程を合わせたものが,ARMA(p, q)過程と呼ばれるものになります.さらに,ARMA過程において,d階差分を取った場合に,それが定常かつ反転可能な場合に,ARIMA(p, d, q)過程と呼びます(このあたりの細かい定義なりを簡単に説明するのは無理なので,原本にあたることをお勧めします).今回の例では,ARIMA過程のうちAR部分のしかも1階差分のみで説明するので,実際にはAR(1)で1階差分が定常のものだけ考えます.というか,これってまさしく単位根過程のことですよねw

単位根検定

続いて,単位根検定の説明に移りたいと思います.単位根検定は,帰無仮説(H0)を単位根AR(p)モデル,対立仮説(H1)を定常AR(p)モデルとして統計量を算出し,帰無仮説が棄却されるかどうかをみるものです.手法としてよく使われるのがADF(Augmented Dickey-Fuller)検定です.さらにAR(p)過程以外にも,誤差項が自己相関を持ったり分散不均一性を持つ場合まで含めるPP(Phillips-Perron)検定というものがあるそうです.

DF検定

ADF検定を説明するために,まずはAR(1)のみを仮定した単位根検定である,DF検定について述べます.そのなかでも最もシンプルな,以下の場合について考えてみます*1

H_{\fs{1}0}:\;\;y_{\fs{-1}t}=y_{\fs{-1}t-1}+u_{\fs{-1}t}
H_{\fs{1}1}:\;\;y_{\fs{-1}t}=\rho y_{\fs{-1}t-1}+u_{\fs{-1}t},\;\;\;\|\rho|<1

最もシンプルな上記モデルでは,以下の回帰モデルにおいて,|\rho|=1か否かを片側検定するのがDF検定であるといえます*2

y_{\fs{-1}t}=y_{\fs{-1}t-1}+u_{\fs{-1}t},\;\;\;u_{\fs{-1}t} \sim iid(0,\sigma_{\fs{1}2})

このあたりの収束の仕組みについては.やはり原著をあたるのが確実化と思いますが,まぁDF検定を使えば上記の|\rho|=1の検定ができるよということになります.そして,ここでAR(1)だったものをAR(p)に拡張したものが,ADF検定になるわけです.

と,ここまででようやく道具立ての説明ができたので,次回でADF検定をいくつか試してみたいと思います.ということで今回はここまで.

*1:これ以外にも,帰無仮説と対立仮説が定数項を含んだモデル,さらに対立仮説にトレンド項まで含めたモデルの3パターンが考えられる

*2:iidとは,independently and identically distributedの略で,沖本先生の定義によると「各時点のデータが互いに独立でかつ同一の分布に従う系列」となります.先ほど出てきたホワイトノイズよりも,さらに制約の厳しいものになります