About connecting the dots.

data science related trivial things

みせかけの回帰 (1)

先日話題になっていたエントリのなかで,みせかけの回帰というものがありました.すごく乱暴にひとことで要約すると,前の値に数字を足すことで次の値が導かれるような変数の場合,全く関係ない2変数で相関がみられてしまう,ということだそうです.

ということで,もう少し定義的な部分を含めて調べてみました.

見せかけの回帰の定義

見せかけの回帰については「互いに無関係の,単位根過程どうしで回帰分析を行った際に,実際よりも高い説明力が生じてしまう現象」とあらわすことができます.さて,ここでいう単位根過程とはいったいなんでしょうか.

単位根過程とは

単位根過程とは,Cointegration① - 勉強日記からのまた引きで恐縮ですが,若本先生の経済・ファイナンスデータの計量時系列分析によると「原系列が非定常過程であり、差分系列が定常過程であるとき、過程は単位根過程(unit root process)といわれる。」とのことです.さて,ここで非定常過程,定常過程と出てきました.

定常過程とは

Wikipediaによると,定常過程とは「時間や位置によって確率分布が変化しない確率過程を指す」一方で,非定常過程とは上記の前提を満たさないすべての確率過程があてはまります.わかりにくいのでもう少し噛み砕いていうと,変数Xの平均や分散が時間依存なものであれば(例えば日経平均株価とか),それは非定常過程です.日経平均株価はいわゆる時系列データと呼ばれるものであり,今日の株価を知りたければ,前の日の株価からある程度予測をつけることが可能です.

差分系列の場合

さて,もとの単位根過程の定義には,「原系列が非定常過程であり、差分系列が定常過程であるとき」とあります.日経平均株価を原系列とすると,先ほどいったように非定常過程になるわけです.それでは日経平均株価の差分系列(ある日の株価から,その前日の株価を引いたもの,をずーっと並べたもの)は,時間に依存するでしょうか.ぱっと考えれば,前の日の株価より今日の株価が高いか低いかは,正直予測するのが難しいのがわかると思います.というより,それが簡単にわかるなら,株で大もうけできますね.ということで,日経平均株価の差分系列は定常過程と考えることができます.

と,以上から日経平均株価は「原系列が非定常過程であり、差分系列が定常過程」なので,単位根過程であると考えられます.なので,同じように単位根過程っぽい2012/4-10月の巨人の勝率から,同時期の日経平均株価を予測すると,実際は関係ないはずなのに,それなりの説明力が得られてしまったりするわけです,なんと,巨人の勝率が日経平均株価を予測する!! なんてトンデモ理論が出てきたりするわけですね.

ということで,実際に回帰分析を行う際に,単位根過程か否かをちゃんと検証しておかないとえらいことになるわけです.そのやり方が単位根検定と呼ばれるものですが,そのあたりについては次回にまとめたいと思います.