About connecting the dots.

data science related trivial things

不確実性を定式化するための確率過程

前回の記事で,二項分布に従う事象について,不確実性を求める例を紹介しました.このように,一定の規則に従ってランダムに事象が発生するような一連の事象を,確率過程と呼びます.ネタ本の入門リスク分析には,以下のように書いてあります.

確率過程(stochastic process)とは,事象がある定式化されたランダムな過程に従って生起する可算現象からなるシステムである

入門リスク分析―基礎から実践

入門リスク分析―基礎から実践

前回の例でいえば,以下のようにまとめることができるかと思います.

定義 前回の例
定式化 「コインを投げて裏表を判定する確率をpとしたときの表が出る回数」と定式化できる
ランダム コインを投げて表か裏のどちらが出るか*1は,コインを投げる前には結果が確定しないので,ランダムな事象といえる
可算現象 表が出る回数は数えられる

このような確率過程の代表例として,二項過程,ポアソン過程,超幾何過程があります.上に示した前回の例は,実は二項過程と呼ばれるものです.この二項過程において,「コインを投げて裏表を判定する確率p」をあらわした分布がベータ分布です.このベータ分布を使うことで,pの不確実性をモデル化することができました*2.今回は,これについてもう少し詳しくみていきます.

二項過程

定義

入門リスク分析では以下のように書かれています.要するにコイン投げですね.

二項過程(binomial process)は,独立かつ同一の試行をn回行う場合のランダムな可算システムである.そこではいずれの試行も成功確率は等しくpであり,n回の試行でs回成功するものとされている

二項分布

ここで,求めるべきパラメタはs, p, nの3つになるわけです.前回も説明した通り,このsをモデル化したものが2項分布であり,以下のように定義されます.つまり成功確率pが与えられていれば,n回の試行を行った際の成功回数sの確率分布を得ることができます.

p(s)=Binomial(n,p)=\left(\begin{array}{c}n\\x\end{array}\right) p^x (1-p)^{n-s}

この成功確率pをどのようにして決定するための事前分布として,以下のベータ分布を用いることができます.

ベータ分布

ベータ分布は,成功確率pをモデル化したものとして,以下のように定義されます.

p(p)=Beta(s+1,n-s+1)=Beta(\alpha,\beta)=\frac{p^{\alpha-1}(1-p)^{\beta-1}}{\int_0^1 t^{\alpha-1}(1-t)^{\beta-1} dt}

前回の例では,既に30回の試行を行っており,そのうち21回表がでていたので,これを元にベータ分布のパラメタを\alpha=s+1=21+1=22, \beta=n-s+1=30-21+1=10と定めることができます.その結果得られたpの確率分布を用いて,「30回コインを投げて21回表が出た」という事前情報を組み込んだモデル化ができるわけです*3

負の二項分布

さて,最後にnについてです.nは試行回数自体なんだから,分布も何もないじゃないか,と思うかもしれません.ですが見方を変えると「成功確率pが既知のときに,s回成功するためには,何回の試行が必要か」→「成功確率pが既知のときに,s回成功するためには,何回の失敗が必要か」という定式化をすることが可能です.このs回成功するために必要な失敗回数f=n-sをモデル化したものを負の二項分布と呼び,以下のように定義します.

p(f)=p(n-s)=NegBin(s,p)=\left(\begin{array}{c}s+(n-s)-1\\s-1\end{array}\right)p^s{(1-p)}^{n-s}

このようにして,二項過程に現れる3つのパラメタs, p, nをそれぞれ二項分布,ベータ分布,負の二項分布の3つによりモデル化することができました.

ポアソン過程

次にポアソン過程について述べます.これは,各試行が離散だった二項過程を,連続化したものと考えることができます.具体的には「単位時間あたりの事象生起回数を\lambdaとしたときに,時間tの間に事象\alpha回生起した」過程となります*4.ここで\alpha,\lambda,tのパラメタをモデル化するのが,この過程の役割になるわけです.

ポアソン分布

単位時間あたりの事象生起回数lambdaと,対象期間tが与えられたときに,対象期間における事象生起回数\alphaをモデル化したものがポアソン分布で,以下のようにモデル化されます.

p(\alpha)=Poisson(\alpha)=\frac{\lambda^x e^{-\lambda}}{!\alpha}

ガンマ分布

単位時間あたりの事象生起回数\lambdaは,以下のガンマ分布で定式化可能です.二項分布と同様,ポアソン分布におけるパラメタ\lambdaの事前分布として,このガンマ分布を用いることが可能です.

p(\lambda)=Gamma(\alpha,\frac{1}{t})=(1/t)^\alpha x^{\alpha-1} \frac{\exp({-(1/t) \lambda})}{\Gamma(\alpha)}

また,二項過程における負の二項分布と同様に,事象\alpha回生起するまでの所要時間t_1時間をモデル化する場合も,同様にガンマ分布を用いることができます.

超幾何過程

最後に超幾何過程についてですが,これは「ある母集団から非復元無作為標本抽出を行ったとき,特定の特徴を有する標本数を数える」過程と考えることができます.典型的には,袋にさまざまな色の玉が合計M個入っており,そのうちD個が赤色の玉の場合に,n個の玉を袋から取り出して,赤玉の個数を数えるという事例になるかと思います.

もう数式tex記法で書くの疲れたので,これ以上は書かないですが,上の2つと同じような定式化を行うことが可能です.「取り出した標本における赤玉の個数」を超幾何分布で,「取り出した標本内に赤玉がs個含まれるために取り出す必要のある標本数」を逆超幾何分布でモデル化できます*5

まとめ

二項過程,ポアソン過程,超幾何過程といった確率過程を用いることで,様々な場合に不確実性を考慮したモデル化を行うことができますよ,というお話でした.気が向いたら,ポアソン過程と超幾何過程でのシミュレーションをまとめます.

*1:この1回の試行自体をベルヌーイ試行と呼びます.ですので二項分布はベルヌーイ試行を繰り返した際の分布型と考えることができます

*2:ベイズ統計の場合は,二項分布の事前分布としてベータ分布を当てはめた上で,二項分布のpおよびベータ分布のパラメタ\alpha, \betaMCMCとか使って一気に推定するとかやったりするわけです.まぁそのあたりの説明については,久保本に詳しく書かれているので,そちらをお読みください

*3:ちなみに,1回も試行を行っていない場合はn=0, s=0ということで,Beta(1,1)になります.これは一様分布になり,二項分布の無情報事前分布と考えることができます

*4:典型的には,1日で壊れる確率が\lambdaの機械が,3年間で何個故障するかといった問題に当てはめることが可能です.

*5:しかし母集団のパラメタM, Dについては,分布当てはめを行うことはできず,一様事前分布を用いたベイズ推定が必要になります.