不確実性を定式化するための確率過程

前回の記事で，二項分布に従う事象について，不確実性を求める例を紹介しました．このように，一定の規則に従ってランダムに事象が発生するような一連の事象を，確率過程と呼びます．ネタ本の入門リスク分析には，以下のように書いてあります．

確率過程（stochastic process）とは，事象がある定式化されたランダムな過程に従って生起する可算現象からなるシステムである

作者: デビッドヴォース,David Vose,長谷川専,堤盛人
出版社/メーカー: 勁草書房
発売日: 2003/08
メディア: 単行本
購入: 1人クリック: 30回
この商品を含むブログ (8件) を見る

前回の例でいえば，以下のようにまとめることができるかと思います．

定義	前回の例
定式化	「コインを投げて裏表を判定する確率をpとしたときの表が出る回数」と定式化できる
ランダム	コインを投げて表か裏のどちらが出るか*1は，コインを投げる前には結果が確定しないので，ランダムな事象といえる
可算現象	表が出る回数は数えられる

このような確率過程の代表例として，二項過程，ポアソン過程，超幾何過程があります．上に示した前回の例は，実は二項過程と呼ばれるものです．この二項過程において，「コインを投げて裏表を判定する確率 $p$ 」をあらわした分布がベータ分布です．このベータ分布を使うことで， $p$ の不確実性をモデル化することができました*2．今回は，これについてもう少し詳しくみていきます．

二項過程

定義

入門リスク分析では以下のように書かれています．要するにコイン投げですね．

二項過程（binomial process）は，独立かつ同一の試行を $n$ 回行う場合のランダムな可算システムである．そこではいずれの試行も成功確率は等しく $p$ であり， $n$ 回の試行で $s$ 回成功するものとされている

二項分布

ここで，求めるべきパラメタは $s, p, n$ の3つになるわけです．前回も説明した通り，この $s$ をモデル化したものが2項分布であり，以下のように定義されます．つまり成功確率 $p$ が与えられていれば， $n$ 回の試行を行った際の成功回数 $s$ の確率分布を得ることができます．

$p(s)=Binomial(n,p)=\left(\begin{array}{c}n\\x\end{array}\right) p^x (1-p)^{n-s}$

この成功確率 $p$ をどのようにして決定するための事前分布として，以下のベータ分布を用いることができます．

ベータ分布

ベータ分布は，成功確率 $p$ をモデル化したものとして，以下のように定義されます．

$p(p)=Beta(s+1,n-s+1)=Beta(\alpha,\beta)=\frac{p^{\alpha-1}(1-p)^{\beta-1}}{\int_0^1 t^{\alpha-1}(1-t)^{\beta-1} dt}$

前回の例では，既に30回の試行を行っており，そのうち21回表がでていたので，これを元にベータ分布のパラメタを $\alpha=s+1=21+1=22, \beta=n-s+1=30-21+1=10$ と定めることができます．その結果得られた $p$ の確率分布を用いて，「30回コインを投げて21回表が出た」という事前情報を組み込んだモデル化ができるわけです*3．

負の二項分布

さて，最後に $n$ についてです． $n$ は試行回数自体なんだから，分布も何もないじゃないか，と思うかもしれません．ですが見方を変えると「成功確率 $p$ が既知のときに， $s$ 回成功するためには，何回の試行が必要か」→「成功確率 $p$ が既知のときに， $s$ 回成功するためには，何回の失敗が必要か」という定式化をすることが可能です．この $s$ 回成功するために必要な失敗回数 $f=n-s$ をモデル化したものを負の二項分布と呼び，以下のように定義します．

$p(f)=p(n-s)=NegBin(s,p)=\left(\begin{array}{c}s+(n-s)-1\\s-1\end{array}\right)p^s{(1-p)}^{n-s}$

このようにして，二項過程に現れる3つのパラメタ $s, p, n$ をそれぞれ二項分布，ベータ分布，負の二項分布の3つによりモデル化することができました．

ポアソン過程

次にポアソン過程について述べます．これは，各試行が離散だった二項過程を，連続化したものと考えることができます．具体的には「単位時間あたりの事象生起回数を $\lambda$ としたときに，時間 $t$ の間に事象が $\alpha$ 回生起した」過程となります*4．ここで $\alpha,\lambda,t$ のパラメタをモデル化するのが，この過程の役割になるわけです．

ポアソン分布

単位時間あたりの事象生起回数 $lambda$ と，対象期間 $t$ が与えられたときに，対象期間における事象生起回数 $\alpha$ をモデル化したものがポアソン分布で，以下のようにモデル化されます．

$p(\alpha)=Poisson(\alpha)=\frac{\lambda^x e^{-\lambda}}{!\alpha}$

ガンマ分布

単位時間あたりの事象生起回数 $\lambda$ は，以下のガンマ分布で定式化可能です．二項分布と同様，ポアソン分布におけるパラメタ $\lambda$ の事前分布として，このガンマ分布を用いることが可能です．

$p(\lambda)=Gamma(\alpha,\frac{1}{t})=(1/t)^\alpha x^{\alpha-1} \frac{\exp({-(1/t) \lambda})}{\Gamma(\alpha)}$

また，二項過程における負の二項分布と同様に，事象が $\alpha$ 回生起するまでの所要時間 $t_1$ 時間をモデル化する場合も，同様にガンマ分布を用いることができます．

超幾何過程

最後に超幾何過程についてですが，これは「ある母集団から非復元無作為標本抽出を行ったとき，特定の特徴を有する標本数を数える」過程と考えることができます．典型的には，袋にさまざまな色の玉が合計 $M$ 個入っており，そのうち $D$ 個が赤色の玉の場合に， $n$ 個の玉を袋から取り出して，赤玉の個数を数えるという事例になるかと思います．

もう数式tex記法で書くの疲れたので，これ以上は書かないですが，上の2つと同じような定式化を行うことが可能です．「取り出した標本における赤玉の個数」を超幾何分布で，「取り出した標本内に赤玉がs個含まれるために取り出す必要のある標本数」を逆超幾何分布でモデル化できます*5．

まとめ

二項過程，ポアソン過程，超幾何過程といった確率過程を用いることで，様々な場合に不確実性を考慮したモデル化を行うことができますよ，というお話でした．気が向いたら，ポアソン過程と超幾何過程でのシミュレーションをまとめます．

*1:この1回の試行自体をベルヌーイ試行と呼びます．ですので二項分布はベルヌーイ試行を繰り返した際の分布型と考えることができます

*2:ベイズ統計の場合は，二項分布の事前分布としてベータ分布を当てはめた上で，二項分布の $p$ およびベータ分布のパラメタ $\alpha, \beta$ をMCMCとか使って一気に推定するとかやったりするわけです．まぁそのあたりの説明については，久保本に詳しく書かれているので，そちらをお読みください