不確実性を定式化するための確率過程
前回の記事で,二項分布に従う事象について,不確実性を求める例を紹介しました.このように,一定の規則に従ってランダムに事象が発生するような一連の事象を,確率過程と呼びます.ネタ本の入門リスク分析には,以下のように書いてあります.
確率過程(stochastic process)とは,事象がある定式化されたランダムな過程に従って生起する可算現象からなるシステムである
- 作者: デビッドヴォース,David Vose,長谷川専,堤盛人
- 出版社/メーカー: 勁草書房
- 発売日: 2003/08
- メディア: 単行本
- 購入: 1人 クリック: 30回
- この商品を含むブログ (8件) を見る
前回の例でいえば,以下のようにまとめることができるかと思います.
定義 | 前回の例 |
---|---|
定式化 | 「コインを投げて裏表を判定する確率をpとしたときの表が出る回数」と定式化できる |
ランダム | コインを投げて表か裏のどちらが出るか*1は,コインを投げる前には結果が確定しないので,ランダムな事象といえる |
可算現象 | 表が出る回数は数えられる |
このような確率過程の代表例として,二項過程,ポアソン過程,超幾何過程があります.上に示した前回の例は,実は二項過程と呼ばれるものです.この二項過程において,「コインを投げて裏表を判定する確率」をあらわした分布がベータ分布です.このベータ分布を使うことで,の不確実性をモデル化することができました*2.今回は,これについてもう少し詳しくみていきます.
二項過程
定義
入門リスク分析では以下のように書かれています.要するにコイン投げですね.
二項過程(binomial process)は,独立かつ同一の試行を回行う場合のランダムな可算システムである.そこではいずれの試行も成功確率は等しくであり,回の試行で回成功するものとされている
二項分布
ここで,求めるべきパラメタはの3つになるわけです.前回も説明した通り,このをモデル化したものが2項分布であり,以下のように定義されます.つまり成功確率が与えられていれば,回の試行を行った際の成功回数の確率分布を得ることができます.
この成功確率をどのようにして決定するための事前分布として,以下のベータ分布を用いることができます.
ベータ分布
ベータ分布は,成功確率をモデル化したものとして,以下のように定義されます.
前回の例では,既に30回の試行を行っており,そのうち21回表がでていたので,これを元にベータ分布のパラメタをと定めることができます.その結果得られたの確率分布を用いて,「30回コインを投げて21回表が出た」という事前情報を組み込んだモデル化ができるわけです*3.
負の二項分布
さて,最後にについてです.は試行回数自体なんだから,分布も何もないじゃないか,と思うかもしれません.ですが見方を変えると「成功確率が既知のときに,回成功するためには,何回の試行が必要か」→「成功確率が既知のときに,回成功するためには,何回の失敗が必要か」という定式化をすることが可能です.この回成功するために必要な失敗回数をモデル化したものを負の二項分布と呼び,以下のように定義します.
このようにして,二項過程に現れる3つのパラメタをそれぞれ二項分布,ベータ分布,負の二項分布の3つによりモデル化することができました.
ポアソン過程
次にポアソン過程について述べます.これは,各試行が離散だった二項過程を,連続化したものと考えることができます.具体的には「単位時間あたりの事象生起回数をとしたときに,時間の間に事象が回生起した」過程となります*4.ここでのパラメタをモデル化するのが,この過程の役割になるわけです.
超幾何過程
最後に超幾何過程についてですが,これは「ある母集団から非復元無作為標本抽出を行ったとき,特定の特徴を有する標本数を数える」過程と考えることができます.典型的には,袋にさまざまな色の玉が合計個入っており,そのうち個が赤色の玉の場合に,個の玉を袋から取り出して,赤玉の個数を数えるという事例になるかと思います.
もう数式tex記法で書くの疲れたので,これ以上は書かないですが,上の2つと同じような定式化を行うことが可能です.「取り出した標本における赤玉の個数」を超幾何分布で,「取り出した標本内に赤玉がs個含まれるために取り出す必要のある標本数」を逆超幾何分布でモデル化できます*5.
まとめ
二項過程,ポアソン過程,超幾何過程といった確率過程を用いることで,様々な場合に不確実性を考慮したモデル化を行うことができますよ,というお話でした.気が向いたら,ポアソン過程と超幾何過程でのシミュレーションをまとめます.
*1:この1回の試行自体をベルヌーイ試行と呼びます.ですので二項分布はベルヌーイ試行を繰り返した際の分布型と考えることができます
*2:ベイズ統計の場合は,二項分布の事前分布としてベータ分布を当てはめた上で,二項分布のおよびベータ分布のパラメタをMCMCとか使って一気に推定するとかやったりするわけです.まぁそのあたりの説明については,久保本に詳しく書かれているので,そちらをお読みください
*3:ちなみに,1回も試行を行っていない場合はということで,になります.これは一様分布になり,二項分布の無情報事前分布と考えることができます
*4:典型的には,1日で壊れる確率がの機械が,3年間で何個故障するかといった問題に当てはめることが可能です.
*5:しかし母集団のパラメタについては,分布当てはめを行うことはできず,一様事前分布を用いたベイズ推定が必要になります.