About connecting the dots.

data science related trivial things

パラメトリックとノンパラメトリック

前回Cox比例ハザードモデルについてまとめましたが,その中でパラメトリック,ノンパラメトリックという言葉が出てきました.この言葉って,字句通りの意味と実際に意味するところが乖離していて,勘違いしやすいので,軽くまとめました.あくまで統計学の文脈において,ですが.

パラメトリック 母集団の分布を仮定していること,またはそのような統計手法
ノンパラメトリック 母集団に特に仮定をおかないこと,またはそのような統計手法

詳細な説明は,群馬大学の青木先生のまとめに載っているので一読していただければと思います.

実は普段使っている統計指標というものは,大概のものが母集団に正規分布を仮定しており,平均や分散なんかがその代表的な例です.そのため,母集団の分布が正規分布に当てはまらないときには,平均や分散の値が母集団の代表的な値とはなりません.

例えば日本人の年収分布なんかがわかりやすい例ですけど,「日本人 年収 分布」でぐぐってみれば,分布の山が大きく左に偏った,右側に裾が広い,いわゆるロングテールな分布になっているのがわかると思います.

こういったベキ分布に近い分布の場合は,平均値が大きく上振れすることが知られています.実際,こちらのコラムなんかで紹介されているように,にサラリーマン男性の平均年収は約507万円なのに対して,中央値は約456万円と10%以上も差が出てしまいます.これは一部の高所得者が平均を大きく引き上げているためです.よく紹介されるこの事例の背景にあるのは,正規分布ではない母集団に対して,正規分布を仮定した指標を用いているという手段の選択ミスです.そのため,平均値では正しく母集団を要約することができていないわけです.

ちなみに,前回のCox比例ハザードモデルは,セミノンパラメトリックモデルと呼ばれるものなんですが,これはモデルの一部に対してのみ分布を仮定して,それ以外のパラメタには特に分布を仮定していないから,パラメトリックとノンパラメトリックの中間ということでそのように呼ばれるそうです.ちょっとぐぐってみると,セミパラメトリックという言い方もするそうなのですが,どっちが正しいんでしょうね.どっちでもいいですけど.