統計 離散型の確率分布についてメモ

ほかの技術知識

検定と推定の意味を復習した際に『「部分を調べて(全体を調べることなく)全体を語る」ための手法」が推論』と書いたことについて、少し掘り下げたときにメモ。


統計の基本に確率があることを思い出しつつ、約20年前に使っていた教科書『生物資源統計学』(山田作太郎・北田修一共著 水産・海洋ライブラリ4 成山堂出版)を読み返した。いい本だと思うが、今では手に入りにくいようだ。以下に記載の説明や例の出典は、おもに本書を参考にした。

統計には記述統計(手元のデータを表やグラフにしたり、平均や分散を計算してデータを可視化する統計)と、推測統計(標本データの背後にある母集団の特性を推測し、その推測が正しいかどうかを検定する統計)の2種類があるが、今回は推測統計の話だ。

あらためて言葉の意味を考えてみると、推測とは、確率や微分の概念で習うところの期待値や極限値の発想でもって、ある事象が生じる確率を求めることだろうか。

確率分布・確率密度関数

 「部分から全体を推測する」のだから、全体を構成する任意の要素について、その特性値は、全体に共通する関数f(x)にしたがう。以下、「部分」を標本、「全体」を母集団、関数f(x)を確率密度関数と読み替える。

いま、母集団から1つの標本をランダムサンプリングするときの、その値Xがaとbの間にある確率を(a≦X≦b)で表すと、Pは、母集団の分布を表す確率密度関数f(x)の、範囲がa→b(a≦b)の積分∫(離散型データの場合はΣ)に等しいことが期待される。

母集団の確率の分布関数なので、
①すべてのxに対してf(x)>0
②-∞ →+∞におけるf(x)の積分は1
③任意のa<bに対して、a→bにおけるf(x)の積分は、母集団でその特性値がaとbの間にあるものの割合

母集団分布と積分

用語の確認

確率変数(random variable)

ある値になる確率が決まっていない変数であって、かならず値が対応付けられるもの。サイコロの目のようにとびとびの値(整数など)と対応付けられる場合は離散型確率変数、身長や体重のように連続する値に対応付けられる場合は連続型確率変数と呼ばれる。XYで表記されることが多い。また、確率変数Xの値を横軸にして、f(X)の値を縦軸にすると確率分布のグラフになる。

例)いかさまでないサイコロを投げる時、出る目を表す確率変数をXで表すと、目iが出る確率P(X=i)について、P(X=i) = 1/6, i = 1,…,6

確率関数(probability function)

離散型確率変数Xの従う確率分布は、それのとりうる値の集合xi,…,xnとそれぞれの値をとりうる確率 pi,…,pn(0≦pi≦1,i=1,…,npi,…,pnの和は1)を組にしたものであり、xiP(X = xi)を確率関数という。

確率密度関数(probability density function

連続型確率変数Xの従う確率分布の母集団の分布を表す関数f(x)のこと

いろいろな確率分布

 データの種類(離散型or連続型)によって分布の種類は大きく分かれる。離散型の場合は、ベルヌーイ分布や2項分布に代表される「成功と失敗の確率分布」であり、連続型の場合は正規分布とその仲間たちだ。

離散型

一様分布以外のベルヌーイ分布、2項分布、ポアソン分布、超幾何分布、負の2項分布の関係をまとめると下図のようになる。

離散型の確率分布
2項分布、ポアソン分布、超幾何分布のプロット①(n =10, p=0.3, M=100, N=10)
2項分布、ポアソン分布、超幾何分布のプロット②(n =50, p=0.3, M=100, N=10)
(離散型)一様分布 U(x1,…,x1)

たとえば、いかさまでないサイコロを投げて、1から6までの目が出る確率がすべて1/6であるときの分布のこと。記述統計の平均と分散と同じ。

離散型一様分布の平均E(X)と分散V(X)
ベルヌーイ分布 BN(1, p)

ある日、ある港に水揚げされたある種の魚でメスの割合をpとする。1尾ランダムにこの魚からとってメスなら値1、オスなら値0をとる確率変数をXとするときのXの確率分布

言い換えれば、任意の標本空間で固定された事象に対して、Aが起これば1、起こらなければ0をとる確率変数の確率分布

ベルヌーイ分布の平均E と分散V

2項分布 BN(n, p)

ベルヌーイ分布の例で、メスかオスかを観測しその都度それを元に戻して(with replacement)観測を独立にn回繰り返したとき(大きさnのベルヌーイ試行)、i回目の観測を確率変数Xiで表すとする。この時n回中観測されたメスの数(つまり成功の数)X= X1+・・・Xnを表す確率分布

2項分布の確率変数Xの確率分布
2項分布に従う確率変数Xの平均と分散

ポアソン分布 P0(λ)

2項分布の確率で、np=λ(一定)n→∞, p→0としたときの確率分布。つまり、n(試行回数)を∞に飛ばして、p(成功の割合)を0に飛ばしたときの分布なので、まれにしか起こらない事象Aについて、大きいnに対するベルヌーイ試行をしたときの、その事象Aが起こる回数(成功する回数)の分布

ポアソン分布の平均と分散はともにλに等しい

超幾何分布 Hg(N, M, n)

N匹の魚からM匹捕獲して標識をつけて放したとする。その後ランダムにn匹捕まえた時に、その中に含まれる標識魚の数Xの確率分布

  • 一度にn匹を捕獲するのでwithout replacement
  • Nnに対して十分に大きいときは、2項分布に近似される
超幾何分布の平均と分散

負の2項分布 NB(k,p)

k回表が出るまで硬貨を投げた時の裏の出た回数をXとするときの確率分布

  • フィールドでの生物の分布はしばしば集中分布を示し、単位区画内での生物の数の分布は負の2項分布で近似される
負の2項分布の平均と分散

次回、正規分布