2.確率分布
2.1.確率変数と分布関数
<標本空間Ω={ω
i|i=1,2,…}上の事象A
j(j=1,2,…)に対し、
何らかの実数x
jを割り当てます。
このxjを選択する変数としてXを定義したとき、Xがx
jとなる確率は、
事象A
jの出現確率で決まります。
このように変数Xの値ごとに出現確率が決まるものを
確率変数と呼びます。
以上の内容から、確率変数は事象を実数に写す写像になります。
図2.1-1 確率変数の例
次に、確率変数Xがある特定の値x
iとなる確率P(X=x
i)を関数f(x
i)と置くとき、
f(xi)を
確率関数あるいは
確率質量関数と呼びます。
さらに、確率変数Xがx
i以下となる確率を示す関数F(x
i)を次式で定義できます。
これを
累積分布関数と呼びます。
累積分布関数は、確率の性質から次の条件を満たします。
ここで、確率質量関数と累積分布関数について、サイコロを例に表してみます
(確率変数Xはサイコロの目と同じとします)。
図2.1-2 確率変数が離散的な場合
これまでは離散的な確率変数を対象としていましたが、現実には連続的な確率変数がほとんどです。
例えば身長については、厳密に170cmの人はほぼゼロといってよいでしょう(170.0000…01cm≠170cm)。
そのため、連続的な確率変数が扱えるよう、確率質量関数や累積分布関数を見直す必要があります。
図2.1-3 確率変数が連続的な場合
離散的な関数を連続的な関数に変える場合、微積分の概念を導入することになります。
そこでまずは、累積分布関数(2.1-2)式を連続的な式に書き換えます。
これを用いれば、確率変数Xがxとx+dx(微小量)の間に入る確率は、
となり、F(x)とf(x)の間には次の関係が成り立つことになります。
この関数f(x)を
確率密度関数と呼びます。ただし確率密度関数は、
それ自体が確率を表している訳ではなく、ある範囲の積分をとってはじめて確率を表すものになります。
図2.1-4 確率密度関数と累積分布関数
最後に、連続した確率変数の累積分布関数についても離散的なものと同様、-∞~+∞の範囲で積分すると1になります。
2.2.モーメント
2.2.1.平均の概念
平均は確率分布を考えるとき、重要な役割を担います。そこでまずは、平均の概念について見ることにします。
平均という言葉はなかなか抽象的で難しいところですが、
辞書によると「いくつかの数や量の中間的な値」という風に述べられています(デジタル大辞泉より)。
この中間的な値の1つとして、
相加平均(
算術平均)があります。
これは、n個の数x
1、x
2、…、x
nがあるとき、
その総和を個数nで割ったものとして定義されます。
これに対しx
1、x
2、…、x
nのそれぞれに
ある重み量m
1、m
2、…、m
n(>0)を設け、
次式で定められる量を
加重相加平均といいます。
これは、物理で見る重心と全く同じものであり、
またm
1=m
2=…=m
nのとき相加平均と同じものになります。
2.2.2.モーメントの定義
モーメントは積率とも呼ばれ、確率分布の特徴を表す代表値としての意味を持ち、
その定義は次のようなものです。
xを確率変数、αを基準となる定数としたとき、
xとαの距離のべき乗(x-α)
kと確率密度関数の積を確率変数の全範囲で積分したもので、
次式で表せます。
特に基準αと次数kを明示的に言うとき、αまわりの
k次モーメントと呼びます。
基準値αは“0”(原点)や平均値を与えるのが一般的です。
モーメントの持つ意味は次数kによって異なり、k=1~4次のモーメントを用いるのが一般的です。
本章では特にk=1、2次のモーメントについて見ることにします。
2.2.3.期待値(平均値)
α=0の一次モーメントを
期待値または
平均値といい、次式で表せます。
この定義式に対し(2.2.1-2)式を照らし合わせると、
確率密度関数f(x)を全範囲で積分(足し合わせ)すると1になることから、
期待値は加重相加平均になります。
その意味で、期待値は平均値とも言えることになります。
期待値は、「ある偶然事象によって得られる量(確率変数)のうち最も見込まれる量」を意味しますが、
その値とドンピシャで一致する確率変数が存在するとは限りません。
例えば、1~10の整数が同じ確率で出現する際の期待値は5.5となることからもわかります。
期待値は演算上、次の定理が成り立ちます。
証明はこちら
証明 **************************************************
閉じる
2.2.4.分散
α=平均値の二次モーメントを
分散といい、次式で表せます。
分散は、各確率変数と平均値の差である
偏差の二乗の平均値として定義され、
「ある事象が持つデータの、平均値からの散らばり具合を表す量」という意味を持っています。
偏差には正負の方向性があることから、偏差の平均をとると“0”になるのは明らかです。
偏差平均が毎回“0”では何も評価しようがありません。
この問題は、偏差を二乗することで解消されます
※
(ばらつきを平均からの“距離”と考えれば、二乗をとるのは妥当と考えられます)。
※: |
ほかの方法、例えば絶対値をとる方法もありますが、最も簡単かつ扱いやすい方法で評価するのが合理的です。
|
分散は演算上、次の定理が成り立ちます。
証明はこちら
証明 **************************************************
閉じる
分散はその定義から平均値の単位と異なるため、扱いにくさがあります。
そこで、分散の平方根を取り、単位を合わせることで直感的解釈を行いやすくしたものとして、
標準偏差σが定義されています。
2.2.5.歪度・尖度
ここでは概要のみを伝え、詳細については別節で述べることにします。
平均値まわりの三次モーメントを
歪度といい、
確率分布の非対称性を表す指標として用いられます。
また、平均値まわりの四次モーメントを
尖度といい、
確率分布のとがり具合と裾野の厚さを表す指標として用いられます。
ただし、これらは平均と分散の影響を受けるため、
通常は変数を標準化(平均μ=0、標準偏差σ=1になるよう変数変換)したもので算出されます。
2.2.6.モーメント母関数
モーメント母関数M(t)を次のように定義することで、k次モーメントの値を簡単に求めることができます。
e
txをt=0のまわりでテイラー展開すると、
が得られます。この両辺をtで微分し“0”を代入すると、k次モーメントを求めることができます。