5.4.1.期待値
まずは、確率変数が離散値の場合の平均について見ていきます。
例として、サイコロを1回振ったときに出る目の平均(
2.2節)はいくつになるか?調べてみましょう。
サイコロの目は1, 2, 3, 4, 5, 6の6つですから、その平均は
2.2節の式を使って
\[
\frac{1+2+3+4+5+6}{6}
=
3.5
\]
になります。この式は次のように書き直せます。
\[
\frac{1}{6}+
\frac{2}{6}+
\frac{3}{6}+
\frac{4}{6}+
\frac{5}{6}+
\frac{6}{6}
=
3.5
\]
この式から、サイコロの目の平均は「サイコロの各目に対応する確率を掛け、それらを足し合わせたもの」と解釈できます。
この平均\( \bar{x} \)の計算式を文字式で表すと次のようになります。
\[
\bar{x}
=
x_1 p_1 +
x_2 p_2 +
\cdots
x_n p_n
\tag{*}
\]
確率変数:\(x_1, x_2, \cdots \)
確率:\( p_1, p_2, \cdots \)
先ほど示した平均を求める式(*)が妥当であることを示すために、ここでは次のような場合を考えてみます。
- サイコロに細工がしてあって6の目しか出ない場合、p1=…=p6=0、p6=1となるので、
\[
x_1 p_1 +
x_2 p_2 +
\cdots
x_6 p_6
=
6 \times 1
=
6
\]
- サイコロに細工がしてあって1と6しか出ないけど、1は6の2倍現れる場合、「3回に2回は1が出て、3回に1回は6が出る」ということなので、
\[
x_1 p_1 +
x_2 p_2 +
\cdots
x_6 p_6
=
1 \times \frac{2}{3} + 6 \times \frac{1}{3}
=
2.66\cdots
\]
(1)は6の目しか出ないので、サイコロの出る目の平均は6にしかなりません。
(2)は、以下のような感じで1と6が現れるので(あくまで感じ)、
\[
\frac{1+1+6+1+6+6+1+1+1 \qquad}{9}
=
1 \times \frac{6}{9} + 6 \times \frac{3}{6}
=
2.66\cdots
\]
となります。
つまり確率変数Xの平均\( \bar{X} \)は、「確率変数の値X
kに対応する確率P
kを掛け、根元事象(
4.3節参照)の数分足し合わせたもの」として求めることができます。
\[
\bar{X}
=
X_1 P_1 + \cdots + X_n P_n
=
\sum_{k=1}^n { X_k P_k}
\]
この式は、確率変数Xの値に、出現しやすい、しにくいを考慮した上で「最も見込まれる値=期待される値」を計算している、ともいえます。
従って確率変数Xの平均は
“期待値”ともいいます。確率変数Xの期待値は一般的にE(X)で表します。
\[
E(X)
=
\sum_{k=1}^n { X_k P_k}
\]
次に、確率変数Xが連続値の場合について見ていきます。
5.3節で見たように、区間[a,b]の確率は次式で表せます。
\[
P(a \leq X \leq b)
=
\int_a^b f(x) dx
\]
この区間で期待される確率変数の値、つまり期待値は
\[
E(a \leq X \leq b)
=
\int_a^b x f(x) dx
\]
となります。
確率変数が連続値の場合の期待値は、すべてのxについて計算をする必要があるので、実数全体[-∞,+∞]で積分すればよく、
\[
E(X)
=
\int_{-\infty}^{+\infty} x f(x) dx
\]
で求まります。
5.4.2.分散
2章でも見たように、代表値として期待値(平均)だけを計算しても、データのばらつきがわからないのでデータの性質を捉えきれません。
そこで、サイコロの出る目のばらつき=分散について考えてみます。
サイコロの出る目の分散は次式の通りです。
\[
V
=
\frac{ (1-3.5)^2 + \cdots + (6-3.5)^2 \quad }{6}
=2.92\cdots
\]
これも期待値のとき同様に変形すれば、サイコロの目の分散は「サイコロの各目の偏差に対応する確率を掛け、それらを足し合わせたもの」と解釈できます。
\[
V
=
\frac{ (1-3.5)^2 }{6} + \cdots + \frac{(6-3.5)^2 \quad }{6}
=2.92\cdots
\]
これを一般化すると、次のようになります。
\[
V(X)
=
P_1 (X_1 - \bar{X} )^2 + \cdots + P_n (X_n - \bar{X} )^2
=
\sum_{k=1}^n { P_k (X_k - \bar{X} )^2 }
\]
この式もまた期待値同様、確率変数Xの偏差(の二乗)に、出現しやすい、しにくいを考慮した上で最も見込まれる値を計算しています。
結局、
“分散”は
偏差の期待値を求めていることに他なりません。
次に、確率変数Xが連続値の場合について見ていきます。
これも期待値のときと同様に考えれば次式が得られます。
\[
V(X)
=
\int_{-\infty}^{+\infty} (x - \bar{x})^2 f(x) dx
\]