5.4.期待値と分散

本節では、確率変数に対する平均と分散(2章)について説明します。

5.4.1.期待値

まずは、確率変数が離散値の場合の平均について見ていきます。
例として、サイコロを1回振ったときに出る目の平均(2.2節)はいくつになるか?調べてみましょう。
サイコロの目は1, 2, 3, 4, 5, 6の6つですから、その平均は2.2節の式を使って
\[ \frac{1+2+3+4+5+6}{6} = 3.5 \]
になります。この式は次のように書き直せます。
\[ \frac{1}{6}+ \frac{2}{6}+ \frac{3}{6}+ \frac{4}{6}+ \frac{5}{6}+ \frac{6}{6} = 3.5 \]
この式から、サイコロの目の平均は「サイコロの各目に対応する確率を掛け、それらを足し合わせたもの」と解釈できます。 この平均\( \bar{x} \)の計算式を文字式で表すと次のようになります。
\[ \bar{x} = x_1 p_1 + x_2 p_2 + \cdots x_n p_n \tag{*} \]
確率変数:\(x_1, x_2, \cdots \)
確率:\( p_1, p_2, \cdots \)
先ほど示した平均を求める式(*)が妥当であることを示すために、ここでは次のような場合を考えてみます。
  1. サイコロに細工がしてあって6の目しか出ない場合、p1=…=p6=0、p6=1となるので、
    \[ x_1 p_1 + x_2 p_2 + \cdots x_6 p_6 = 6 \times 1 = 6 \]
  2. サイコロに細工がしてあって1と6しか出ないけど、1は6の2倍現れる場合、「3回に2回は1が出て、3回に1回は6が出る」ということなので、
    \[ x_1 p_1 + x_2 p_2 + \cdots x_6 p_6 = 1 \times \frac{2}{3} + 6 \times \frac{1}{3} = 2.66\cdots \]
(1)は6の目しか出ないので、サイコロの出る目の平均は6にしかなりません。
(2)は、以下のような感じで1と6が現れるので(あくまで感じ)、

期待値
\[ \frac{1+1+6+1+6+6+1+1+1 \qquad}{9} = 1 \times \frac{6}{9} + 6 \times \frac{3}{6} = 2.66\cdots \]
となります。
つまり確率変数Xの平均\( \bar{X} \)は、「確率変数の値Xkに対応する確率Pkを掛け、根元事象(4.3節参照)の数分足し合わせたもの」として求めることができます。
\[ \bar{X} = X_1 P_1 + \cdots + X_n P_n = \sum_{k=1}^n { X_k P_k} \]
この式は、確率変数Xの値に、出現しやすい、しにくいを考慮した上で「最も見込まれる値=期待される値」を計算している、ともいえます。 従って確率変数Xの平均は“期待値”ともいいます。確率変数Xの期待値は一般的にE(X)で表します。
\[ E(X) = \sum_{k=1}^n { X_k P_k} \]
次に、確率変数Xが連続値の場合について見ていきます。
5.3節で見たように、区間[a,b]の確率は次式で表せます。
\[ P(a \leq X \leq b) = \int_a^b f(x) dx \]
この区間で期待される確率変数の値、つまり期待値は
\[ E(a \leq X \leq b) = \int_a^b x f(x) dx \]
となります。
確率変数が連続値の場合の期待値は、すべてのxについて計算をする必要があるので、実数全体[-∞,+∞]で積分すればよく、
\[ E(X) = \int_{-\infty}^{+\infty} x f(x) dx \]
で求まります。

5.4.2.分散

2章でも見たように、代表値として期待値(平均)だけを計算しても、データのばらつきがわからないのでデータの性質を捉えきれません。 そこで、サイコロの出る目のばらつき=分散について考えてみます。
サイコロの出る目の分散は次式の通りです。
\[ V = \frac{ (1-3.5)^2 + \cdots + (6-3.5)^2 \quad }{6} =2.92\cdots \]
これも期待値のとき同様に変形すれば、サイコロの目の分散は「サイコロの各目の偏差に対応する確率を掛け、それらを足し合わせたもの」と解釈できます。
\[ V = \frac{ (1-3.5)^2 }{6} + \cdots + \frac{(6-3.5)^2 \quad }{6} =2.92\cdots \]
これを一般化すると、次のようになります。
\[ V(X) = P_1 (X_1 - \bar{X} )^2 + \cdots + P_n (X_n - \bar{X} )^2 = \sum_{k=1}^n { P_k (X_k - \bar{X} )^2 } \]
この式もまた期待値同様、確率変数Xの偏差(の二乗)に、出現しやすい、しにくいを考慮した上で最も見込まれる値を計算しています。 結局、“分散”偏差の期待値を求めていることに他なりません。 次に、確率変数Xが連続値の場合について見ていきます。
これも期待値のときと同様に考えれば次式が得られます。
\[ V(X) = \int_{-\infty}^{+\infty} (x - \bar{x})^2 f(x) dx \]

5.4.3.期待値と分散の性質

ここで、期待値と分散に関する重要な性質を挙げておきます。

期待値:

  1. \( E(c)=c \quad \)(cは定数)
  2. \( E(cX)=cE(X) \)
  3. \( E(aX+b)=aE(X)+b \)
  4. \( E(X+Y)=E(X)+E(Y) \)

分散:

  1. \( V(X)=E \{ (X-\bar{X})^2 \} = E(X^2) - \{ E(\bar{X}) \}^2 \)
  2. \( V(c)=0 \)
  3. \( V(cX) = c^2 V(X) \)
  4. \( V(aX+b) = a^2 V(X) \)
  5. X,Yが独立のとき、\( V(X+Y) = V(X)+V(Y) \)

証明はこちらをクリックしてください(pdfが開きます)。

参考文献