5.確率変数と確率分布
	
	ここからいよいよ統計学の核心部に迫っていきます。
	
	確率変数と確率分布は、統計学の醍醐味である推定や検定の根幹となる概念です。
	また、正規分布は理論的にも実用的にも非常に重要で、統計学の中心的な役割を担っています。
	ただ残念ながら、総和(Σ)や極限(微分積分)など、数学的に少し難しい表現が必要になってきます。
	極力簡単にイメージできるよう、説明していきたいと思います。
	
	5.1.確率変数と確率分布
	
	ここでもサイコロの例を使って説明していきます。
	
	サイコロを振ったときに出る目がいくつになるか?は、サイコロを振ってみないとわかりません。
	つまり試行の前には決まらず、試行の結果によって決まります。
	
	
	

	
	中学の数学で「わからない値は文字=変数で表す」と習ったと思います。
	従ってサイコロの目は、試行前はいくつかわからないため、変数Xで表せます。
	
	また、サイコロの目はそれぞれ確率1/6で現れます。
	つまり、変数Xの値に対応する確率が存在します(下表参照)。
	
	
	

	
	このように、変数Xのとり得る値\(x_1, x_2, \cdots, x_n \)それぞれに、確率\(p_1, p_2, \cdots, p_n \)が与えられるとき、Xを
“確率変数”といい、\(x_1, x_2, \cdots, x_n \)と\(p_1, p_2, \cdots, p_n \)の対応関係 = 関数を確率変数Xの
“確率分布”といいます。
	
	確率分布を関数で表せることは、後に非常に重要な意味を持ちます。
	
	
	さて、確率分布には
4.4節でみた確率の値に対する制約
	
	
	
	
	から、次の条件を満たします。
	
	
\[
		\begin{eqnarray}
			& p_1 \geq 0 &, p_2 \geq 0, \cdots, p_n \geq 0
			\\
			& \sum_{k=1}^n{p_k} &
			=
			p_1 + p_2 + \cdots + p_n
			=1
		\end{eqnarray}
	\]
	
	ここで、確率変数を使った確率計算の具体例を挙げておきます。
	
	
	
		- サイコロの目が5となる確率
 \[
				P(X=5)
				=
				\frac{1}{6}
			\] 
- サイコロの目が2以下となる確率
 \[
				\begin{eqnarray}
				& P(X\leq2)
				& = &
				P(X=1) + P(X=2)
				\\
				& & = &
				\frac{1}{6} + \frac{1}{6}
				\\
				& & = &
				\frac{1}{3}
				\end{eqnarray}
			\] 
- サイコロの目が奇数になる確率
 \[
				\begin{eqnarray}
				P(X mod 2 = 1)
				& = &
				P(X=1) + P(X=3) + P(X=5)
				\\
				& = &
				\frac{1}{2}
				\end{eqnarray}
			\] 
- 2回サイコロを振ったときの目の和が7になる確率
 \[
				\begin{eqnarray}
				P(X_1+X_2=7)
				& = &
				P(X1=1, X2=6) +  P(X1=6, X2=1) \\
				& &+ P(X1=2, X2=5) + P(X1=5, X2=2) \\
				& & + P(X1=3, X2=4) + P(X1=4, X2=3)
				\\
				& = &
				\left( \frac{1}{6} \right)^2 \times 6
				= 6/36
				\end{eqnarray}
			\] 
 
	5.2.離散値と連続値
	
	確率変数は、前節のサイコロの目以外にも、いろんな値をとることができます。
	
	
	
		- サイコロを10回振ったときに1の目が出る回数
- 3つのサイコロを同時に振ったときのサイコロの目の和
- 日本男性の身長(180cm以上190cm以下など)
- 1年間の気温の変化
などなど
	
	
	(1)や(2)のように確率変数の値が“とびとび”の場合を
“離散値”、(3)や(4)のように任意の実数、つまり連続した値の場合を
“連続値”といいます。
	
	
	

	
	なお、離散値の場合でも、確率変数の取る値は無数に存在する場合があります(0~∞の整数など)。
	連続値の場合は、範囲が限定されていても値は無数に存在します。
	
 
	5.3.確率密度関数
	
	次に、確率変数が離散型の場合と連続型の場合で、確率分布はどう変化するか?について見ていきます。
	
	
	
		(1)離散型の確率分布
		
		まずは離散型の確率分布について、
5.1節の例を使って表すと次のようになります。
		
		
\[
			P(X=x_k)
			=
			\left\{
			\begin{eqnarray}
				& \frac{1}{6} & \quad (k=1,2,\cdots,6)
				\\
				& 0 & \qquad (otherwise)
			\end{eqnarray}
			\right.
		\]
		
		これを一般化すると次のようになります。
		
		
\[
			P(X=x_k)
			=
			\left\{
			\begin{eqnarray}
				& f(x_k) & \quad (k=1,2,\cdots)
				\\
				& 0 & \quad (otherwise)
			\end{eqnarray}
			\right.
		\]
		
		このとき、Xがaとbの間の値をとる確率は次のように計算できました。
		
		
\[
			P(a \leq X \leq b)
			=
			\sum_{k=n_a}^{n_b}{f(x_k)} \qquad (x_{na}=a, x_{nb} = b)
		\]
	 
	
	
		(2)連続型の確率分布
		
		離散型の場合、例えばサイコロの目のように確率変数が整数の場合、X=1、2、…に対応してP(X=1)=f(1)、P(X=2)=f(2)、…が決まりました。
		しかし、Xが例えば身長のような連続型をとる場合、身長が180cmピッタリ、という人はこの世の中にはほとんどいないでしょう。
		実際は180.1cmだったり、よ~く測ると179.9999998cmだったりするはずです。
		となれば、P(X=180)≒0でなければなりません。
		しかしf(180)=0だと、他の任意のXに対してもf(X)=0でなければならないので、確率分布は0になってしまいます。
		
		
		

		
		そこで、確率変数Xが連続型をとる場合は、次のように考えます。
		
		下図のように関数f(x)をN個に区分けし、区分の幅をΔxとします。
		
		
		

		
		このとき、Δxが十分小さければ区分面積は以下で表せます。
		
		
\[
			\Delta S 
			\simeq
			f(x) \Delta x
		\]
		
		この⊿Sをx~x+Δxの範囲の確率\( P(x \leq X \leq x + \Delta x ) = \Delta p \)と考えてみます。
		
		
\[
			\Delta P
			=
			\Delta S
			\simeq
			f(x) \Delta x
		\]
		
		すると、Δx > 0ならΔS > 0となって0でない確率が存在し、Δx→0とすればP(X=x)→0になり、身長が180cmピッタリの確率が0となる解釈と一致します。
		
		ここで、連続型のP(a≦X≦b)の確率を次のようにして求めます。
		
		まず、a~bの範囲をN個に区分けします。すると、区分1個の面積は次のようになります。
		
		
\[
			\Delta S
			\simeq
			f(x) \Delta x
			=
			f(x) \frac{b-a}{N}
		\]
		
		これをa~bの範囲分足し合わせるのですが、Δxのままでは離散型になってしまいます(Δx > 0)。
		Xはあくまで連続型の変数ですから、Δx→0にするためにN→∞の極限をとる必要があります
		(区間を無数に細かくすれば、分割幅はおのずと0に近づいていきます)。
		すると、総和の式は積分の式に変換され、
		
		
\[
			P(a \leq X \leq b)
			=
			\displaystyle \lim_{ n \to \infty } \sum_{k=1}^N f(x_k) \Delta x
			=
			\int_a^b f(x) dx
		\]
		
		になります。
		
		確率変数Xが連続型のとき、関数f(x)は確率そのものを表すのではなく、単位面積当たりの確率=“密度”を表している、と捉えることができます。
		
従って、確率変数が連続型のときの確率分布関数f(x)を
“確率密度関数”と呼びます。