7.4.推定の例

7.4.1.大標本での母平均の推定

例として、全国の中学3年生が受ける英語のテストの平均点について推定してみましょう。

母集団は全国の中学3年生で、母平均を\( \mu \)、母分散を\( \sigma ^2 \)とします。
さて、標本として1000人を抽出し、その平均点\( \bar{X} \)が60点、不偏分散\( s ^2 \)から求めた標準偏差\( s \)が12点だったとします。 このときの95%信頼区間を求めます。

まず標本は十分大きいので、標本平均\( \bar{X} \)は正規分布\( N(\mu,\sigma ^2/n) \)に従います (6.2.2節)。 従って、信頼区間の幅は標準正規分布表より\( P(-1.96 \leq Z \leq 1.96) = 0.95 \)を得ます (決まるのは1.96という値です)。

※:統計の教科書の巻末に掲載されています。


推定

\( Z \)は標準正規変数で、確率変数\( \bar{X} \)(標本平均)、母平均\( \mu \)、母分散\( \sigma ^2 /n \)との間に以下の関係を持ちます。
\[ Z = \frac{ \bar{X} - \mu }{ \sigma / \sqrt{ n } } \]
これを\( P(-1.96 \leq Z \leq 1.96) \)に代入すると信頼区間は
\[ \bar{X} - 1.96 \frac{ \sigma }{ \sqrt{n} } \leq \mu \leq \bar{X} + 1.96 \frac{ \sigma }{ \sqrt{n} } \]
になります。 しかし残念なことに母分散\( \sigma \)は不明なため計算できません。 しかしながら\( n \)が十分大きい場合、母分散\( \sigma ^2 \)を不偏分散\( s ^2 \)で代用できるので、信頼区間を求めることができます。
\[ 60 - 1.96 \frac{ 12 }{ \sqrt{1000} } \leq \mu \leq 60 + 1.96 \frac{ 12 }{ \sqrt{1000} } \] \[ \because 59.3 \leq \mu \leq 60.7 \]
実はこの区間推定では母集団の分布に対して何も仮定していません。 制約としては「標本平均が正規分布に従えばよい」ということだけです。

7.4.2.小標本での母平均の推定

(1)では大標本(1000人)での推定を行いました。 この場合、標本平均が正規分布に従うことから信頼区間を求められました。
しかし現実には大標本を得ることは簡単ではありません。 従って、小標本でも推定できることが望ましいといえます。
小標本で推定を行う場合「標本平均はt分布に従う」として区間推定を行います。 ただし(1)に対し、「母集団は正規分布に従う」という制約を付ける必要があります。

同じ例を使いますが、標本の大きさは10人とします((1)は1000人)。 t分布の細かい説明は省きますが、t分布は標準正規分布の替わりとして使用し、不偏分散の自由度(標本の大きさ-1=9)をもとに信頼区間の幅が決まり、t分布表から\( P(-2.26 \leq t \leq 2.26) \)を得ます(自由度9、片側確率2.5%の値を拾います)。

推定

ここからは(1)とほとんど同じです。
変数\( t \)は、確率変数\( \bar{X} \)(標本平均)、母平均\( \mu \)、不偏分散\( s^ 2/n \)との間に以下の関係を持ちます。
\[ t = \frac{ \bar{X} - \mu }{ s / \sqrt{ n } } \]
これを\( P(-2.26 \leq t \leq 2.26) \)に代入すると信頼区間は
\[ \bar{X} - 2.26 \frac{ s}{ \sqrt{n} } \leq \mu \leq \bar{X} + 2.26 \frac{ s }{ \sqrt{n} } \]
になりますので、\( \bar{X} = 60, s = 12, n = 10 \)を代入して95%信頼区間が計算できます。
\[ 60 - 2.26 \frac{ 12 }{ \sqrt{10} } \leq \mu \leq 60 + 2.26 \frac{ 12 }{ \sqrt{10} } \] \[ \because 51.4 \leq \mu \leq 68.6 \]

さて、(1)と(2)の違いは標本の大きさでした。 (2)はt分布を使うのに(1)は標準正規分布で良い理由は「標本が大きくなるほどt分布は標準正規分布に近づくため」です。 目安としては標本の大きさが30より小さければt分布を、それ以上の場合は標準正規分布を使います。

推定

また(1)と(2)の結果を比べると、標本が大きいほど信頼区間は狭くなります。
  1. の結果:59.3≦μ≦60.7
  2. の結果:51.4≦μ≦68.6
しかしながら、標本は大きくなるほどデータを揃えるのが大変になります。

7.4.3.母分散の推定

母分散の区間推定には、次に示す\( \chi ^2 \)分布を用います ((1)の標準正規分布、(2)のt分布と同じ役割を持ちます)。 母集団が正規分布に従うとき、大きさ\( n \)の標本から得られる不偏分散\( s^2 \)と母分散\( \sigma ^2 \)を含む変数
\[ \chi ^2 = \frac{ (n - 1) s^2}{ \sigma ^2 } \tag{*} \]
は自由度n-1(6.2.3節)の\( \chi ^2 \)分布に従います。

推定

負の方に分布がないのは\( \chi ^2 \gt 0 \)だからです。

ここで(2)の例を用いると、標本の大きさは\( n=10 \)なので自由度は\( n-1=9 \)になります。 (2)では母集団を正規分布としていますので、\( \chi ^2 \)分布が使えます。 今95%信頼区間を推定する場合、\( \chi ^2 \)分布表から自由度9、確率5%の値を拾うことになります。 しかしながら、\( \chi ^2 \)分布はグラフからわかるように左右対称ではありません。 従って、左側2.5%、右側2.5%の値をそれぞれ\( \chi ^2 \)分布表から読み取る必要があります。 このとき左側は2.7、右側は19.0にります。

※:統計の教科書の巻末に掲載されています。


\[ P( 2.7 \leq \chi ^2 \leq 19.0) = 0.95 \]
この\( \chi ^2 \)に(*)の関係式を代入すれば
\[ 2.7 \frac{ \sigma ^2 }{ n-1 } \leq s^2 \leq 19.0 \frac{ \sigma ^2 }{ n-1 } \] \[ \Leftrightarrow \quad \frac{ n - 1 \ }{ 19.0 } s^2 \leq \sigma ^2 \leq \frac{ n - 1 \ }{ 2.7 } s^2 \]
となって、\( n=10, s=12 \)を代入して“\( 8.3 \leq \sigma \leq 21.9\)”を得ます。 ちなみに\( n=1000 \)で計算してみると“\( 11.5 \leq \sigma \leq 12.6\)”となって、信頼区間は大幅に狭まります。

7.4.4.二項分布の推定

視聴率\( p \)の推定をしてみましょう。

少し前置きが長くなりますが、視聴率の定義とその特性について見ていきます。
視聴率\( p \)は、ある番組Aを見ているテレビの台数\( m \)の、全国すべてのテレビの台数\( N \)に対する割合です。
\[ p = \frac{m}{N} \]
1家庭テレビ1台と仮定し、番組Aを見ているテレビの台数を確率変数\( X \)で表します。
視聴率\( p \)は次の理由から二項分布に従います。 各家庭は互いに影響を受けずに、番組Aを“見る”(確率=\( p \))か“見ない”(確率=\( 1 - p \))かの二択で決めています。 従って、番組Aを見ているテレビの台数が\( k \)のときの確率は、5.6節で見た二項分布\( B(n,p) \)に従います。
\[ P(X=k) = B(N,p) = {}_N C_k p^k (1-p)^{(N-k)} \]
すると、番組Aを見ているテレビの台数の期待値μと標準偏差σは次のようになります。
\[ \begin{eqnarray} \mu & = & np \\ \sigma & = & \sqrt{Np(1-p)} \end{eqnarray} \]
さらにNが十分大きいとき、二項分布B(N,p)は正規分布N(μ,σ)で近似できます(5.6節)。 なお、推定したいのはpなので、μ、σとも推定するしかありません (二項分布の母数は“p”ということです)。

以上を踏まえて、家庭数n=1000を対象に視聴率の標本調査を行います。
1000家庭の中から番組Aを見ているテレビの台数がkとなる確率P(X=k)は二項分布B(1000,p)に従います。
\[ \]
調査の結果、120の家庭で番組Aを見ていたとします(k=120)。すると標本内での視聴率p'は0.12となります。
また、今回の標本はn=1000と十分大きいため、二項分布B(1000,p)は正規分布N(μ,σ)で近似できるので、標本平均もまた正規分布に従います

ここで、信頼度95%で視聴率pの区間推定を行います。
標本の二項分布は正規分布で近似できることから、信頼区間の幅は標準正規分布表より\( P(-1.96 \leq Z \leq 1.96)=0.95 \)を得ます (決まるのは1.96という値です)。

推定

標準正規変数\( Z \)は、確率変数\( X \)(番組Aを見ているテレビの台数)、母平均\( \mu = np \)、母分散\( \sigma^2 = np(1-p) \)との間に次式の関係を持ちます。
\[ Z = \frac{ X-np }{ \sqrt{ np(1-p) } } \]
この\( Z \)を\( -1.96 \leq Z \leq 1.96 \)に代入すると、95%信頼区間の条件式が得られます。
\[ X - 1.96 \sqrt{ n p (1 - p) \quad } \leq \mu \leq X + 1.96 \sqrt{ n p (1 - p) \quad } \]
ところで今推定したいのは視聴率\( p \)なので、両辺を\( n \)で割ると\( X/n \)は標本内の視聴率\( \hat{p} \)となるので、
\[ \hat{p} - 1.96 \sqrt{ \frac{ p (1 - p)}{n} \quad } \leq \mu \leq \hat{p} + 1.96 \sqrt{ \frac{ p (1 - p)}{n} \quad } \]
が得られます。
しかし、ここまで来て残念なことに、上下信頼限界にともに視聴率\( p \)が含まれているため、信頼区間を計算できません。 ただし、今回は標本が十分大きいため、標本内の視聴率\( \hat{p} \)は大数の法則に従って母集団の視聴率\( p \)(母数)の点推定値として扱えます。 従って、\( \sqrt{ p(1-p)/n \quad } \)の\( p \)を、点推定の\( \hat{p} \)で置き換えて、さらに\( n=1000 \)、\( \hat{p} = 0.12 \)を代入すると、視聴率の区間推定を求めることができます。
\[ 0.12-1.96 \times 0.01 \leq p \leq 0.12+1.96 \times 0.01 \] \[ \because 0.10 \leq p \leq 0.14 \]
このように母集団が正規分布でなくても、正規分布で近似できるような場合は区間推定が可能になります。

7.4.5.推定実施の条件

区間推定を行う場合、いろいろな条件によって場合分けが必要になります。 そこで場合分けについての整理表を以下に示します (場合分けは、初学者向け用の範囲に限定します)。 なお、通常母集団分布や母分散\( \sigma \)はわかりませんが、母集団分布については経験的に判断されます。

母集団分布 母分散 標本
サイズ
標本平均
の分布
信頼区間
正規分布
\( N(\mu, \sigma) \)
既知 正規分布
\[ \bar{X} - Z \displaystyle \frac{ \sigma }{ \sqrt{n} } \leq \mu \leq \bar{X} + Z \displaystyle \frac{ \sigma }{ \sqrt{n} } \]
未知 大きい 正規分布
\[ \bar{X} - Z \displaystyle \frac{ s }{ \sqrt{n} } \leq \mu \leq \bar{X} + Z \displaystyle \frac{ s }{ \sqrt{n} } \]
小さい t分布
\[ \bar{X} - t \displaystyle \frac{ s }{ \sqrt{n} } \leq \mu \leq \bar{X} + t \displaystyle \frac{ s }{ \sqrt{n} } \]
二項分布
\( B(n, p) \)
既知 大きい ≒正規分布
\[ \hat{p} - Z \sqrt{\displaystyle \frac{ \hat{p}(1-\hat{p}) }{ n }} \leq p \leq \hat{p} + Z \sqrt{\displaystyle \frac{ \hat{p}(1-\hat{p}) }{ n }} \]


参考文献