1.情報の単位

私たちにとって最も簡単な情報とは、二者択一、つまり“はい”か“いいえ”で答えられる情報でしょう。例えば、


あの人は男ですか?

の問いに対し、“はい”と答えれば“男”という情報がえられ、“いいえ”と答えれば“女”という情報が得られるわけです。 このような二者択一の問いかけから得られる情報を最小の情報量として情報の単位に用います。 この最小単位をビットbinary digit)と呼びます。


このような情報はコンピュータで扱えます。 コンピュータはON/OFFスイッチの集合体ですから「はい」=ON、「いいえ」=OFFと設定すればよいわけです。 さらにスイッチがONのときを“1”、OFFのときを“0”とすることで情報を数値化できます。

従ってコンピュータで扱う1ビットの情報は、“1”または“0”のどちらかを選択することに他なりません。


2.情報量

2.1.情報量

前節の例「あなたは男ですか?」の問いからは、

「あなたはである」 「あなたはである」

のどちらか1つの情報を得ることができるので、この質問は1ビットの情報量を持っています。

この質問に「あなたは大人ですか?」を加えると、質問の答えは次の22=4通り存在し、


(男∧大人) (男∧子供) (女∧大人) (女∧子供)

“男 or 女”、“大人 or 子供”の2つの情報が得られます。

このときの情報量は1ビットの質問を2つ組み合わせたものなので、2ビットになります。


さらに「あなたは右利きですか?」の問いを加えれば、次の8つの中から1つが得られます。


(男∧大人∧右) (男∧大人∧左)
(男∧子供∧右) (男∧子供∧左)
(女∧大人∧右) (女∧大人∧左)
(女∧子供∧右) (女∧子供∧左)

この情報量は1ビットの質問を3つ組み合わせたものなので、3ビットになります。

このように「答えの組み合わせが2n個ある質問の情報量」はnビットになります。


ちなみに、答えが3つある質問の情報量は整数にはなりません(例えば「飲み物のサイズはどれにしますか?」の答えが“S”“M”“L”の場合)。


\[ 2^n=3 \ \leftrightarrow \ n=log_{2}3 = \frac{\log_{10}3}{\log_{10}2}=\frac{0.477}{0.301}=1.585 \]

2.2.情報量と確率

前節で見た通り情報を得ることは、2n個ある答えの中から一つを選択することに他なりません。 このとき、一つの答えを選択する確率は1/2nとなります。

そこで、この確率が持つ意味について考えてみます。

例えば一つの質問に対し、Aという答えが得られる確率を1/5、Bという答えが得られる確率を4/5とします。 このとき、Aという答えは5個の選択肢があってはじめて1個選択できることになるので、 情報量nAは次のようになります。


\[ 2^{n_A} = \frac{1}{(\displaystyle\frac{1}{5})} = 5 \leftrightarrow {n_A} = log_{2}5 = 2.322 \]

それに対しBという答えは、5個の選択肢がある中から4個選択できることになります。 つまり1.25個の選択肢から1個選択するとBになるため、情報量nBは次のようになります。


\[ 2^{n_B} = \frac{1}{(\displaystyle\frac{4}{5})} = 1.25 \leftrightarrow {n_B} = log_{2}1.25 = 0.322 \]

結果、Aという答えから得られる情報量とBという答えから得られる情報量には差があり、


\[ {n_A} \gt {n_B} \]

の関係が成り立ちます。つまり、発生確率の低い事象から得られる情報量は大きい、ということが言えます。 これは例えば、めったに流れない出来事が生じたときの情報が世間に与える衝撃が大きいことからも容易に想像がつくと思います。


最後に、確率Pの事象から得られる情報量n(ビット)は次式で定義されます。


\[ n = log_{2}(\frac{1}{P}) \tag{2.2-1} \]

3.情報エントロピー

エントロピーは、熱力学において“乱雑さ”を表す量として定義されたものです。 熱力学における乱雑さとは、例えば2つの気体が完全に交じり合った状態をイメージしてもらえればわかりやすいと思います。 エントロピーでこの乱雑さを表す場合、2つの気体が完全に交じり合った状態がエントロピー最大の状態、 逆に2つの気体が完全に分離された状態がエントロピー最小の状態となります。 もう少し身近な例で言えば、部屋をきれいに片づけた状態がエントロピーの小さい状態、 そこから日数が経って部屋中が無秩序に散らかりまくった状態がエントロピーの大きい状態、と考えてもらえばよいかと思います。


この「無秩序に散らばった状態」というものを情報の世界にも当てはめてみよう、というのが情報エントロピーです。


前述の例と照らし合わせて、きちんと整理整頓された情報は情報エントロピーが小さいとし、 逆にいろんな情報がとっちらかって存在しそれらをまとめても何ら情報として価値を持たない場合、情報エントロピーは大きいとします。 ただ、このような定性的な話だけではエントロピーを定量的に扱うことはできません。 そこで、情報エントロピーを次のように定義することで定量化します。

ある事象が起こる確率をPi、そこから得られる情報量をniとするとき、エントロピーHは次のようになります。


\[ H = \sum_{k=1}^{n} P_{i}n_{i} = \sum_{k=1}^{n} P_{i}log_{2}\frac{1}{P_{i}} = -\sum_{k=1}^{n} P_{i}log_{2}P_{i} \tag{3-1} \]
「ある質問や行為(=情報源)から平均的に得られる情報量の予測値」

このエントロピーHがどのようなグラフになるか?について見てみます。

ある事象Aが発生する確率をP、Bが発生する確率を1-Pとしたとき、エントロピーの特性は次のようになります。


\[ H = -Plog_{2}P - ( 1 - P )log_{2}(1-P) \]

Pは確率であるため0≦P≦1であり、これを考慮に入れてグラフを描くと下図のようになります。


エントロピーのグラフ

このようにエントロピーHは確率Pに対して上に凸な関数となります。またエントロピーHを最大にする確率Pは次のようになります。


\[ \frac{dH}{dP} = log_{2}(1-P)-log_{2}P=0 \leftrightarrow P=\frac{1}{2} \]

つまり、発生事象が等確率な情報、つまり五分五分の予想から得られるエントロピーが最大となり、 発生確率の差が大きくなるほど得られるエントロピーは小さくなります。

この意味から、エントロピーは“情報の不確定さ”を表すもの、 つまりエントロピーが小さければそれだけ情報の確からしさは上がるということを表しています。 (五分五分の予想をもとに何かを決めるの“丁”か“半”かのばくち打ちとほとんど変わりません)


ここで相撲を例にとり、情報のエントロピーを実際に計算してみます。

横綱Aさんと平幕Bさんの対戦から得られるエントロピー、平幕Bさんと平幕Cさんの対戦から得られるエントロピーを計算します。

横綱Aさんと平幕Bさんの対戦成績は20勝5敗とし、この力関係は普遍的と見ます。

すると横綱Aさんが平幕Bさんに勝つ確率と、平幕Bさんが横綱Aさんに勝つ確率は次のようになります。


横綱Aさんが平幕Bさんに勝つ確率 \[ \frac{4}{5} = P_{1} \]
平幕Bさんが横綱Aさんに勝つ確率 : \[ \frac{1}{5} = P_{2} \]

このとき、確率P1、P2から得られる情報量をそれぞれ n1、n2とすると次のようになります。


\[ n_{1} = log_{2}(1.25) = 0.322 \] \[ n_{2} = log_{2}5 = 2.322 \]

これを(3-1)式に代入すると、この対戦から得られる情報エントロピーは次のようになります。


\[ H_{AB} = \sum_{k=1}^{2}P_{i}n_{i} = \frac{4}{5} \times 0.322 + \frac{1}{5} \times 2.322 = 0.722 \]

それに対し、平幕Bさんと平幕Cさんの対戦成績は10勝10敗の五分だとすると、この情報エントロピーは次のようになります。


\[ H_{BC} = \frac{1}{2}log_{2}\frac{1}{\frac{1}{2}} + \frac{1}{2}log_{2}\frac{1}{\frac{1}{2}} = 1 \]

結局この場合はどっちが勝つか予想がつきませんので、情報としてはあまり価値がないものになります。


      

参考文献

本書はエントロピー全般(情報、熱)について非常にわかりやすく書かれた本です。エントロピーの概念を把握するには手軽で都合の良い本だと思います。

関連ページ