2012年4月9日 (月) 14:44時点における版

英語名：information entropy

はじめに

脳科学辞典の中に「情報量」の項目があるのは、情報という概念が根本的に重要で、この脳という素晴らしい機能の理解には、「脳は情報処理を行う」という見方が必要不可欠だからである。「情報量」は、この観点を実際に肉づけするのに必要な概念である。本辞典の使用を考えると、「情報量」をやたら厳密に議論するよりも、その本質の直観的理解が大切だろう。したがって、以下、本質的な意味を直観的に理解することを第一に記述し、最後にいくつかの基本的背景や但し書きを列挙する。

情報と情報量

情報とは、それを知ることで何かを教えてくれる、ことである。つまり、それを知ることで何かの不確実さが減ることになる。情報の「量」を定義することによって、その不確実さの変化を量として測ることを可能にすることが、「情報量」の本質的な目的となる。このとき、不確実さが減るほど、情報量が大きくなるように定義したいというのは自明だろう。

簡単な例

簡単な例— 1 から 6 まで数字がでるサイコロ—でもう少し先まで考えてみることで、情報量が持っていてほしい性質を捉まえてみよう。このサイコロでどの目も確率6分の1で出るはずだが、サイコロをふるまではどの目がでるかはわからない。ひとたびサイコロを振ると、ある目が出る。このサイコロを振る前と振った後では、不確実さが減っている。これをどのように測るかが情報量を定義するときに本質的な課題である。さて6面体のサイコロから、20面体のサイコロに変えたとしよう。この場合もサイコロを振る前と振った後では不確実さが減るわけだが、どちらのサイコロの場合のほうが不確実さは減るだろうか？直観的に言って、出るかもしれない目が多いのだから（20面体では各々の目の出る確率は20分の1であり、6分の1よりも小さいから）、サイコロを振ることで減った不確実さは、20面体のときのほうが大きい。つまり、確率の小さな事象が起きたことを知るときのほうが、不確実さの減り方は大きい、すなわち情報量が大きいとしたい。では、6面体の例に戻って、サイコロを振ったあとで、出た目の数は自分では直接見れないけれども、別の人が出た目を見て、偶数だったか奇数だったか教えてもらえるとしよう。この場合、偶数か奇数かはわかるので、サイコロを振る前よりは不確実さは減ってはいるけれども、出た目を自分で直接見るのに比べれば、その減り方は少ない。さて、偶数か奇数か教えてもらった後で、偶数グループの3つの数字にあらためてＡ，Ｂ、Ｃ（奇数グループはＣ，Ｄ，Ｆ）と番号づけておいて、その番号を教わったとする。当然のことながら、このＡ，Ｂ，Ｃのどれかだったかを教われば、もともと1～6の数字のどれが出たのかはわかることになる。この偶奇を教わってからグループの番号を教わることで最終的に減った不確実さは、最初から自分で数字を見るときに減った不確実さと同じであってほしいのは直観的に明らかだろう。

情報量の定義方法

情報量は、これらの直観を反映するように定義されている。確率 $p$ の事象が起きたことを知らせる情報に含まれる情報量は、

$- log p$ (1)

と定義される。（マイナスがついているのは、小さい確率の事象ほど大きな情報量になるのに役立つ。また上の偶奇を知ってからそのグループを知る場合と、最初から数字を知る場合の二つが、情報量として同じであるというのは、 $- log(1 / 2) - - log(1 / 3) = log(1 / 6)$ として実現される。）

より一般的には、何らかの確率で何かがおきるのだから、それらの事象を $i = 1,..., n$ で番号づけして、それぞれの確率を $p_{1},p_{2},\ldots ,p_{n}$ とすると、確率は足して1になるので、 $\sum _{i=1}^{n}{p_{i}}=1$ となる。6面体のサイコロの例で言えば、事象の数は６である。サイコロを振る前は、事象は何も起きていないのに対して、振った後ではどれかの事象が起きることになる。事象が起きる前にある不確実さは、まだ何が起きるのかはわからないのだから、 $- log p i$ で直接測ることはできない。一方で、まだ何が起きるかはわかっていないとしても、その時点での不確実さの平均を図ることは可能である。それは、

$H(p_{1},p_{2},\ldots ,p_{n})=-\sum _{i=1}^{n}p_{i}\log p_{i}$ (2)

として測ることができる。この $H(p_{1},p_{2},\ldots ,p_{n})$ も情報量と呼ばれる。実は、先ほど定義した式(1)の情報量は、しばしば自己情報量(self information)と呼ばれ、むしろ式(2)の量のほうが情報量として一般的に使われる。また、式(2)の量は別名エントロピー(entropy)とも呼ばれる。以下、(1)と(2)の量を区別をしやすいように、(2)の量をエントロピーと呼んで記述する。

エントロピーは常に非負 $H\geq 0$ であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる（他の事象は全て確率ゼロ）という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が $n$ コのときには、全ての事象が同じ確率、つまり $p i = 1 / n$ のときで、その場合、 $H = log n$ となる。
6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか？その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、 $I = H ($ 振る前 $) - H' ($ 振った後 $)$ と定義できる。今、サイコロを振る前は、式(2)を用いると $H=\log 6$ の不確実性となる。サイコロを振った後では、事象が１つに確定する、つまり事象の数は１でその事象の確率が1となるので、式(2)を用いると $H'=0$

2012年4月9日 (月) 14:25時点における版 (ソースを閲覧) Hiroyukinakahara (トーク \| 投稿記録) 細編集の要約なし ← 古い編集		2012年4月9日 (月) 14:44時点における版 (ソースを閲覧) Hiroyukinakahara (トーク \| 投稿記録) 細編集の要約なし新しい編集 →
27行目:		27行目:
	として測ることができる。この<math>H(p_1,p_2,\ldots,p_n)</math> も情報量と呼ばれる。実は、先ほど定義した式(1)の情報量は、しばしば自己情報量(self information)と呼ばれ、むしろ式(2)の量のほうが情報量として一般的に使われる。また、式(2)の量は別名エントロピー(entropy)とも呼ばれる。以下、(1)と(2)の量を区別をしやすいように、(2)の量をエントロピーと呼んで記述する。		として測ることができる。この<math>H(p_1,p_2,\ldots,p_n)</math> も情報量と呼ばれる。実は、先ほど定義した式(1)の情報量は、しばしば自己情報量(self information)と呼ばれ、むしろ式(2)の量のほうが情報量として一般的に使われる。また、式(2)の量は別名エントロピー(entropy)とも呼ばれる。以下、(1)と(2)の量を区別をしやすいように、(2)の量をエントロピーと呼んで記述する。

	エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる（他の事象は全て確率ゼロ）という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が<span class="texhtml">''n''</span> コのときには、全ての事象が同じ確率、つまり <span class="texhtml">''p''<sub>''i''</sub> = 1 / ''n''</span> のときで、その場合、<span class="texhtml">''H'' = log''n''</span> となる。<br>6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか？その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量 <span class="texhtml">''I'' = ''H''(</span>振る前<span class="texhtml">) − ''H'''(</span>振った後<span class="texhtml">)</span> と定義できる。今、サイコロを振る前は、式(2)を用いると<~~span class="texhtml"~~>''H'' = ~~log6~~</~~span~~> の不確実性となる。サイコロを振った後では、事象が１つに確定する、つまり事象の数は１でその事象の確率が1となるので、式(2)~~を用いると、~~<~~span class="texhtml"~~>''H''' = 0~~</span> となる。したがって、<math>I=H-H'=H=\log 6~~</math>		エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる（他の事象は全て確率ゼロ）という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が<span class="texhtml">''n''</span> コのときには、全ての事象が同じ確率、つまり <span class="texhtml">''p''<sub>''i''</sub> = 1 / ''n''</span> のときで、その場合、<span class="texhtml">''H'' = log''n''</span> となる。<br>6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか？その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、 <span class="texhtml">''I'' = ''H''(</span>振る前<span class="texhtml">) − ''H'''(''</span>''振った後<span class="texhtml">)</span> と定義できる。今、サイコロを振る前は、式(2)を用いると<math>H=\log 6</math> の不確実性となる。サイコロを振った後では、事象が１つに確定する、つまり事象の数は１でその事象の確率が1となるので、式(2)を用いると<math>H'=0</math>

「情報量」の版間の差分

2012年4月9日 (月) 14:44時点における版

目次

はじめに

情報と情報量

簡単な例

情報量の定義方法

案内メニュー

「情報量」の版間の差分

2012年4月9日 (月) 14:44時点における版

はじめに

情報と情報量

簡単な例

情報量の定義方法

案内メニュー

検索