情報量

英語名：information entropy

脳科学辞典の中に「情報量」の項目があるのは、情報という概念が根本的に重要で、この脳という素晴らしい機能の理解には、「脳は情報処理を行う」という見方が必要不可欠だからである。「情報量」は、この観点を実際に肉づけするのに必要な概念である。本辞典の使用を考えると、「情報量」をやたら厳密に議論するよりも、その本質の直観的理解が大切だろう。したがって、以下、本質的な意味を直観的に理解することを第一に記述し、最後にいくつかの基本的背景や但し書きを列挙する。

情報とは、それを知ることで何かを教えてくれる、ことである。つまり、それを知ることで何かの不確実さが減ることになる。情報の「量」を定義することによって、その不確実さの変化を量として測ることを可能にすることが、「情報量」の本質的な目的となる。このとき、不確実さが減るほど、情報量が大きくなるように定義したいというのは自明だろう。

簡単な例— 1 から 6 まで数字がでるサイコロ—でもう少し先まで考えてみることで、情報量が持っていてほしい性質を捉まえてみよう。このサイコロでどの目も確率6分の1で出るはずだが、サイコロをふるまではどの目がでるかはわからない。ひとたびサイコロを振ると、ある目が出る。このサイコロを振る前と振った後では、不確実さが減っている。これをどのように測るかが情報量を定義するときに本質的な課題である。さて6面体のサイコロから、20面体のサイコロに変えたとしよう。この場合もサイコロを振る前と振った後では不確実さが減るわけだが、どちらのサイコロの場合のほうが不確実さは減るだろうか？直観的に言って、出るかもしれない目が多いのだから（20面体では各々の目の出る確率は20分の1であり、6分の1よりも小さいから）、サイコロを振ることで減った不確実さは、20面体のときのほうが大きい。つまり、確率の小さな事象が起きたことを知るときのほうが、不確実さの減り方は大きい、すなわち情報量が大きいとしたい。では、6面体の例に戻って、サイコロを振ったあとで、出た目の数は自分では直接見れないけれども、別の人が出た目を見て、偶数だったか奇数だったか教えてもらえるとしよう。この場合、偶数か奇数かはわかるので、サイコロを振る前よりは不確実さは減ってはいるけれども、出た目を自分で直接見るのに比べれば、その減り方は少ない。さて、偶数か奇数か教えてもらった後で、偶数グループの3つの数字にあらためてＡ，Ｂ、Ｃ（奇数グループはＣ，Ｄ，Ｆ）と番号づけておいて、その番号を教わったとする。当然のことながら、このＡ，Ｂ，Ｃのどれかだったかを教われば、もともと1～6の数字のどれが出たのかはわかることになる。この偶奇を教わってからグループの番号を教わることで最終的に減った不確実さは、最初から自分で数字を見るときに減った不確実さと同じであってほしいのは直観的に明らかだろう。

情報量は、これらの直観を反映するように定義されている。確率 $p$ の事象が起きたことを知らせる情報に含まれる情報量は、

$- log p$ (1)

と定義される。（マイナスがついているのは、小さい確率の事象ほど大きな情報量になるのに役立つ。また上の偶奇を知ってからそのグループを知る場合と、最初から数字を知る場合の二つが、情報量として同じであるというのは、 $- log(1 / 2) - - log(1 / 3) = log(1 / 6)$ として実現される。）

より一般的には、何らかの確率で何かがおきるのだから、それらの事象を $i = 1,..., n$ で番号づけして、それぞれの確率を $p_{1},p_{2},\ldots ,p_{n}$ とすると、確率は足して1になるので、 $\sum _{i=1}^{n}{p_{i}}=1$ となる。6面体のサイコロの例で言えば、事象の数は６である。サイコロを振る前は、事象は何も起きていないのに対して、振った後ではどれかの事象が起きることになる。事象が起きる前にある不確実さは、まだ何が起きるのかはわからないのだから、 $- log p i$ で直接測ることはできない。一方で、まだ何が起きるかはわかっていないとしても、その時点での不確実さの平均を図ることは可能である。それは、

$H(p_{1},p_{2},\ldots ,p_{n})=-\sum _{i=1}^{n}p_{i}\log p_{i}$ (2)

として測ることができる。この $H(p_{1},p_{2},\ldots ,p_{n})$ も情報量と呼ばれる。実は、先ほど定義した式(1)の情報量は、しばしば自己情報量(self information)と呼ばれ、むしろ式(2)の量のほうが情報量として一般的に使われる。また、式(2)の量は別名エントロピー(entropy)とも呼ばれる。以下、(1)と(2)の量を区別をしやすいように、(2)の量をエントロピーと呼んで記述する。

エントロピーは常に非負 $H\geq 0$ であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる（他の事象は全て確率ゼロ）という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が $n$ コのときには、全ての事象が同じ確率、つまり $p i = 1 / n$ のときで、その場合、 $H = log n$ となる。
6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか？その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、 $I = H ($ 振る前 $) H$ ' $($ 振った後 $)$ と定義できる。今、サイコロを振る前は、式(2)を用いると xxx の不確実性となる。サイコロを振った後では、事象が１つに確定する、つまり事象の数は１でその事象の確率が1となるので、式(2)を用いると<span class="texhtml" />H' = 0 となる。したがってxxx がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、

yyyy

として定義される。この定義で、自己情報量でなくエントロピーを使っているのには理由がある。サイコロの例などは、起きる事象が一つに確定できるのでわかりやすいが、より一般には、ある情報が与えられた後で、事象が確定できない場合のほうが多い。一例をあげると、翌日の天気を予測するのに、なにも知らないで予測するのと、天気予報の情報を得て予測する、という二つの場合を比べるときに、即ち天気予報の情報量を求めるときに、まだ翌日の天気は分かっていない、つまり自己情報量を用いることはできない。このような自己情報量を用いることができない場合も含めて、情報量を考えるためには、エントロピーの差として情報量を定義するほうが自然なのである。大胆に言えば、以上が「情報量」の本質である。以下、いくつかの但し書きを述べておく。

1. 上に記述した情報量の概念を、複数の事象の確率（確率変数）に対して拡張することが一般的に可能である。なかでも、最も基本的なのは、二つの確率に基づく複合事象の関係に対して定義される「相互情報量」と「条件付きエントロピー」の概念である。二つの異なる事象系を考え、一つの系を $i = 1,..., n$ で番号づけして、各々の事象を $A i$ と表し、もう一つの系を $j = 1,..., m$ で番号づけして、各々の事象を $B j$ で表すと複合事象は $(A i . B j)の組として与えられる。このとき相互情報量$ $I (A, B)$ は、　xxxxx