情報量

英語名：information entropy

脳科学辞典の中に「情報量」の項目があるのは、情報という概念が根本的に重要で、この脳という素晴らしい機能の理解には、「脳は情報処理を行う」という見方が必要不可欠だからである。「情報量」は、この観点を実際に肉づけするのに必要な概念である。本辞典の使用を考えると、「情報量」をやたら厳密に議論するよりも、その本質の直観的理解が大切だろう。したがって、以下、本質的な意味を直観的に理解することを第一に記述し、最後にいくつかの基本的背景や但し書きを列挙する。

情報とは、それを知ることで何かを教えてくれる、ことである。つまり、それを知ることで何かの不確実さが減ることになる。情報の「量」を定義することによって、その不確実さの変化を量として測ることを可能にすることが、「情報量」の本質的な目的となる。このとき、不確実さが減るほど、情報量が大きくなるように定義したいというのは自明だろう。

簡単な例— 1 から 6 まで数字がでるサイコロ—でもう少し先まで考えてみることで、情報量が持っていてほしい性質を捉まえてみよう。このサイコロでどの目も確率6分の1で出るはずだが、サイコロをふるまではどの目がでるかはわからない。ひとたびサイコロを振ると、ある目が出る。このサイコロを振る前と振った後では、不確実さが減っている。これをどのように測るかが情報量を定義するときに本質的な課題である。さて6面体のサイコロから、20面体のサイコロに変えたとしよう。この場合もサイコロを振る前と振った後では不確実さが減るわけだが、どちらのサイコロの場合のほうが不確実さは減るだろうか？直観的に言って、出るかもしれない目が多いのだから（20面体では各々の目の出る確率は20分の1であり、6分の1よりも小さいから）、サイコロを振ることで減った不確実さは、20面体のときのほうが大きい。つまり、確率の小さな事象が起きたことを知るときのほうが、不確実さの減り方は大きい、すなわち情報量が大きいとしたい。では、6面体の例に戻って、サイコロを振ったあとで、出た目の数は自分では直接見れないけれども、別の人が出た目を見て、偶数だったか奇数だったか教えてもらえるとしよう。この場合、偶数か奇数かはわかるので、サイコロを振る前よりは不確実さは減ってはいるけれども、出た目を自分で直接見るのに比べれば、その減り方は少ない。さて、偶数か奇数か教えてもらった後で、偶数グループの3つの数字にあらためてＡ，Ｂ、Ｃ（奇数グループはＣ，Ｄ，Ｆ）と番号づけておいて、その番号を教わったとする。当然のことながら、このＡ，Ｂ，Ｃのどれかだったかを教われば、もともと1～6の数字のどれが出たのかはわかることになる。この偶奇を教わってからグループの番号を教わることで最終的に減った不確実さは、最初から自分で数字を見るときに減った不確実さと同じであってほしいのは直観的に明らかだろう。

情報量は、これらの直観を反映するように定義されている。確率 $p$ の事象が起きたことを知らせる情報に含まれる情報量は、 $e$ 、

$- log p$ (1)

と定義される。（マイナスがついているのは、小さい確率の事象ほど大きな情報量になるのに役立つ。また上の偶奇を知ってからそのグループを知る場合と、最初から数字を知る場合の二つが、情報量として同じであるというのは、 $- log(1 / 2) - - log(1 / 3) = log(1 / 6)$ として実現される。）

より一般的には、何らかの確率で何かがおきるのだから、それらの事象を $i = 1,..., n$ で番号づけして、それぞれの確率を $p_{1},p_{2},\ldots ,p_{n}$ とすると、確率は足して1になるので、 $\sum _{i=1}^{n}{p_{i}}=1$ となる。6面体のサイコロの例で言えば、事象の数は６である。サイコロを振る前は、事象は何も起きていないのに対して、振った後ではどれかの事象が起きることになる。事象が起きる前にある不確実さは、まだ何が起きるのかはわからないのだから、 $- log p i$ で直接測ることはできない。一方で、まだ何が起きるかはわかっていないとしても、その時点での不確実さの平均を図ることは可能である。それは、

$H(p_{1},p_{2},\ldots ,p_{n})=-\sum _{i=1}^{n}p_{i}\log p_{i}$ (2)

として測ることができる。この $H(p_{1},p_{2},\ldots ,p_{n})$ も情報量と呼ばれる。実は、先ほど定義した式(1)の情報量は、しばしば自己情報量(self information)と呼ばれ、むしろ式(2)の量のほうが情報量として一般的に使われる。また、式(2)の量は別名エントロピー(entropy)とも呼ばれる。以下、(1)と(2)の量を区別をしやすいように、(2)の量をエントロピーと呼んで記述する。

エントロピーは常に非負 $H\geq 0$ であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる（他の事象は全て確率ゼロ）という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が $n$ コのときには、全ての事象が同じ確率、つまり $p i = 1 / n$ のときで、その場合、 $H = log n$ となる。
6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか？その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、 $I = H ($ 振る前 $) H$ ' $($ 振った後 $)$ と定義できる。今、サイコロを振る前は、式(2)を用いるとｘｘｘの不確実性となる。サイコロを振った後では、事象が１つに確定する、つまり事象の数は１でその事象の確率が1となるので、式(2)を用いると $H' = 0$ となる。したがってxxx がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、

yyyy

として定義される。この定義で、自己情報量でなくエントロピーを使っているのには理由がある。サイコロの例などは、起きる事象が一つに確定できるのでわかりやすいが、より一般には、ある情報が与えられた後で、事象が確定できない場合のほうが多い。一例をあげると、翌日の天気を予測するのに、なにも知らないで予測するのと、天気予報の情報を得て予測する、という二つの場合を比べるときに、即ち天気予報の情報量を求めるときに、まだ翌日の天気は分かっていない、つまり自己情報量を用いることはできない。このような自己情報量を用いることができない場合も含めて、情報量を考えるためには、エントロピーの差として情報量を定義するほうが自然なのである。大胆に言えば、以上が「情報量」の本質である。以下、いくつかの但し書きを述べておく。

1. 上に記述した情報量の概念を、複数の事象の確率（確率変数）に対して拡張することが一般的に可能である。なかでも、最も基本的なのは、二つの確率に基づく複合事象の関係に対して定義される「相互情報量」と「条件付きエントロピー」の概念である。二つの異なる事象系を考え、一つの系を $i = 1,..., n$ で番号づけして、各々の事象を $A i$ と表し、もう一つの系を $j = 1,..., m$ で番号づけして、各々の事象を $B j$ で表すと複合事象は $(A i . B j)の組として与えられる。このとき相互情報量$ $I (A, B)$ は、　xxxxx

となる。この相互情報量は、一方の系の事象を知ることで（たとえば $A$ の系について知ることで）、他方の事象について（ $B$ の系について）どれだけの情報が得られるかを表している。それは、この式が、

YYYY

と書き直せることからもわかる。この左辺の第2項に出ているのが条件付きエントロピーで、

xxxxx

　と定義される。

2. なお上の記述ではエントロピーを式（２）で直接定義した。これに対して、どうしてこの式でよいのか、あるいは、他の式で定義するほうがより優れた量を定義できるのではないか、という疑問がでるかもしれない。実は、いくつかの満たすべき性質を最初に決めて（数学的に言えば、いくつかの公理を決めて）、それから式（２）を導出することができる。最初のほうに記述した直観的例（サイコロの例）は、実はこの満たすべき性質の具体例に対応している。導出の仕方にはいくつかあるが、通常、「非負性」（情報量は０か正の数にしたい）、「単調減少性」（確率の低い事象ほど大きくしたい）、「独立加法性」（サイコロの偶奇とそのグループ番号を知るのと、最初から番号を知るのが同じ；独立事象の積による情報量と、その各事象の情報量の和を等しくしたい）、「連続性」（確率の微妙な変化は情報量の連続的な変化に対応するとしたい）という性質を満たすとすると、式（２）の定義が自然に導出される。
単位についても触れておこう。たとえば、「長さ」の単位としては、メートルなどがあるが、「情報量」の単位はどうなのか。情報量は、本来は、無次元の量とされている。一方で、式（２）では対数 $(log)$ を使っている。慣用としては、式（２）のように対数の底を書かないときには、その底は、 $e$ 、つまり対数は自然対数 $(log e)$ を用いていると考える。この自然対数を考えた時の情報量の単位は、ナット(nat)と決めれている。他に、情報量を議論をするときにしばしば用いられるのは、対数の底を２とする場合で、その時の情報量の単位は、ビット (bit)と呼ばれている。
また、本項目では情報量は、もとになる確率が離散の場合（いくつかの個別の事柄として事象を数えられる場合）について記述した。実際には、事象が連続の場合もある。たとえば、正規分布に従って起きる事象などはその例となる。このような連続の値を取るような場合にも情報量を定義できる。本質的な考え方は離散の場合と同様である。
3. 「情報量」の概念は、1948年のクロード・シャノンの「通信の数学的理論」によって明らかになった(Shannon and Weaver, 1949)。一方で、その源流の一つには物理学の研究の流れ（熱力学・統計力学などでのエントロピーという概念の提唱）があった（Ｗｉｋｉｐｅｄｉａの情報量、ＸＸＸなどの項目を参照のこと）。情報量の概念は、現在では、諸分野にまたがって広く用いられている一般的な概念となっている。日本語のわかりやすい解説としては、たとえば、情報理論では甘利(甘利俊一, 1996)、熱力学では田崎(田崎晴明, 2000)などがある。その定式化に用いられるlogを使って確率分布に関する平均的量を評価する方法は、たとえば、二つの確率分布の近接性を評価する際に用いられるカルバック―ライブラー情報量など、広く用いられている。現在の統計情報科学（情報理論、統計科学、機械学習、情報幾何など）で基礎的な概念として用いられている(Amari and Nagaoka, 2000; Cover and Thomas, 2006)。一方で、この情報量の定式化を拡張することで新たな展開を目指す試みは、現在でも盛んに行われている。たとえば、上述した４つの性質のうちの一部を緩めたり、あるいは一般化することで新たな性質をもつ基本的な量が定義できたりする。それらの科学の発展の基礎にある情報量の概念は、今後より一層重要な概念になるだろう。
4. 神経科学の分野でも、情報量は神経細胞記録のデータ解析などに広く用いられている。たとえば、視覚刺激と神経細胞の活動応答の間の相互情報量を調べることで、神経細胞の視覚刺激の符号化を調べる、神経細胞集団活動のもとにある機能的構造の推定を情報量の最大化原理から行う、シナプス可塑性の学習則を前シナプス細胞と後シナプス細胞の間の活動とその情報量の関係から調べる、などが挙げられる。神経科学のデータに関連させながら、情報量について解説した教科書も複数出ているので必要に応じて参照されたい(Dayan and Abbot, 2001; Rieke et al., 1999)。

情報量

ナビゲーション メニュー

検索

ナビゲーションメニュー