「情報量」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
19行目: 19行目:
として測ることができる。この<math>H(p_1,p_2,\ldots,p_n)</math> も情報量と呼ばれる。実は、先ほど定義した式(1)の情報量は、しばしば自己情報量(self information)と呼ばれ、むしろ式(2)の量のほうが情報量として一般的に使われる。また、式(2)の量は別名エントロピー(entropy)とも呼ばれる。以下、(1)と(2)の量を区別をしやすいように、(2)の量をエントロピーと呼んで記述する。  
として測ることができる。この<math>H(p_1,p_2,\ldots,p_n)</math> も情報量と呼ばれる。実は、先ほど定義した式(1)の情報量は、しばしば自己情報量(self information)と呼ばれ、むしろ式(2)の量のほうが情報量として一般的に使われる。また、式(2)の量は別名エントロピー(entropy)とも呼ばれる。以下、(1)と(2)の量を区別をしやすいように、(2)の量をエントロピーと呼んで記述する。  


エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる(他の事象は全て確率ゼロ)という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が<span class="texhtml">''n''</span> コのときには、全ての事象が同じ確率、つまり <span class="texhtml">''p''<sub>''i''</sub> = 1 / ''n''</span> のときで、その場合、<span class="texhtml">''H'' = log''n''</span>となる。<br> 6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか?その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、<span class="texhtml">''I'' = ''H''(</span>振る前<span class="texhtml">) − ''H''</span>'<span class="texhtml">(</span>振った後<span class="texhtml">)</span>と定義できる。今、サイコロを振る前は、式(2)を用いると<span class="texhtml">''H'' = log6</span> の不確実性となる。サイコロを振った後では、事象が1つに確定する、つまり事象の数は1でその事象の確率が1となるので、式(2)を用いると<span class="texhtml">''H''</span>'<span class="texhtml"> = 0</span>となる。したがって がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、 yyyy として定義される。この定義で、自己情報量でなくエントロピーを使っているのには理由がある。サイコロの例などは、起きる事象が一つに確定できるのでわかりやすいが、より一般には、ある情報が与えられた後で、事象が確定できない場合のほうが多い。一例をあげると、翌日の天気を予測するのに、なにも知らないで予測するのと、天気予報の情報を得て予測する、という二つの場合を比べるときに、即ち天気予報の情報量を求めるときに、まだ翌日の天気は分かっていない、つまり自己情報量を用いることはできない。このような自己情報量を用いることができない場合も含めて、情報量を考えるためには、エントロピーの差として情報量を定義するほうが自然なのである。大胆に言えば、以上が「情報量」の本質である。以下、いくつかの但し書きを述べておく。  
エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる(他の事象は全て確率ゼロ)という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が<span class="texhtml">''n''</span> コのときには、全ての事象が同じ確率、つまり <span class="texhtml">''p''<sub>''i''</sub> = 1 / ''n''</span> のときで、その場合、<span class="texhtml">''H'' = log''n''</span>となる。<br> 6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか?その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、<span class="texhtml">''I'' = ''H''(</span>振る前<span class="texhtml">) − ''H''</span>'<span class="texhtml">(</span>振った後<span class="texhtml">)</span>と定義できる。今、サイコロを振る前は、式(2)を用いると<span class="texhtml">''H'' = log6</span> の不確実性となる。サイコロを振った後では、事象が1つに確定する、つまり事象の数は1でその事象の確率が1となるので、式(2)を用いると<span class="texhtml">''H''</span>'<span class="texhtml"> = 0</span>となる。したがって がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、  
 
yyyy
 
として定義される。この定義で、自己情報量でなくエントロピーを使っているのには理由がある。サイコロの例などは、起きる事象が一つに確定できるのでわかりやすいが、より一般には、ある情報が与えられた後で、事象が確定できない場合のほうが多い。一例をあげると、翌日の天気を予測するのに、なにも知らないで予測するのと、天気予報の情報を得て予測する、という二つの場合を比べるときに、即ち天気予報の情報量を求めるときに、まだ翌日の天気は分かっていない、つまり自己情報量を用いることはできない。このような自己情報量を用いることができない場合も含めて、情報量を考えるためには、エントロピーの差として情報量を定義するほうが自然なのである。大胆に言えば、以上が「情報量」の本質である。以下、いくつかの但し書きを述べておく。  


1. 上に記述した情報量の概念を、複数の事象の確率(確率変数)に対して拡張することが一般的に可能である。なかでも、最も基本的なのは、二つの確率に基づく複合事象の関係に対して定義される「[[相互情報量]]」と「[[条件付きエントロピー]]」の概念である。二つの異なる事象系を考え、一つの系を<span class="texhtml">''i'' = 1</span>...<span class="texhtml">,''n''</span>で番号づけして、各々の事象を<span class="texhtml">''A''<sub>''i''</sub></span> と表し、もう一つの系を<span class="texhtml">''j'' = 1</span>...<span class="texhtml">,''m''</span>で番号づけして、各々の事象を<span class="texhtml">''B''<sub>''i''</sub></span> で表すと複合事象は<span class="texhtml">(''A''<sub>''i''</sub>,''B''<sub>''j''</sub>)</span>の組として与えられる。このとき相互情報量 <span class="texhtml">''I''(''A'',''B'')</span>は、   xxxxx となる。この相互情報量は、一方の系の事象を知ることで(たとえば<span class="texhtml">''A''</span>の系について知ることで)、他方の事象について(<span class="texhtml">''B''</span>の系について)どれだけの情報が得られるかを表している。それは、この式が、  
1. 上に記述した情報量の概念を、複数の事象の確率(確率変数)に対して拡張することが一般的に可能である。なかでも、最も基本的なのは、二つの確率に基づく複合事象の関係に対して定義される「[[相互情報量]]」と「[[条件付きエントロピー]]」の概念である。二つの異なる事象系を考え、一つの系を<span class="texhtml">''i'' = 1</span>...<span class="texhtml">,''n''</span>で番号づけして、各々の事象を<span class="texhtml">''A''<sub>''i''</sub></span> と表し、もう一つの系を<span class="texhtml">''j'' = 1</span>...<span class="texhtml">,''m''</span>で番号づけして、各々の事象を<span class="texhtml">''B''<sub>''i''</sub></span> で表すと複合事象は<span class="texhtml">(''A''<sub>''i''</sub>,''B''<sub>''j''</sub>)</span>の組として与えられる。このとき相互情報量 <span class="texhtml">''I''(''A'',''B'')</span>は、   xxxxx となる。この相互情報量は、一方の系の事象を知ることで(たとえば<span class="texhtml">''A''</span>の系について知ることで)、他方の事象について(<span class="texhtml">''B''</span>の系について)どれだけの情報が得られるかを表している。それは、この式が、  
27行目: 31行目:
と書き直せることからもわかる。この左辺の第2項に出ているのが条件付きエントロピーで、 xxxxx  と定義される。  
と書き直せることからもわかる。この左辺の第2項に出ているのが条件付きエントロピーで、 xxxxx  と定義される。  


2. なお上の記述ではエントロピーを式(2)で直接定義した。これに対して、どうしてこの式でよいのか、あるいは、他の式で定義するほうがより優れた量を定義できるのではないか、という疑問がでるかもしれない。実は、いくつかの満たすべき性質を最初に決めて(数学的に言えば、いくつかの公理を決めて)、それから式(2)を導出することができる。最初のほうに記述した直観的例(サイコロの例)は、実はこの満たすべき性質の具体例に対応している。導出の仕方にはいくつかあるが、通常、「非負性」(情報量は0か正の数にしたい)、「単調減少性」(確率の低い事象ほど大きくしたい)、「独立加法性」(サイコロの偶奇とそのグループ番号を知るのと、最初から番号を知るのが同じ;独立事象の積による情報量と、その各事象の情報量の和を等しくしたい)、「連続性」(確率の微妙な変化は情報量の連続的な変化に対応するとしたい)という性質を満たすとすると、式(2)の定義が自然に導出される。&lt;br&gt;単位についても触れておこう。たとえば、「長さ」の単位としては、メートルなどがあるが、「情報量」の単位はどうなのか。情報量は、本来は、無次元の量とされている。一方で、式(2)では対数<span class="texhtml">(log)</span>を使っている。慣用としては、式(2)のように対数の底を書かないときには、その底は、<span class="texhtml">''e''</span> 、つまり対数は自然対数<span class="texhtml">(log<sub>''e''</sub>)</span> を用いていると考える。この自然対数を考えた時の情報量の単位は、ナット(nat)と決めれている。他に、情報量を議論をするときにしばしば用いられるのは、対数の底を2とする場合で、その時の情報量の単位は、ビット (bit)と呼ばれている。<br>また、本項目では情報量は、もとになる確率が離散の場合(いくつかの個別の事柄として事象を数えられる場合)について記述した。実際には、事象が連続の場合もある。たとえば、正規分布に従って起きる事象などはその例となる。このような連続の値を取るような場合にも情報量を定義できる。本質的な考え方は離散の場合と同様である。
2. なお上の記述ではエントロピーを式(2)で直接定義した。これに対して、どうしてこの式でよいのか、あるいは、他の式で定義するほうがより優れた量を定義できるのではないか、という疑問がでるかもしれない。実は、いくつかの満たすべき性質を最初に決めて(数学的に言えば、いくつかの公理を決めて)、それから式(2)を導出することができる。最初のほうに記述した直観的例(サイコロの例)は、実はこの満たすべき性質の具体例に対応している。導出の仕方にはいくつかあるが、通常、「非負性」(情報量は0か正の数にしたい)、「単調減少性」(確率の低い事象ほど大きくしたい)、「独立加法性」(サイコロの偶奇とそのグループ番号を知るのと、最初から番号を知るのが同じ;独立事象の積による情報量と、その各事象の情報量の和を等しくしたい)、「連続性」(確率の微妙な変化は情報量の連続的な変化に対応するとしたい)という性質を満たすとすると、式(2)の定義が自然に導出される。&lt;br&gt;単位についても触れておこう。たとえば、「長さ」の単位としては、メートルなどがあるが、「情報量」の単位はどうなのか。情報量は、本来は、無次元の量とされている。一方で、式(2)では対数<span class="texhtml">(log)</span>を使っている。慣用としては、式(2)のように対数の底を書かないときには、その底は、<span class="texhtml">''e''</span> 、つまり対数は自然対数<span class="texhtml">(log<sub>''e''</sub>)</span> を用いていると考える。この自然対数を考えた時の情報量の単位は、ナット(nat)と決めれている。他に、情報量を議論をするときにしばしば用いられるのは、対数の底を2とする場合で、その時の情報量の単位は、ビット (bit)と呼ばれている。<br>また、本項目では情報量は、もとになる確率が離散の場合(いくつかの個別の事柄として事象を数えられる場合)について記述した。実際には、事象が連続の場合もある。たとえば、正規分布に従って起きる事象などはその例となる。このような連続の値を取るような場合にも情報量を定義できる。本質的な考え方は離散の場合と同様である。  


<br>3. 「情報量」の概念は、1948年のクロード・シャノンの「通信の数学的理論」によって明らかになった(Shannon and Weaver, 1949)<ref>'''Shannon, C., and Weaver, W.'''<br>A Mathematical Theory of Communication<br>''University of Illinois Press'':1949</ref>、。一方で、その源流の一つには物理学の研究の流れ([[熱力学]]・[[統計力学]]などでのエントロピーという概念の提唱)があった(Wikipediaの情報量、XXXなどの項目を参照のこと)。情報量の概念は、現在では、諸分野にまたがって広く用いられている一般的な概念となっている。日本語のわかりやすい解説としては、たとえば、情報理論では甘利(甘利俊一, 1996)<ref>'''甘利 俊一'''<br>情報理論<br>''ダイヤモンド社'':1996</ref>、熱力学では田崎(田崎晴明, 2000)<ref>'''田崎晴明'''<br>熱力学 ― 現代的な視点から, Vol 32<br>''培風館'':2000</ref>などがある。<br>その定式化に用いられるlogを使って確率分布に関する平均的量を評価する方法は、たとえば、二つの[[確率分布]]の近接性を評価する際に用いられる[[カルバック―ライブラー情報量]]など、広く用いられている。現在の統計情報科学([[情報理論]]、[[統計科学]]、[[機械学習]]、[[情報幾何]]など)で基礎的な概念として用いられている(Amari and Nagaoka, 2000<ref>'''Amari, S., and Nagaoka, H.'''<br>Methods of Information Geometry<br>''OXFORD UNIVERSITY PRESS'':2000</ref>; Cover and Thomas, 2006)<ref>'''Cover, T., and Thomas, J.'''<br>ELEMENTS OF INFORMATION THEORY Second Edition <br>''WILEY):2006</ref>、。一方で、この情報量の定式化を拡張することで新たな展開を目指す試みは、現在でも盛んに行われている。たとえば、上述した4つの性質のうちの一部を緩めたり、あるいは一般化することで新たな性質をもつ基本的な量が定義できたりする。それらの科学の発展の基礎にある情報量の概念は、今後より一層重要な概念になるだろう。
<br>3. 「情報量」の概念は、1948年のクロード・シャノンの「通信の数学的理論」によって明らかになった(Shannon and Weaver, 1949)<ref>'''Shannon, C., and Weaver, W.'''<br>A Mathematical Theory of Communication<br>''University of Illinois Press'':1949</ref>、。一方で、その源流の一つには物理学の研究の流れ([[熱力学]]・[[統計力学]]などでのエントロピーという概念の提唱)があった(Wikipediaの情報量、XXXなどの項目を参照のこと)。情報量の概念は、現在では、諸分野にまたがって広く用いられている一般的な概念となっている。日本語のわかりやすい解説としては、たとえば、情報理論では甘利(甘利俊一, 1996)<ref>'''甘利 俊一'''<br>情報理論<br>''ダイヤモンド社'':1996</ref>、熱力学では田崎(田崎晴明, 2000)<ref>'''田崎晴明'''<br>熱力学 ― 現代的な視点から, Vol 32<br>''培風館'':2000</ref>などがある。<br>その定式化に用いられるlogを使って確率分布に関する平均的量を評価する方法は、たとえば、二つの[[確率分布]]の近接性を評価する際に用いられる[[カルバック―ライブラー情報量]]など、広く用いられている。現在の統計情報科学([[情報理論]]、[[統計科学]]、[[機械学習]]、[[情報幾何]]など)で基礎的な概念として用いられている(Amari and Nagaoka, 2000<ref>'''Amari, S., and Nagaoka, H.'''<br>Methods of Information Geometry<br>''OXFORD UNIVERSITY PRESS'':2000</ref>; Cover and Thomas, 2006)<ref>'''Cover, T., and Thomas, J.'''<br>ELEMENTS OF INFORMATION THEORY Second Edition <br>''WILEY):2006</ref>、。一方で、この情報量の定式化を拡張することで新たな展開を目指す試みは、現在でも盛んに行われている。たとえば、上述した4つの性質のうちの一部を緩めたり、あるいは一般化することで新たな性質をもつ基本的な量が定義できたりする。それらの科学の発展の基礎にある情報量の概念は、今後より一層重要な概念になるだろう。  


<br>4. 神経科学の分野でも、情報量は神経細胞記録のデータ解析などに広く用いられている。たとえば、視覚刺激と神経細胞の活動応答の間の相互情報量を調べることで、神経細胞の視覚刺激の符号化を調べる、神経細胞集団活動のもとにある機能的構造の推定を[[情報量の最大化原理]]から行う、シナプス可塑性の学習則を前シナプス細胞と後シナプス細胞の間の活動とその情報量の関係から調べる、などが挙げられる。神経科学のデータに関連させながら、情報量について解説した教科書も複数出ているので必要に応じて参照されたい(Dayan and Abbot, 2001<ref>'''Dayan, P., and Abbot, L.F. '''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems<br>MIT Press'':2001</ref>; Rieke et al., 1999<ref>'''Rieke, F., Warland, D., Deruytervansteveninck, R., and Bialek, W.'''<br>Spikes: Exploring the Neural Code<br>(Computational Neuroscience) (MIT Press'':1949</ref>)。<br> <references />
<br>4. 神経科学の分野でも、情報量は神経細胞記録のデータ解析などに広く用いられている。たとえば、視覚刺激と神経細胞の活動応答の間の相互情報量を調べることで、神経細胞の視覚刺激の符号化を調べる、神経細胞集団活動のもとにある機能的構造の推定を[[情報量の最大化原理]]から行う、シナプス可塑性の学習則を前シナプス細胞と後シナプス細胞の間の活動とその情報量の関係から調べる、などが挙げられる。神経科学のデータに関連させながら、情報量について解説した教科書も複数出ているので必要に応じて参照されたい(Dayan and Abbot, 2001<ref>'''Dayan, P., and Abbot, L.F. '''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems<br>MIT Press'':2001</ref>; Rieke et al., 1999<ref>'''Rieke, F., Warland, D., Deruytervansteveninck, R., and Bialek, W.'''<br>Spikes: Exploring the Neural Code<br>(Computational Neuroscience) (MIT Press'':1949</ref>)。<br> <references />
214

回編集