「情報量」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
5行目: 5行目:
 情報とは、それを知ることで何かを教えてくれる、ことである。つまり、それを知ることで何かの不確実さが減ることになる。情報の「量」を定義することによって、その不確実さの変化を量として測ることを可能にすることが、「情報量」の本質的な目的となる。このとき、不確実さが減るほど、情報量が大きくなるように定義したいというのは自明だろう。  
 情報とは、それを知ることで何かを教えてくれる、ことである。つまり、それを知ることで何かの不確実さが減ることになる。情報の「量」を定義することによって、その不確実さの変化を量として測ることを可能にすることが、「情報量」の本質的な目的となる。このとき、不確実さが減るほど、情報量が大きくなるように定義したいというのは自明だろう。  


 簡単な例 ―― 1から6まで数字がでるサイコロ ―― でもう少し先まで考えてみることで、情報量が持っていて欲しい性質を捉まえてみよう。このサイコロでどの目も確率6分の1で出るはずだが、サイコロをふるまではどの目がでるかはわからない。ひとたびサイコロを振ると、ある目が出る。このサイコロを振る前と振った後では、不確実さが減っている。これをどのように測るかが情報量を定義するときの本質的な課題である。さて6面体のサイコロから、20面体のサイコロに変えたとしよう。この場合もサイコロを振る前と振った後では不確実さが減るわけだが、どちらのサイコロの場合のほうが不確実さは減るだろうか?直観的に言って、出るかもしれない目が多いのだから(20面体では各々の目の出る確率は20分の1であり、6分の1よりも小さいから)、サイコロを振ることで減った不確実さは、20面体のときのほうが大きい。つまり、確率の小さな事象が起きたことを知るときのほうが、不確実さの減り方は大きい、すなわち情報量が大きいとしたい。では、6面体の例に戻って、サイコロを振ったあとで、出た目の数は自分では直接見ることができないけれども、別の人が出た目を見て、偶数だったか奇数だったか教えてもらえるとしよう。この場合、偶数か奇数かはわかるので、サイコロを振る前よりは不確実さは減ってはいるけれども、出た目を自分で直接見るのに比べれば、その減り方は少ない。さて、偶数か奇数か教えてもらった後で、偶数グループの3つの数字にあらためてA,B、C(奇数グループはC,D,F)と番号づけておいて、その番号を教わったとする。当然のことながら、このA,B,Cのどれかだったかを教われば、もともと1~6の数字のどれが出たのかはわかることになる。この偶奇を教わってからグループの番号を教わることで最終的に減った不確実さは、最初から自分で数字を見るときに減った不確実さと同じであってほしいのは直観的に明らかだろう。
 簡単な例 ―― 1から6まで数字がでるサイコロ ―― でもう少し先まで考えてみることで、情報量が持っていて欲しい性質を捉まえてみよう。このサイコロでどの目も確率6分の1で出るはずだが、サイコロをふるまではどの目がでるかはわからない。ひとたびサイコロを振ると、ある目が出る。このサイコロを振る前と振った後では、不確実さが減っている。これをどのように測るかが情報量を定義するときの本質的な課題である。さて6面体のサイコロから、20面体のサイコロに変えたとしよう。この場合もサイコロを振る前と振った後では不確実さが減るわけだが、どちらのサイコロの場合のほうが不確実さは減るだろうか?直観的に言って、出るかもしれない目が多いのだから(20面体では各々の目の出る確率は20分の1であり、6分の1よりも小さいから)、サイコロを振ることで減った不確実さは、20面体のときのほうが大きい。つまり、確率の小さな事象が起きたことを知るときのほうが、不確実さの減り方は大きい、すなわち情報量が大きいとしたい。では、6面体の例に戻って、サイコロを振ったあとで、出た目の数は自分では直接見ることができないけれども、別の人が出た目を見て、偶数だったか奇数だったか教えてもらえるとしよう。この場合、偶数か奇数かはわかるので、サイコロを振る前よりは不確実さは減ってはいるけれども、出た目を自分で直接見るのに比べれば、その減り方は少ない。さて、偶数か奇数か教えてもらった後で、偶数グループの3つの数字にあらためてA,B,C(奇数グループはD,E,F)と番号づけておいて、その番号を教わったとする。当然のことながら、このA,B,Cのどれかだったかを教われば、もともと1~6の数字のどれが出たのかはわかることになる。この偶奇を教わってからグループの番号を教わることで最終的に減った不確実さは、最初から自分で数字を見るときに減った不確実さと同じであってほしいのは直観的に明らかだろう。


 情報量は、これらの直観を反映するように定義されている。確率<span class="texhtml">''p''</span> の事象が起きたことを知らせる情報に含まれる情報量は、  
 情報量は、これらの直観を反映するように定義されている。確率<span class="texhtml">''p''</span> の事象が起きたことを知らせる情報に含まれる情報量は、  
33行目: 33行目:
<span class="texhtml">''I''(''A'',''B'') = ''H''(''B'') − ''H''<sub>''A''</sub>(''B'')</span>  
<span class="texhtml">''I''(''A'',''B'') = ''H''(''B'') − ''H''<sub>''A''</sub>(''B'')</span>  


と書き直せることからもわかる。この左辺の第2項に出ているのが条件付きエントロピーで、
と書き直せることからもわかる。この左辺の第2項に出ているのが条件付きエントロピーで、  


{|
{|
46行目: 46行目:
|}
|}


と定義される。
と定義される。  


 たとえば、脳科学では外界からの刺激(例 [[視覚]]刺激)と[[神経細胞]]の活動応答の間の相互情報量を調べることで、個々の神経細胞が外界視覚をどのように符号化をしているかを調べる。また、複数の神経細胞が同時に記録されているときには、神経細胞集団の集団活動が外界刺激をどのように符号化するかを調べることが行われている。
 たとえば、脳科学では外界からの刺激(例 [[視覚]]刺激)と[[神経細胞]]の活動応答の間の相互情報量を調べることで、個々の神経細胞が外界視覚をどのように符号化をしているかを調べる。また、複数の神経細胞が同時に記録されているときには、神経細胞集団の集団活動が外界刺激をどのように符号化するかを調べることが行われている。  


2. なお上の記述ではエントロピーを式(2)で直接定義した。これに対して、どうしてこの式でよいのか、あるいは、他の式で定義するほうがより優れた量を定義できるのではないか、という疑問がでるかもしれない。実は、いくつかの満たすべき性質を最初に決めて(数学的に言えば、いくつかの公理を決めて)、それから式(2)を導出することができる。最初のほうに記述した直観的例(サイコロの例)は、実はこの満たすべき性質の具体例に対応している。導出の仕方にはいくつかあるが、通常、「非負性」(情報量は0か正の数にしたい)、「単調減少性」(確率の低い事象ほど大きくしたい)、「独立加法性」(サイコロの偶奇とそのグループ番号を知るのと、最初から番号を知るのが同じ;独立事象の積による情報量と、その各事象の情報量の和を等しくしたい)、「連続性」(確率の微妙な変化は情報量の連続的な変化に対応するとしたい)という性質を満たすとすると、式(2)の定義が自然に導出される。  
2. なお上の記述ではエントロピーを式(2)で直接定義した。これに対して、どうしてこの式でよいのか、あるいは、他の式で定義するほうがより優れた量を定義できるのではないか、という疑問がでるかもしれない。実は、いくつかの満たすべき性質を最初に決めて(数学的に言えば、いくつかの公理を決めて)、それから式(2)を導出することができる。最初のほうに記述した直観的例(サイコロの例)は、実はこの満たすべき性質の具体例に対応している。導出の仕方にはいくつかあるが、通常、「非負性」(情報量は0か正の数にしたい)、「単調減少性」(確率の低い事象ほど大きくしたい)、「独立加法性」(サイコロの偶奇とそのグループ番号を知るのと、最初から番号を知るのが同じ;独立事象の積による情報量と、その各事象の情報量の和を等しくしたい)、「連続性」(確率の微妙な変化は情報量の連続的な変化に対応するとしたい)という性質を満たすとすると、式(2)の定義が自然に導出される。  
56行目: 56行目:
3. 「情報量」の概念は、1948年のクロード・シャノンの「通信の数学的理論」によって明らかになった<ref>'''Shannon, C., and Weaver, W.'''<br>A Mathematical Theory of Communication<br>''University of Illinois Press'':1949</ref>。一方で、その源流の一つには[[wikipedia:ja:物理学|物理学]]の研究の流れ([[wikipedia:ja:熱力学|熱力学]]・[[wikipedia:ja:統計力学|統計力学]]などでのエントロピーという概念の提唱)があった(Wikipediaの情報量、エントロピーなどの項目を参照のこと)。情報量の概念は、現在では、諸分野にまたがって広く用いられている一般的な概念となっている。日本語のわかりやすい解説としては、たとえば、情報理論では甘利<ref>'''甘利 俊一'''<br>情報理論<br>''ダイヤモンド社'':1996</ref>、熱力学では田崎<ref>'''田崎晴明'''<br>熱力学 ― 現代的な視点から, Vol 32<br>''培風館'':2000</ref>などがある。<br> その定式化に用いられるlogを使って確率分布に関する平均的量を評価する方法は、たとえば、二つの[[wikipedia:ja:確率分布|確率分布]]の近接性を評価する際に用いられる[[wikipedia:ja:カルバック―ライブラー情報量|カルバック―ライブラー情報量]]など、広く用いられている。現在の[[wikipedia:ja:統計情報科学|統計情報科学]]([[wikipedia:ja:情報理論|情報理論]]、[[wikipedia:ja:統計科学|統計科学]]、[[wikipedia:ja:機械学習|機械学習]]、[[wikipedia:ja:情報幾何|情報幾何]]など)で基礎的な概念として用いられている<ref>'''Amari, S., and Nagaoka, H.'''<br>Methods of Information Geometry<br>''OXFORD UNIVERSITY PRESS'':2000</ref> <ref>'''Cover, T., and Thomas, J.'''<br>ELEMENTS OF INFORMATION THEORY Second Edition <br>''WILEY'':2006</ref>。一方で、この情報量の定式化を拡張することで新たな展開を目指す試みは、現在でも盛んに行われている。たとえば、上述した4つの性質のうちの一部を緩めたり、あるいは一般化することで新たな性質をもつ基本的な量が定義できたりする。それらの科学の発展の基礎にある情報量の概念は、今後より一層重要な概念になるだろう。  
3. 「情報量」の概念は、1948年のクロード・シャノンの「通信の数学的理論」によって明らかになった<ref>'''Shannon, C., and Weaver, W.'''<br>A Mathematical Theory of Communication<br>''University of Illinois Press'':1949</ref>。一方で、その源流の一つには[[wikipedia:ja:物理学|物理学]]の研究の流れ([[wikipedia:ja:熱力学|熱力学]]・[[wikipedia:ja:統計力学|統計力学]]などでのエントロピーという概念の提唱)があった(Wikipediaの情報量、エントロピーなどの項目を参照のこと)。情報量の概念は、現在では、諸分野にまたがって広く用いられている一般的な概念となっている。日本語のわかりやすい解説としては、たとえば、情報理論では甘利<ref>'''甘利 俊一'''<br>情報理論<br>''ダイヤモンド社'':1996</ref>、熱力学では田崎<ref>'''田崎晴明'''<br>熱力学 ― 現代的な視点から, Vol 32<br>''培風館'':2000</ref>などがある。<br> その定式化に用いられるlogを使って確率分布に関する平均的量を評価する方法は、たとえば、二つの[[wikipedia:ja:確率分布|確率分布]]の近接性を評価する際に用いられる[[wikipedia:ja:カルバック―ライブラー情報量|カルバック―ライブラー情報量]]など、広く用いられている。現在の[[wikipedia:ja:統計情報科学|統計情報科学]]([[wikipedia:ja:情報理論|情報理論]]、[[wikipedia:ja:統計科学|統計科学]]、[[wikipedia:ja:機械学習|機械学習]]、[[wikipedia:ja:情報幾何|情報幾何]]など)で基礎的な概念として用いられている<ref>'''Amari, S., and Nagaoka, H.'''<br>Methods of Information Geometry<br>''OXFORD UNIVERSITY PRESS'':2000</ref> <ref>'''Cover, T., and Thomas, J.'''<br>ELEMENTS OF INFORMATION THEORY Second Edition <br>''WILEY'':2006</ref>。一方で、この情報量の定式化を拡張することで新たな展開を目指す試みは、現在でも盛んに行われている。たとえば、上述した4つの性質のうちの一部を緩めたり、あるいは一般化することで新たな性質をもつ基本的な量が定義できたりする。それらの科学の発展の基礎にある情報量の概念は、今後より一層重要な概念になるだろう。  


4. 情報量は、脳科学の分野でさまざまに用いられている。典型的な例としては、<br>
4. 情報量は、脳科学の分野でさまざまに用いられている。典型的な例としては、<br>  


*相互情報量の説明で外界刺激の符号化を例としてあげたが、復号化を評価する、つまり、神経細胞集団活動(または個々の神経細胞活動)があるときに、どれほど正確にもとの外界刺激の情報を再現できるか、という評価を行うことで、その情報処理を解明するというアプローチにも適用できる。  
*相互情報量の説明で外界刺激の符号化を例としてあげたが、復号化を評価する、つまり、神経細胞集団活動(または個々の神経細胞活動)があるときに、どれほど正確にもとの外界刺激の情報を再現できるか、という評価を行うことで、その情報処理を解明するというアプローチにも適用できる。  
214

回編集