「情報量」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
7行目: 7行目:
簡単な例— 1 から 6 まで数字がでるサイコロ—でもう少し先まで考えてみることで、情報量が持っていてほしい性質を捉まえてみよう。このサイコロでどの目も確率6分の1で出るはずだが、サイコロをふるまではどの目がでるかはわからない。ひとたびサイコロを振ると、ある目が出る。このサイコロを振る前と振った後では、不確実さが減っている。これをどのように測るかが情報量を定義するときに本質的な課題である。さて6面体のサイコロから、20面体のサイコロに変えたとしよう。この場合もサイコロを振る前と振った後では不確実さが減るわけだが、どちらのサイコロの場合のほうが不確実さは減るだろうか?直観的に言って、出るかもしれない目が多いのだから(20面体では各々の目の出る確率は20分の1であり、6分の1よりも小さいから)、サイコロを振ることで減った不確実さは、20面体のときのほうが大きい。つまり、確率の小さな事象が起きたことを知るときのほうが、不確実さの減り方は大きい、すなわち情報量が大きいとしたい。では、6面体の例に戻って、サイコロを振ったあとで、出た目の数は自分では直接見れないけれども、別の人が出た目を見て、偶数だったか奇数だったか教えてもらえるとしよう。この場合、偶数か奇数かはわかるので、サイコロを振る前よりは不確実さは減ってはいるけれども、出た目を自分で直接見るのに比べれば、その減り方は少ない。さて、偶数か奇数か教えてもらった後で、偶数グループの3つの数字にあらためてA,B、C(奇数グループはC,D,F)と番号づけておいて、その番号を教わったとする。当然のことながら、このA,B,Cのどれかだったかを教われば、もともと1~6の数字のどれが出たのかはわかることになる。この偶奇を教わってからグループの番号を教わることで最終的に減った不確実さは、最初から自分で数字を見るときに減った不確実さと同じであってほしいのは直観的に明らかだろう。  
簡単な例— 1 から 6 まで数字がでるサイコロ—でもう少し先まで考えてみることで、情報量が持っていてほしい性質を捉まえてみよう。このサイコロでどの目も確率6分の1で出るはずだが、サイコロをふるまではどの目がでるかはわからない。ひとたびサイコロを振ると、ある目が出る。このサイコロを振る前と振った後では、不確実さが減っている。これをどのように測るかが情報量を定義するときに本質的な課題である。さて6面体のサイコロから、20面体のサイコロに変えたとしよう。この場合もサイコロを振る前と振った後では不確実さが減るわけだが、どちらのサイコロの場合のほうが不確実さは減るだろうか?直観的に言って、出るかもしれない目が多いのだから(20面体では各々の目の出る確率は20分の1であり、6分の1よりも小さいから)、サイコロを振ることで減った不確実さは、20面体のときのほうが大きい。つまり、確率の小さな事象が起きたことを知るときのほうが、不確実さの減り方は大きい、すなわち情報量が大きいとしたい。では、6面体の例に戻って、サイコロを振ったあとで、出た目の数は自分では直接見れないけれども、別の人が出た目を見て、偶数だったか奇数だったか教えてもらえるとしよう。この場合、偶数か奇数かはわかるので、サイコロを振る前よりは不確実さは減ってはいるけれども、出た目を自分で直接見るのに比べれば、その減り方は少ない。さて、偶数か奇数か教えてもらった後で、偶数グループの3つの数字にあらためてA,B、C(奇数グループはC,D,F)と番号づけておいて、その番号を教わったとする。当然のことながら、このA,B,Cのどれかだったかを教われば、もともと1~6の数字のどれが出たのかはわかることになる。この偶奇を教わってからグループの番号を教わることで最終的に減った不確実さは、最初から自分で数字を見るときに減った不確実さと同じであってほしいのは直観的に明らかだろう。  


&nbsp;情報量は、これらの直観を反映するように定義されている。確率<span class="texhtml">''p''</span> の事象が起きたことを知らせる情報に含まれる情報量は、<math>e</math>、
&nbsp;情報量は、これらの直観を反映するように定義されている。確率<span class="texhtml">''p''</span> の事象が起きたことを知らせる情報に含まれる情報量は、<span class="texhtml">''e''</span>、  


<span class="texhtml"> − log''p''</span> &nbsp; (1)  
<span class="texhtml"> − log''p''</span> &nbsp; (1)  
38行目: 38行目:
 と定義される。  
 と定義される。  


2. なお上の記述ではエントロピーを式(2)で直接定義した。これに対して、どうしてこの式でよいのか、あるいは、他の式で定義するほうがより優れた量を定義できるのではないか、という疑問がでるかもしれない。実は、いくつかの満たすべき性質を最初に決めて(数学的に言えば、いくつかの公理を決めて)、それから式(2)を導出することができる。最初のほうに記述した直観的例(サイコロの例)は、実はこの満たすべき性質の具体例に対応している。導出の仕方にはいくつかあるが、通常、「非負性」(情報量は0か正の数にしたい)、「単調減少性」(確率の低い事象ほど大きくしたい)、「独立加法性」(サイコロの偶奇とそのグループ番号を知るのと、最初から番号を知るのが同じ;独立事象の積による情報量と、その各事象の情報量の和を等しくしたい)、「連続性」(確率の微妙な変化は情報量の連続的な変化に対応するとしたい)という性質を満たすとすると、式(2)の定義が自然に導出される。<br>単位についても触れておこう。たとえば、「長さ」の単位としては、メートルなどがあるが、「情報量」の単位はどうなのか。情報量は、本来は、無次元の量とされている。一方で、式(2)では対数<span class="texhtml">(log)</span> を使っている。慣用としては、式(2)のように対数の底を書かないときには、その底は、
2. なお上の記述ではエントロピーを式(2)で直接定義した。これに対して、どうしてこの式でよいのか、あるいは、他の式で定義するほうがより優れた量を定義できるのではないか、という疑問がでるかもしれない。実は、いくつかの満たすべき性質を最初に決めて(数学的に言えば、いくつかの公理を決めて)、それから式(2)を導出することができる。最初のほうに記述した直観的例(サイコロの例)は、実はこの満たすべき性質の具体例に対応している。導出の仕方にはいくつかあるが、通常、「非負性」(情報量は0か正の数にしたい)、「単調減少性」(確率の低い事象ほど大きくしたい)、「独立加法性」(サイコロの偶奇とそのグループ番号を知るのと、最初から番号を知るのが同じ;独立事象の積による情報量と、その各事象の情報量の和を等しくしたい)、「連続性」(確率の微妙な変化は情報量の連続的な変化に対応するとしたい)という性質を満たすとすると、式(2)の定義が自然に導出される。<br>単位についても触れておこう。たとえば、「長さ」の単位としては、メートルなどがあるが、「情報量」の単位はどうなのか。情報量は、本来は、無次元の量とされている。一方で、式(2)では対数<span class="texhtml">(log)</span> を使っている。慣用としては、式(2)のように対数の底を書かないときには、その底は、<math>e</math>
214

回編集