「情報量」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
27行目: 27行目:
1. 上に記述した情報量の概念を、複数の事象の確率(確率変数)に対して拡張することが一般的に可能である。なかでも、最も基本的なのは、二つの確率に基づく複合事象の関係に対して定義される「[[相互情報量]]」と「[[条件付きエントロピー]]」の概念である。二つの異なる事象系を考え、一つの系を<span class="texhtml">''i'' = 1</span>...<span class="texhtml">,''n''</span>で番号づけして、各々の事象を<span class="texhtml">''A''<sub>''i''</sub></span> と表し、もう一つの系を<span class="texhtml">''j'' = 1</span>...<span class="texhtml">,''m''</span>で番号づけして、各々の事象を<span class="texhtml">''B''<sub>''i''</sub></span> で表すと複合事象は<span class="texhtml">(''A''<sub>''i''</sub>,''B''<sub>''j''</sub>)</span>の組として与えられる。このとき相互情報量 <span class="texhtml">''I''(''A'',''B'')</span>は、  
1. 上に記述した情報量の概念を、複数の事象の確率(確率変数)に対して拡張することが一般的に可能である。なかでも、最も基本的なのは、二つの確率に基づく複合事象の関係に対して定義される「[[相互情報量]]」と「[[条件付きエントロピー]]」の概念である。二つの異なる事象系を考え、一つの系を<span class="texhtml">''i'' = 1</span>...<span class="texhtml">,''n''</span>で番号づけして、各々の事象を<span class="texhtml">''A''<sub>''i''</sub></span> と表し、もう一つの系を<span class="texhtml">''j'' = 1</span>...<span class="texhtml">,''m''</span>で番号づけして、各々の事象を<span class="texhtml">''B''<sub>''i''</sub></span> で表すと複合事象は<span class="texhtml">(''A''<sub>''i''</sub>,''B''<sub>''j''</sub>)</span>の組として与えられる。このとき相互情報量 <span class="texhtml">''I''(''A'',''B'')</span>は、  


<math>I(A,B)=\sum_{i,j} p(A_i,B_j)\log \frac{p(A_i,B_j)}{p(A_i)p(B_j)}</math>
<math>I(A,B)=\sum_{i,j} p(A_i,B_j)\log \frac{p(A_i,B_j)}{p(A_i)p(B_j)}</math>  


となる。この相互情報量は、一方の系の事象を知ることで(たとえば<span class="texhtml">''A''</span>の系について知ることで)、他方の事象について(<span class="texhtml">''B''</span>の系について)どれだけの情報が得られるかを表している。それは、この式が、  
となる。この相互情報量は、一方の系の事象を知ることで(たとえば<span class="texhtml">''A''</span>の系について知ることで)、他方の事象について(<span class="texhtml">''B''</span>の系について)どれだけの情報が得られるかを表している。それは、この式が、  
33行目: 33行目:
<span class="texhtml">''I''(''A'',''B'') = ''H''(''B'') − ''H''<sub>''A''</sub>(''B'')</span>  
<span class="texhtml">''I''(''A'',''B'') = ''H''(''B'') − ''H''<sub>''A''</sub>(''B'')</span>  


と書き直せることからもわかる。この左辺の第2項に出ているのが条件付きエントロピーで、 xxxxx  と定義される。
と書き直せることからもわかる。この左辺の第2項に出ているのが条件付きエントロピーで、
 
<math>H_A(B)= - \sum_{i.j} p(A_ip(B_j|A_i) \log p (B_j | A_i)</math>
 
と定義される。


2. なお上の記述ではエントロピーを式(2)で直接定義した。これに対して、どうしてこの式でよいのか、あるいは、他の式で定義するほうがより優れた量を定義できるのではないか、という疑問がでるかもしれない。実は、いくつかの満たすべき性質を最初に決めて(数学的に言えば、いくつかの公理を決めて)、それから式(2)を導出することができる。最初のほうに記述した直観的例(サイコロの例)は、実はこの満たすべき性質の具体例に対応している。導出の仕方にはいくつかあるが、通常、「非負性」(情報量は0か正の数にしたい)、「単調減少性」(確率の低い事象ほど大きくしたい)、「独立加法性」(サイコロの偶奇とそのグループ番号を知るのと、最初から番号を知るのが同じ;独立事象の積による情報量と、その各事象の情報量の和を等しくしたい)、「連続性」(確率の微妙な変化は情報量の連続的な変化に対応するとしたい)という性質を満たすとすると、式(2)の定義が自然に導出される。&lt;br&gt;単位についても触れておこう。たとえば、「長さ」の単位としては、メートルなどがあるが、「情報量」の単位はどうなのか。情報量は、本来は、無次元の量とされている。一方で、式(2)では対数<span class="texhtml">(log)</span>を使っている。慣用としては、式(2)のように対数の底を書かないときには、その底は、<span class="texhtml">''e''</span> 、つまり対数は自然対数<span class="texhtml">(log<sub>''e''</sub>)</span> を用いていると考える。この自然対数を考えた時の情報量の単位は、ナット(nat)と決めれている。他に、情報量を議論をするときにしばしば用いられるのは、対数の底を2とする場合で、その時の情報量の単位は、ビット (bit)と呼ばれている。<br>また、本項目では情報量は、もとになる確率が離散の場合(いくつかの個別の事柄として事象を数えられる場合)について記述した。実際には、事象が連続の場合もある。たとえば、正規分布に従って起きる事象などはその例となる。このような連続の値を取るような場合にも情報量を定義できる。本質的な考え方は離散の場合と同様である。  
2. なお上の記述ではエントロピーを式(2)で直接定義した。これに対して、どうしてこの式でよいのか、あるいは、他の式で定義するほうがより優れた量を定義できるのではないか、という疑問がでるかもしれない。実は、いくつかの満たすべき性質を最初に決めて(数学的に言えば、いくつかの公理を決めて)、それから式(2)を導出することができる。最初のほうに記述した直観的例(サイコロの例)は、実はこの満たすべき性質の具体例に対応している。導出の仕方にはいくつかあるが、通常、「非負性」(情報量は0か正の数にしたい)、「単調減少性」(確率の低い事象ほど大きくしたい)、「独立加法性」(サイコロの偶奇とそのグループ番号を知るのと、最初から番号を知るのが同じ;独立事象の積による情報量と、その各事象の情報量の和を等しくしたい)、「連続性」(確率の微妙な変化は情報量の連続的な変化に対応するとしたい)という性質を満たすとすると、式(2)の定義が自然に導出される。&lt;br&gt;単位についても触れておこう。たとえば、「長さ」の単位としては、メートルなどがあるが、「情報量」の単位はどうなのか。情報量は、本来は、無次元の量とされている。一方で、式(2)では対数<span class="texhtml">(log)</span>を使っている。慣用としては、式(2)のように対数の底を書かないときには、その底は、<span class="texhtml">''e''</span> 、つまり対数は自然対数<span class="texhtml">(log<sub>''e''</sub>)</span> を用いていると考える。この自然対数を考えた時の情報量の単位は、ナット(nat)と決めれている。他に、情報量を議論をするときにしばしば用いられるのは、対数の底を2とする場合で、その時の情報量の単位は、ビット (bit)と呼ばれている。<br>また、本項目では情報量は、もとになる確率が離散の場合(いくつかの個別の事柄として事象を数えられる場合)について記述した。実際には、事象が連続の場合もある。たとえば、正規分布に従って起きる事象などはその例となる。このような連続の値を取るような場合にも情報量を定義できる。本質的な考え方は離散の場合と同様である。  
214

回編集