「情報量」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
21行目: 21行目:
エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる(他の事象は全て確率ゼロ)という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が<span class="texhtml">''n''</span> コのときには、全ての事象が同じ確率、つまり <span class="texhtml">''p''<sub>''i''</sub> = 1 / ''n''</span> のときで、その場合、<span class="texhtml">''H'' = log''n''</span>となる。<br> 6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか?その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、<span class="texhtml">''I'' = ''H''(</span>振る前<span class="texhtml">) − ''H''</span>'<span class="texhtml">(</span>振った後<span class="texhtml">)</span>と定義できる。今、サイコロを振る前は、式(2)を用いると<span class="texhtml">''H'' = log6</span> の不確実性となる。サイコロを振った後では、事象が1つに確定する、つまり事象の数は1でその事象の確率が1となるので、式(2)を用いると<span class="texhtml">''H''</span>'<span class="texhtml"> = 0</span>となる。したがって がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、  
エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる(他の事象は全て確率ゼロ)という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が<span class="texhtml">''n''</span> コのときには、全ての事象が同じ確率、つまり <span class="texhtml">''p''<sub>''i''</sub> = 1 / ''n''</span> のときで、その場合、<span class="texhtml">''H'' = log''n''</span>となる。<br> 6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか?その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、<span class="texhtml">''I'' = ''H''(</span>振る前<span class="texhtml">) − ''H''</span>'<span class="texhtml">(</span>振った後<span class="texhtml">)</span>と定義できる。今、サイコロを振る前は、式(2)を用いると<span class="texhtml">''H'' = log6</span> の不確実性となる。サイコロを振った後では、事象が1つに確定する、つまり事象の数は1でその事象の確率が1となるので、式(2)を用いると<span class="texhtml">''H''</span>'<span class="texhtml"> = 0</span>となる。したがって がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、  


<math>I=H-H'</math>  
<span class="texhtml">''I'' = ''H'' − ''H'''</span>  


として定義される。この定義で、自己情報量でなくエントロピーを使っているのには理由がある。サイコロの例などは、起きる事象が一つに確定できるのでわかりやすいが、より一般には、ある情報が与えられた後で、事象が確定できない場合のほうが多い。一例をあげると、翌日の天気を予測するのに、なにも知らないで予測するのと、天気予報の情報を得て予測する、という二つの場合を比べるときに、即ち天気予報の情報量を求めるときに、まだ翌日の天気は分かっていない、つまり自己情報量を用いることはできない。このような自己情報量を用いることができない場合も含めて、情報量を考えるためには、エントロピーの差として情報量を定義するほうが自然なのである。大胆に言えば、以上が「情報量」の本質である。以下、いくつかの但し書きを述べておく。  
として定義される。この定義で、自己情報量でなくエントロピーを使っているのには理由がある。サイコロの例などは、起きる事象が一つに確定できるのでわかりやすいが、より一般には、ある情報が与えられた後で、事象が確定できない場合のほうが多い。一例をあげると、翌日の天気を予測するのに、なにも知らないで予測するのと、天気予報の情報を得て予測する、という二つの場合を比べるときに、即ち天気予報の情報量を求めるときに、まだ翌日の天気は分かっていない、つまり自己情報量を用いることはできない。このような自己情報量を用いることができない場合も含めて、情報量を考えるためには、エントロピーの差として情報量を定義するほうが自然なのである。大胆に言えば、以上が「情報量」の本質である。以下、いくつかの但し書きを述べておく。  


1. 上に記述した情報量の概念を、複数の事象の確率(確率変数)に対して拡張することが一般的に可能である。なかでも、最も基本的なのは、二つの確率に基づく複合事象の関係に対して定義される「[[相互情報量]]」と「[[条件付きエントロピー]]」の概念である。二つの異なる事象系を考え、一つの系を<span class="texhtml">''i'' = 1</span>...<span class="texhtml">,''n''</span>で番号づけして、各々の事象を<span class="texhtml">''A''<sub>''i''</sub></span> と表し、もう一つの系を<span class="texhtml">''j'' = 1</span>...<span class="texhtml">,''m''</span>で番号づけして、各々の事象を<span class="texhtml">''B''<sub>''i''</sub></span> で表すと複合事象は<span class="texhtml">(''A''<sub>''i''</sub>,''B''<sub>''j''</sub>)</span>の組として与えられる。このとき相互情報量 <span class="texhtml">''I''(''A'',''B'')</span>は、   xxxxx となる。この相互情報量は、一方の系の事象を知ることで(たとえば<span class="texhtml">''A''</span>の系について知ることで)、他方の事象について(<span class="texhtml">''B''</span>の系について)どれだけの情報が得られるかを表している。それは、この式が、  
1. 上に記述した情報量の概念を、複数の事象の確率(確率変数)に対して拡張することが一般的に可能である。なかでも、最も基本的なのは、二つの確率に基づく複合事象の関係に対して定義される「[[相互情報量]]」と「[[条件付きエントロピー]]」の概念である。二つの異なる事象系を考え、一つの系を<span class="texhtml">''i'' = 1</span>...<span class="texhtml">,''n''</span>で番号づけして、各々の事象を<span class="texhtml">''A''<sub>''i''</sub></span> と表し、もう一つの系を<span class="texhtml">''j'' = 1</span>...<span class="texhtml">,''m''</span>で番号づけして、各々の事象を<span class="texhtml">''B''<sub>''i''</sub></span> で表すと複合事象は<span class="texhtml">(''A''<sub>''i''</sub>,''B''<sub>''j''</sub>)</span>の組として与えられる。このとき相互情報量 <span class="texhtml">''I''(''A'',''B'')</span>は、
 
&nbsp; xxxxx  
 
となる。この相互情報量は、一方の系の事象を知ることで(たとえば<span class="texhtml">''A''</span>の系について知ることで)、他方の事象について(<span class="texhtml">''B''</span>の系について)どれだけの情報が得られるかを表している。それは、この式が、  


<span class="texhtml">''I''(''A'',''B'') = ''H''(''B'') − ''H''(<sub>''A''</sub>(''B'')</span>  
<span class="texhtml">''I''(''A'',''B'') = ''H''(''B'') − ''H''(<sub>''A''</sub>(''B'')</span>  
214

回編集