「情報量」の版間の差分

19行目:

として測ることができる。この<math>H(p_1,p_2,\ldots,p_n)</math> も情報量と呼ばれる。実は、先ほど定義した式(1)の情報量は、しばしば自己情報量(self information)と呼ばれ、むしろ式(2)の量のほうが情報量として一般的に使われる。また、式(2)の量は別名エントロピー(entropy)とも呼ばれる。以下、(1)と(2)の量を区別をしやすいように、(2)の量をエントロピーと呼んで記述する。

エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる（他の事象は全て確率ゼロ）という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が''n'' コのときには、全ての事象が同じ確率、つまり ''p''''i'' = 1 / ''n'' のときで、その場合、''H'' = log''n''となる。 6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか？その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、<~~math~~>I=H(</~~math~~>振る前<~~math~~>) - H</~~math~~>'<~~math~~>(</~~math~~>振った後<~~math~~>)</~~math~~>~~と定義できる。今、サイコロを振る前は、式（２）を用いると象が１つに確定する、つまり事象の数は１でその事象の確率が1となるので、式~~(2)を用いると''H''' = 0 となる。したがってxxx がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、

エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる（他の事象は全て確率ゼロ）という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が''n'' コのときには、全ての事象が同じ確率、つまり ''p''''i'' = 1 / ''n'' のときで、その場合、''H'' = log''n''となる。 6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか？その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、''I'' = ''H''(振る前) − ''H'''(振った後)と定義できる。今、サイコロを振る前は、式（２）を用いるとの不確実性となる。サイコロを振った後では、事象が１つに確定する、つまり事象の数は１でその事象の確率が1となるので、式(2)を用いると''H''' = 0 となる。したがってxxx がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、

 yyyy

@@ 19行目: / 19行目: @@
 として測ることができる。この<math>H(p_1,p_2,\ldots,p_n)</math> も情報量と呼ばれる。実は、先ほど定義した式(1)の情報量は、しばしば自己情報量(self information)と呼ばれ、むしろ式(2)の量のほうが情報量として一般的に使われる。また、式(2)の量は別名エントロピー(entropy)とも呼ばれる。以下、(1)と(2)の量を区別をしやすいように、(2)の量をエントロピーと呼んで記述する。
-エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる（他の事象は全て確率ゼロ）という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が<span class="texhtml">''n''</span> コのときには、全ての事象が同じ確率、つまり <span class="texhtml">''p''<sub>''i''</sub> = 1 / ''n''</span> のときで、その場合、<span class="texhtml">''H'' = log''n''</span>となる。<br>6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか？その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、<math>I=H(</math>振る前<math>) - H</math>'<math>(</math>振った後<math>)</math>と定義できる。今、サイコロを振る前は、式（２）を用いると象が１つに確定する、つまり事象の数は１でその事象の確率が1となるので、式(2)を用いると<span class="texhtml">''H''' = 0</span> となる。したがってxxx がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、
+エントロピーは常に非負 <math>H \ge 0</math> であり、また、それがゼロになるのは、ある一つの事象が確率1でおきる（他の事象は全て確率ゼロ）という場合に限られることは、簡単に証明することができる。また、エントロピーが最大の値を取るのは、事象が<span class="texhtml">''n''</span> コのときには、全ての事象が同じ確率、つまり <span class="texhtml">''p''<sub>''i''</sub> = 1 / ''n''</span> のときで、その場合、<span class="texhtml">''H'' = log''n''</span>となる。<br>6面体のサイコロの例に戻ると、式(2)を使うことで、サイコロを振る前と振った後で、不確実性の減少はどう表現されるだろうか？その減少した量が、サイコロを振ることで得られる情報の量に該当する。その減少の量、<span class="texhtml">''I'' = ''H''(</span>振る前<span class="texhtml">) − ''H''</span>'<span class="texhtml">(</span>振った後<span class="texhtml">)</span>と定義できる。今、サイコロを振る前は、式（２）を用いると の不確実性となる。サイコロを振った後では、事象が１つに確定する、つまり事象の数は１でその事象の確率が1となるので、式(2)を用いると<span class="texhtml">''H''' = 0</span> となる。したがってxxx がその情報の量となる。より一般的、ある情報によって得られる情報量は、その不確実性の変化として、
 &nbsp;yyyy