「マッチング法則」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
112行目: 112行目:
<span id="Sig"></span>
<span id="Sig"></span>
== マッチングの意義 ==
== マッチングの意義 ==
 報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTD学習による近似である。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。
 報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTemporal Difference (TD) 学習による近似である。TD学習は多くの強化学習アルゴリズムで採用されている手法であり、その中で使われる学習信号であるTD予測誤差とよく似た振る舞いが中脳黒質のドーパミン投射細胞に見られることから、動物の脳においてもTD学習が用いられているのではないかと示唆されている。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。


<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|s_t=s\right]</math>
<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|s_t=s\right]</math>


 各状態における状態価値を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。
ここで、<math>E[X|C]</math>は条件付期待値の記号で、条件<math>C</math>の下での<math>X</math>の値の平均値を表す。平均報酬<math>E[r]</math>からの相対値で定義するのは、状態価値<math>V(s)</math>が発散しないためであり、本質ではない。学習で用いるのは異なる状態間の状態価値の差<math>V(s)-V(s')</math>であり、各状態で共通の基準値からの相対値であれば問題ない。平均報酬<math>E[r]</math>はあらゆる時間に対する平均の意味も含み、定常な環境と行動選択の仕方の元では、任意の時刻<math>t</math>における期待値が平均報酬と等しくなる(<math>E[r_t]=E[r]</math>)。各状態における状態価値<math>V(s)</math>を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。


TD学習:<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|a_t=a\right]  
TD学習:<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|a_t=a\right]  
14

回編集