14
回編集
Yutakasakai (トーク | 投稿記録) 細編集の要約なし |
Yutakasakai (トーク | 投稿記録) 細編集の要約なし |
||
112行目: | 112行目: | ||
<span id="Sig"></span> | <span id="Sig"></span> | ||
== マッチングの意義 == | == マッチングの意義 == | ||
報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTemporal Difference (TD) | 報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTemporal Difference (TD) 学習による近似である。TD学習は多くの強化学習アルゴリズムで採用されている手法であり、その中で学習信号として用いられるTD予測誤差とよく似た振る舞いが中脳黒質のドーパミン投射細胞に見られることから、動物の脳においてもTD学習が用いられているのではないかと示唆されている。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。 | ||
<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|s_t=s\right]</math> | <math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|s_t=s\right]</math> | ||
ここで、<math>E[X|C]</math>は条件付期待値の記号で、条件<math>C</math>の下での<math>X</math>の値の平均値を表す。平均報酬<math>E[r]</math>からの相対値で定義するのは、状態価値<math>V(s)</math> | ここで、<math>E[X|C]</math>は条件付期待値の記号で、条件<math>C</math>の下での<math>X</math>の値の平均値を表す。平均報酬<math>E[r]</math>からの相対値で定義するのは、状態価値<math>V(s)</math>が発散しないためであり、本質ではない(注:将来報酬価値に対する割引を考慮した定義の方が一般に広く知られており、割引があると相対値を取らなくても発散しないため、相対値は通常用いられない。しかしここでは割引価値最大化ではなく報酬最大化の枠組みに則っており、平均報酬からの相対値で定義するのが一般的である)。学習で用いるのは異なる状態間の状態価値の差<math>V(s)-V(s')</math>となり、各状態で共通の基準値からの相対値であれば平均報酬からでなくても問題ない。特定の時刻を明示しない変数<math>r</math>の期待値<math>E[r]</math>はあらゆる時間に対する平均の意味も含み、定常な環境と行動選択の仕方の元では、任意の時刻<math>t</math>における期待値が平均報酬と等しくなる(<math>E[r_t]=E[r]</math>)。各状態における状態価値<math>V(s)</math>を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。 | ||
TD学習:<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|a_t=a\right] | TD学習:<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|a_t=a\right] |
回編集