「マッチング法則」の版間の差分

ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
編集の要約なし
110行目: 110行目:
<span id="Sig"></span>
<span id="Sig"></span>
== マッチングの生物学的意義 ==
== マッチングの生物学的意義 ==
報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、うまく働かない原因があると考えられる。それがTD学習による近似である。
報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTD学習による近似である。
 
TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。
 
<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|s_t=s\right]</math>
 
各状態における状態価値を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。
 
TD学習:<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|a_t=a\right]
\simeq
E\Big[r_{t+1}-E[r]+V(s_{t+1})\Big|a_t=a\Big]
</math>
 
状態価値<math>V(s)</math>の推定にもTD学習を用い、次のように置き換える。
 
<math> V(s)\simeq E\Big[r_{t+1}-E[r]+V(s_{t+1})\Big|s_t=a\Big] </math>
 
この置換には次の条件を用いている。
 
<math> E\Big[r_{t+\tau}|s_{t+1},a_{t}\Big] = E\Big[r_{t+\tau}|s_{t+1}\Big]</math>
 
<math> E\Big[r_{t+\tau}|s_{t+1},s_{t}\Big] = E\Big[r_{t+\tau}|s_{t+1}\Big]</math>
 
これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して、十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。


TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。
て、各状態にいた後、得られる報酬と平均報酬の差を将来にわたって累積したもの


<math> V(s) \equiv \sum_{\tau=1}^{\infty} E[r_{t+\tau}-E[r]|s_t=s]</math>


を推定し、ある反応をした後に得られる報酬を推定した


== 参考文献  ==
== 参考文献  ==
14

回編集

案内メニュー