「マッチング法則」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
110行目: 110行目:
<span id="Sig"></span>
<span id="Sig"></span>
== マッチングの生物学的意義 ==
== マッチングの生物学的意義 ==
報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTD学習による近似である。
報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTD学習による近似である。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。
 
TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。


<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|s_t=s\right]</math>
<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|s_t=s\right]</math>
125行目: 123行目:
状態価値<math>V(s)</math>の推定にもTD学習を用い、次のように置き換える。
状態価値<math>V(s)</math>の推定にもTD学習を用い、次のように置き換える。


<math> V(s)\simeq E\Big[r_{t+1}-E[r]+V(s_{t+1})\Big|s_t=a\Big] </math>
<math> V(s)\simeq E\Big[r_{t+1}-E[r]+V(s_{t+1})\Big|s_t=s\Big] </math>


この置換には次の条件を用いている。
この置換には次の条件を用いている。


<math> E\Big[r_{t+\tau}|s_{t+1}=s,a_{t}=a\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big],  
<math> E\Big[r_{t+\tau}|s_{t+1}=s,a_{t}=a\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big], \
E\Big[r_{t+\tau}|s_{t+1}=s,s_{t}=s'\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big]</math>
E\Big[r_{t+\tau}|s_{t+1}=s,s_{t}=s'\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big]
 
</math>(A)
これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して、十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。


これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。この条件が満たされなければ、TD学習は報酬最大化に失敗することになる。


一方、一般に状況に応じて適切な反応を選択しなければ、得られる報酬を最大化することはできない。状況に応じた反応選択をするためにも現在の状況を表わす状態変数が必要である。環境に則した状態変数を用いていなければ、得られる報酬を最大化することはできない。一般に、最大の報酬が得られるような状態変数は、条件(A)を満たす<ref><pubmed></pubmed></ref>。




14

回編集