「マッチング法則」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
129行目: 129行目:
この置換には次の条件を用いている。
この置換には次の条件を用いている。


<math> E\Big[r_{t+\tau}|s_{t+1},a_{t}\Big] = E\Big[r_{t+\tau}|s_{t+1}\Big]</math>
<math> E\Big[r_{t+\tau}|s_{t+1}=s,a_{t}=a\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big],
 
E\Big[r_{t+\tau}|s_{t+1}=s,s_{t}=s'\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big]</math>
<math> E\Big[r_{t+\tau}|s_{t+1},s_{t}\Big] = E\Big[r_{t+\tau}|s_{t+1}\Big]</math>


これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して、十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。
これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して、十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。
14

回編集