14
回編集
Yutakasakai (トーク | 投稿記録) 細編集の要約なし |
Yutakasakai (トーク | 投稿記録) 細編集の要約なし |
||
129行目: | 129行目: | ||
この置換には次の条件を用いている。 | この置換には次の条件を用いている。 | ||
<math> E\Big[r_{t+\tau}|s_{t+1},a_{t}\Big] = E\Big[r_{t+\tau}|s_{t+1}\Big] | <math> E\Big[r_{t+\tau}|s_{t+1}=s,a_{t}=a\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big], | ||
E\Big[r_{t+\tau}|s_{t+1}=s,s_{t}=s'\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big]</math> | |||
これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して、十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。 | これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して、十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。 |
回編集