214
回編集
Hiroyukinakahara (トーク | 投稿記録) 細編集の要約なし |
Hiroyukinakahara (トーク | 投稿記録) 細編集の要約なし |
||
17行目: | 17行目: | ||
強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する: | 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する: | ||
< | <i>新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差</i> | ||
同様の学習則は、心理学の分野でレスコーラ-ワグナーの学習則と呼ばれている。 | 同様の学習則は、心理学の分野でレスコーラ-ワグナーの学習則と呼ばれている。 |
回編集