「報酬予測」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
17行目: 17行目:
 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する:
 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する:


&nbsp;&nbsp;&nbsp;<big>新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差</big>
&nbsp;&nbsp;&nbsp;<i>新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差</i>


同様の学習則は、心理学の分野でレスコーラ-ワグナーの学習則と呼ばれている。
同様の学習則は、心理学の分野でレスコーラ-ワグナーの学習則と呼ばれている。
214

回編集