「報酬予測」の版間の差分

報酬予測 (ソースを閲覧)

2018年2月2日 (金) 16:55時点における版

168 バイト追加、 2018年2月2日 (金)

細

編集の要約なし

Hiroyukinakahara

214

回編集

@@ 13行目: / 13行目: @@
 　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳<br>''苧坂直行編、新曜社（東京）'':2014</ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。
-　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref>。
+　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara'''<br>Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology<br>''Wiley'': 2017</ref>
 　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：

「報酬予測」の版間の差分

報酬予測 (ソースを閲覧)

2018年2月2日 (金) 16:55時点における版

案内メニュー

検索