「報酬予測」の版間の差分

ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
編集の要約なし
1行目: 1行目:
<div align="right"> 
<font size="+1">望月泰博、陳冲、福田玄明、[https://researchmap.jp/hiroyukinakahara
中原裕之]</font><br>
''和光研究所 脳科学総合研究センター 理論統合脳科学研究チーム''<br>
DOI:<selfdoi /> 原稿受付日:2018年 原稿完成日:<br>
担当編集委員:[http://researchmap.jp/keijitanaka 田中啓治](理化学研究所・脳科学総合研究センター・認知機能表現研究チーム)<br>
</div>
英:Reward prediction
英:Reward prediction


4行目: 11行目:


==報酬予測にかかわる行動==
==報酬予測にかかわる行動==
 報酬(reward)の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。
 報酬(reward)の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。<br />
 
<br />
 動物が実際に報酬を予測していることを示唆する反応や行動選択は、[[パブロフ型条件づけ]](Pavlovian conditioning、または古典的条件づけ、classical conditioning)、[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)、また遅延反応課題(delayed response task)をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。
 動物が実際に報酬を予測していることを示唆する反応や行動選択は、[[パブロフ型条件づけ]](Pavlovian conditioning、または古典的条件づけ、classical conditioning)、[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)、また[[遅延反応課題]](delayed response task)をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。


===パブロフ型条件づけにみられる反応===
===パブロフ型条件づけにみられる反応===
 パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件に(学習を必要とせず)ヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus、US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus、CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。
 パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件に(学習を必要とせず)ヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus:US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus:CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。<br />
 
<br />
 さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬を予想することを学習した動物は、CSの呈示に際してCSや報酬の呈示場所へ近づく接近反応(approach response)をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、''新曜社'': 2014</ref>。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。
 さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬を予想することを学習した動物は、CSの呈示に際してCSや報酬の呈示場所へ近づく接近反応(approach response)をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、''新曜社'': 2014</ref>。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。
 
<br />
<br />
 パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル(Rescorla–Wagner model)」の強化学習的解釈を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara'''<br>Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology<br>''Wiley'': 2017</ref>。
 パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル(Rescorla–Wagner model)」の強化学習的解釈を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara'''<br>Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology<br>''Wiley'': 2017</ref>。


案内メニュー