「報酬予測」の版間の差分

提供:脳科学辞典
ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
 
(3人の利用者による、間の70版が非表示)
1行目: 1行目:
<div align="right"> 
<font size="+1">望月泰博、陳冲、福田玄明、[https://researchmap.jp/hiroyukinakahara 中原裕之]</font><br>
''理化学研究所 脳科学総合研究センター 理論統合脳科学研究チーム''<br>
DOI:<selfdoi /> 原稿受付日:2018年2月16日 原稿完成日:2018年3月9日<br>
担当編集委員:[http://researchmap.jp/keijitanaka 田中啓治](理化学研究所 脳科学総合研究センター 認知機能表現研究チーム)<br>
</div>
英:Reward prediction
英:Reward prediction


{{box|text= 報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。食料・水などに代表される報酬は、正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。報酬予測は私たちが常日頃行うさまざまな意思決定を駆動しており、さらに、脳における学習メカニズムとも関わりが深い。ここでは、報酬予測にもとづく反応と行動、また報酬予測にもとづく適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}
{{box|text= 報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}


==行動実験にみる報酬予測==
==報酬予測にかかわる行動==
 報酬の代表である食料・水・配偶者の存在は、動物の生存と生殖に不可欠であり、未来の報酬を予測し、それに合わせて反応・行動することは、種の存続に有利に働く。動物は、特定の情報から報酬の獲得が予測できる状況で、報酬を期待し、それにともなう様々な反応と行動をみせる。
 [[報酬]](reward)の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。<br />
<br />
 動物が実際に報酬を予測していることを示唆する反応や行動選択は、[[パブロフ型条件づけ]](Pavlovian conditioning、または[[古典的条件づけ]]、classical conditioning)、[[道具的条件づけ]](instrumental conditioning、または[[オペラント条件づけ]]、operant conditioning)、また[[遅延反応課題]](delayed response task)をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして[[遅延反応課題]]の実験にみられる報酬予測に関連した反応と行動選択について説明する。


 動物が実際に報酬を期待していることを示唆する反応と行動は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)や[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験にみられる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動を挙げる。
===パブロフ型条件づけにみられる反応===
 パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件に(学習を必要とせず)ヨダレという反応を引き起こすことから、[[無条件刺激]](unconditioned stimulus:US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、[[条件刺激]](conditioned stimulus:CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。


===パブロフ型条件づけと報酬予測にもとづく反応と行動===
 さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬を予想することを学習した動物は、CSの呈示に際してCSや報酬の呈示場所へ近づく[[接近反応]](approach response)をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐める[[リッキング行動]]がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、''新曜社'': 2014</ref>。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。
 パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応や行動がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。


 さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。
 パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「[[レスコーラ・ワグナー・モデル]](Rescorla–Wagner model)」の強化学習的解釈を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara'''<br>Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology<br>''Wiley'': 2017</ref>


 動物はどのように報酬を予測できるようになるのだろうか? ここでは、一般に[[強化学習]]と呼ばれる学習則を紹介する<ref name>'''Richard S. Sutton,‎ Andrew G. Barto'''<br>Reinforcement Learning: An Introduction<br>''The MIT Press'': 1998</ref>。強化学習は、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている。
 レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予測された報酬量の差分である「[[報酬予測誤差]](reward prediction error)」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される:


 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する:
&nbsp;&nbsp;&nbsp;<i>新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差</i>


&nbsp;&nbsp;&nbsp;<big>新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差</big>
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)増加し、負であれば(報酬が予想していたより少なければ)減少する。


上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方修正され、負であれば(報酬が予想していたより少なければ)下方修正される。このような学習は、心理学の分野で[[レスコーラ-ワグナーの学習則]]と呼ばれている。
 レスコーラ・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習した[[ラット]]に対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「[[阻止効果]](blocking effect)」と呼ばれており<ref name=bouton />、レスコーラ・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。


 報酬予測誤差にもとづく学習では、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。これらのことは、実際のパブロフ型条件づけの様々な行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれており<ref name=bouton />、強化学習の枠組みでは音と餌の連合学習が起こらないのことは、先に学習された光が餌を完全に予測するため、音に対する報酬予測誤差がゼロとなるためと解釈できる。
===道具的条件づけにみられる自発的行動===
 道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、[[wj:エドワード・ソーンダイク|ソーンダイク]]が行った実験では、パズルボックスの中に閉じ込められた[[ネコ]]が試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。


===道具的条件づけと報酬予測にもとづく行動選択===
===遅延反応課題にみられる行動選択と反応===
 動物は、報酬予測にもとづき適応的に行動を選択する。このような行動を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかにかかわりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題を行う際、動物は特的の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。なお、道具的条件づけを大別すると、動物がいつ・どのような行動を取るかに制限のない(free responding)課題と、あらかじめ試行ごとに取り得る行動の選択肢が決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。
[[ファイル:報酬予測0.png|thumb|400px|'''図1.遅延反応課題のイメージ<ref name=watanabe1996 />''']]


 道具的条件づけの課題のなかでも、報酬予測に関する行動を調べるためによく用いられる課題に、遅延選択課題(delayed response task)がある。例えば、サルに対して行われる典型的な遅延選択課題では、サルが各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。
 報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある(図1)。たとえば、[[サル]]が学習する典型的な遅延選択課題では、まず左右どちらかの[[手がかり刺激]](cue stimulus)が点灯する。手がかり刺激が消えたあとGO刺激(GO stimulus)が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。


 サルは、このような課題で手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。これは、より多くの報酬をもたらす行動の頻度が増加するという、ソーンダイク(E. Thorndike)によって「効果の法則(law of effect)」と名づけられた現象<ref name=bouton />の一例である。動物がより多くの報酬をもたらす行動を学習することは、行動の結果得られる報酬を予測していることを支持している。
 サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押し、報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>


 さらに、遅延選択課題でサルの好物であるバナナを報酬として条件付けを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りを見せる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。これは、サルが学習の結果報酬としてバナナを期待するようになったことを支持している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。また、同様の実験パラダイムで、二種類の手がかり刺激がそれぞれ異なる報酬(異なる種類のジュース)と対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間とより高い正当率で回答することが報告されている<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。
==報酬予測にかかわる神経活動==
[[ファイル:報酬予測1.png|thumb|400px|'''図2.遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ'''<ref name=schultz2015 /><br />
'''A.''' 報酬を予測する刺激の価値を反映したニューロンの活動。<br />
'''B.''' 報酬をもたらす行動の価値を反映したニューロンの活動。<br />
'''C.''' 報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる活動。]]
 
 報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006><pubmed> 16318590 </pubmed></ref> <ref name=hikosaka2006 /> <ref><pubmed> 19812543 </pubmed></ref> <ref><pubmed>18545266 </pubmed></ref> <ref><pubmed> 21689594 </pubmed></ref>。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動(図2A)、報酬をもたらす行動の価値を反映した神経活動(図2B)、動物の報酬への期待を反映した神経活動(図2C)に分類し<ref name=tsutsui /> <ref name=schultz2015 />、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミン]]ニューロン(dopaminergic neuron)の活動を紹介する。
 
===刺激や行動の価値の神経活動===
 動物の脳では、刺激や行動の「価値(value)」を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015><pubmed> 26109341 </pubmed></ref> <ref name=schultz2006 /> <ref name=hikosaka2006 /> <ref><pubmed> 27687119 </pubmed></ref>
 
 パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている(図2A)。


==報酬予測にかかわる神経活動==
 刺激の価値を反映した神経活動は、[[眼窩前頭皮質]]<ref><pubmed> 8734596 </pubmed></ref> <ref name=Tremblay1999><pubmed> 10227292 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref>、[[線条体]]<ref name=hassani2001 /> <ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref> <ref><pubmed> 6589643 </pubmed></ref> <ref name=cromwell2003><pubmed> 12611937 </pubmed></ref>、[[扁桃体]]<ref><pubmed> 3193171 </pubmed></ref> <ref><pubmed> 16482160 </pubmed></ref>、[[黒質緻密部]]<ref><pubmed> 3794777</pubmed></ref>、[[上丘]]<ref name=ikeda2003 />などで報告されている。
 ここでは、報酬予測にかかわる神経活動として、まず一般的に[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、関連領域を簡単に列挙する。そして、予期報酬を更新するための学習信号とみられるドーパミンニューロンの神経活動について述べる。


===報酬予期の神経活動===
 また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている(図2B)。
 これまでの多くの実験から、あたかも動物の報酬への期待を反映しているような神経活動が報告されている<ref name=tsutsui />。このような報酬予期にかかわる神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得する間に増大し、さらに予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=schultz2006><pubmed> 16318590 </pubmed></ref>。


 また、報酬予期にかかわる神経活動は、実験条件に応じて知覚→認知→運動(行動)の各段階に応じた修飾を受けることが多い。たとえば、パブロフ型条件づけのように動物が特定の刺激から報酬を予測する場合、刺激の特性を反映した反応が見られることがある。顕著な例として、刺激が視覚空間上のどこに呈示されるかに依存して、予期された報酬量に対応した活動を見せる神経細胞の報告がある<ref name=kawagoe1998><pubmed>  
 行動の価値を反映した神経活動は、線条体<ref name=hassani2001 /> <ref name=cromwell2003 /> <ref><pubmed>
  10196532 </pubmed></ref><ref name=hikosaka2006><pubmed> 16424448 </pubmed></ref>。これは、知覚情報である報酬を予測する刺激の空間特性と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。同様に、道具的条件づけので動物が報酬予測にもとづき特定の行動を選択する場合にも、行動の空間的特性を反映した神経活動がみられることがある<ref name=rosech2003><pubmed> 12801905 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref>。これは行動器の運動やその準備と報酬への期待の両方が神経活動に影響を与える場合である。
  16311337  </pubmed></ref> <ref name name=lauwereyns2002><pubmed> 12140557 </pubmed></ref> <ref><pubmed>  
14602819 </pubmed></ref> <ref><pubmed> 18466754 </pubmed></ref>、[[後頭頂皮質]]<ref><pubmed> 15205529 </pubmed></ref>などで報告されている。


 このような、報酬予期にかかわる神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref><pubmed> 1464759 </pubmed></ref><ref name=hollerman1998><pubmed> 9705481 </pubmed></ref><ref name=hikosaka2006 /><ref name=kawagoe1998 /><ref name=cromwell2003><pubmed> 12611937 </pubmed></ref><ref><pubmed> 12140557 </pubmed></ref><ref name=hassani2001 /><ref><pubmed>
 また、刺激や行動の価値を反映した神経活動には、予測される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動に関連した情報が符号化されている場合が多い<ref name=schultz2015 /> <ref name=hikosaka2006 />。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている<ref name=kawagoe1998 /> <ref name=lauwereyns2002 />。このような予測された報酬の情報および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる<ref name=hikosaka2006 />
16311337  </pubmed></ref><ref><pubmed> 18466754 </pubmed></ref><ref><pubmed> 8867118 </pubmed></ref><ref><pubmed> 2723722 </pubmed></ref><ref><pubmed> 9705482 </pubmed></ref>(Breiter, Aharon, Kahneman, Dale, & Shizgal, 2001;  Ito & Doya, 2009; J. O'doherty et al., 2004; J. P. O'Doherty, Deichmann, Critchley, & Dolan, 2002;)、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野<ref><pubmed> 22258508 </pubmed></ref>・黒質緻密部<ref><pubmed> 11896175 </pubmed></ref>)(Mirenowicz & Schultz, 1994; J. P. O'Doherty et al., 2002; Waelti, Dickinson, & Schultz, 2001)や扁桃体<ref><pubmed> 16482160 </pubmed></ref><ref><pubmed> 17880899 </pubmed></ref>(Breiter et al., 2001; Gottfried, O'Doherty, & Dolan, 2003; Nishijo, Ono, & Nishino, 1988; J. P. O'Doherty et al., 2002; )、報酬の価値に関連した活動をみせる視床下部(Breiter et al., 2001)、運動出力に関連する上丘<ref><pubmed> 12925282 </pubmed></ref>と脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>、およびセロトニンニューロンを含む背側縫線核<ref><pubmed> 18480289 </pubmed></ref><ref><pubmed> 19710375 </pubmed></ref>などで報酬予期にかかわる脳活動が見られる。


 また、大脳皮質領域では、前頭葉の中でも特に背外側前頭前皮質<ref name=watanabe1996 /><ref><pubmed> 3971157 </pubmed></ref><ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003 />や眼窩前頭前皮質<ref><pubmed> 10227292 </pubmed></ref><ref><pubmed> 8734596 </pubmed></ref> <ref name=rosech2004 />(Gottfried et al., 2003; Padoa-Schioppa & Assad, 2006, 2008; )、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref><ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 16979828 </pubmed></ref><ref><pubmed> 22402653
===報酬期待の神経活動===
</pubmed></ref>(Rolls et al., 2008)、運動前野<ref name=rosech2003 /><ref name=rosech2004 />などで報酬予期に関連した活動が報告されている。
 これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006 /> <ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref> <ref><pubmed> 21185861 </pubmed></ref>。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ(図2C)。


 このように、報酬予期にかかわる神経活動は報酬系をはじめとする幅広い脳領域にみられる。それぞれの領域の活動のより詳細な脳領野間の機能分化の理解は重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化<ref name=hikosaka2006 />、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている<ref><pubmed> 19153577 </pubmed></ref><ref>'''Philippe Domenech, Etienne Koechlin'''<br>Executive control and decision-making in the prefrontal cortex.<br>''Curr. Opin. Behav. Sci.'': 2015, (1);101-106</ref>
 報酬期待の神経活動がみられる脳領野は多岐にわたっている。[[大脳皮質]]下の領域では、線条体<ref name=kawagoe1998 /> <ref><pubmed> 1464759 </pubmed></ref> <ref><pubmed> 2723722 </pubmed></ref>、[[淡蒼球]]<ref><pubmed> 23177966 </pubmed></ref>、扁桃体<ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、[[脚橋被蓋核]]<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動がみられる。また、大脳皮質では、[[背外側前頭前皮質]]<ref name=watanabe1996 /> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭皮質<ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref>、[[前帯状皮質]]<ref><pubmed> 12040201 </pubmed></ref>、[[島皮質]]<ref><pubmed> 22402653
</pubmed></ref>、[[運動前野]]<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。


===ドーパミンニューロンの活動と報酬予測誤差===
===ドーパミンニューロンの活動と報酬予測誤差===
 近年、ドーパミンニューロンの活動が、強化学習の学習信号である報酬予測誤差を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref><pubmed> 9054347 </pubmed></ref>が注目されている。報酬予測誤差にもとづく学習則が、動物の報酬予測に関連した行動の変化をよく説明することは既に述べた。ドーパミンニューロンの活動は、動物の報酬予測にもとづく学習の学習信号として働いている可能性がある。
 ドーパミンニューロンの[[phasic活動]]は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「[[ドーパミン報酬予測誤差仮説]](the dopamine reward prediction error hypothesis)」と呼ばれている<ref name=schultz1997><pubmed> 9054347 </pubmed></ref> <ref><pubmed> 21389268 </pubmed></ref> <ref>'''Nathaniel D. Daw,‎ Philippe N. Tobler'''<br>Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning <br>In ''Neuroeconomics 2nd Edition'', Edited by Paul W Glimcher & Ernst Fehr, ''Academic Press'': 2014</ref>。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 /> <ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている<ref><pubmed> 28390863 </pubmed></ref> 。


 たとえば、パブロフ型条件づけのパラダイムを用いた実験では、動物の学習に伴ってドーパミンニューロンの反応が変化することが報告されている(Waelti et al, 2001; Day et al, 2007; D’ardenne et al., 2008)。ドーパミンニューロンは、学習の初期には報酬の提示直後に活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する刺激(CS)の呈示直後に増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号を反映する活動の変化をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref><ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。
 報酬予測誤差を反映したドーパミンニューロンの活動は、[[神経可塑性]]を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=schultz2006 /> <ref name=hikosaka2006 />、投射先のニューロンのシナプス強度はドーパミンニューロンが活動することで放出されるドーパミンによって調節される<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>


 ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先の神経細胞のシナプス強度を調節する<ref><pubmed> 12371508 </pubmed></ref><ref><pubmed> 17367873 </pubmed></ref><ref><pubmed> 25258080</pubmed></ref>。実際、ドーパミンニューロンは、前述の報酬予期にかかわる活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /><ref name=schultz2006 />、このため報酬予測誤差を反映したドーパミンニューロンの活動が学習信号となって、報酬予期の神経活動が調節されていると考えらえている。
 近年では、ドーパミンニューロンの他にも、線条体<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>や[[内側前頭前皮質]]<ref><pubmed> 17450137 </pubmed></ref>で報酬予測誤差を反映した活動をみせるニューロンが見つかっている。さらに、[[外側手綱核]]ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない<ref name=tsutsui/>。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究課題の一つといえるだろう<ref name=tsutsui /> <ref name=cohen2012><pubmed> 22258508 </pubmed></ref> <ref name=nakamura2012><pubmed> 23136434 </pubmed></ref> <ref><pubmed> 23069349 </pubmed></ref> <ref><pubmed> 24463329 </pubmed></ref>


 近年では、前述の報酬予測に関連した活動が見られる線条体でも、報酬予測誤差を反映する神経活動が報告されている<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>。また、手綱外側核では、ドーパミンニューロンとは逆に報酬の欠知や嫌悪刺激など負の報酬予測誤差に関連する活動が報告されている<ref><pubmed> 17522629 </pubmed></ref> 。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差が脳でどのように計算されるかという問題も今後の研究が待たれている<ref name=tsutsui />。
== 関連項目 ==
*[[パブロフ型条件づけ]]
*[[道具的条件づけ]]
*[[強化学習]]
*[[報酬系]]
*[[ドーパミン]]
*[[報酬予測誤差]]


== 参考文献 ==
== 参考文献 ==
<references/>
<references/>
(執筆者:望月泰博、福田玄明、陳冲、中原裕之、担当編集委員:??)

2018年3月9日 (金) 15:06時点における最新版

望月泰博、陳冲、福田玄明、中原裕之
理化学研究所 脳科学総合研究センター 理論統合脳科学研究チーム
DOI:10.14931/bsd.7486 原稿受付日:2018年2月16日 原稿完成日:2018年3月9日
担当編集委員:田中啓治(理化学研究所 脳科学総合研究センター 認知機能表現研究チーム)

英:Reward prediction

 報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。

報酬予測にかかわる行動

 報酬(reward)の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。

 動物が実際に報酬を予測していることを示唆する反応や行動選択は、パブロフ型条件づけ(Pavlovian conditioning、または古典的条件づけ、classical conditioning)、道具的条件づけ(instrumental conditioning、またはオペラント条件づけ、operant conditioning)、また遅延反応課題(delayed response task)をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。

パブロフ型条件づけにみられる反応

 パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件に(学習を必要とせず)ヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus:US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus:CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。

 さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬を予想することを学習した動物は、CSの呈示に際してCSや報酬の呈示場所へ近づく接近反応(approach response)をみせる[1]。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる[2]。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。

 パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、強化学習のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル(Rescorla–Wagner model)」の強化学習的解釈を紹介する[3] [4]

 レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予測された報酬量の差分である「報酬予測誤差(reward prediction error)」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される:

   新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差

上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)増加し、負であれば(報酬が予想していたより少なければ)減少する。

 レスコーラ・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれており[1]、レスコーラ・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。

道具的条件づけにみられる自発的行動

 道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。

遅延反応課題にみられる行動選択と反応

図1.遅延反応課題のイメージ[5]

 報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある(図1)。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激(cue stimulus)が点灯する。手がかり刺激が消えたあとGO刺激(GO stimulus)が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。

 サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押し、報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる[6]。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける[7]。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している[5]

報酬予測にかかわる神経活動

図2.遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ[8]
A. 報酬を予測する刺激の価値を反映したニューロンの活動。
B. 報酬をもたらす行動の価値を反映したニューロンの活動。
C. 報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる活動。

 報酬予測にかかわる神経活動は、一般に報酬系と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる[2] [8] [9] [10] [11] [12] [13]。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動(図2A)、報酬をもたらす行動の価値を反映した神経活動(図2B)、動物の報酬への期待を反映した神経活動(図2C)に分類し[2] [8]、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロン(dopaminergic neuron)の活動を紹介する。

刺激や行動の価値の神経活動

 動物の脳では、刺激や行動の「価値(value)」を反映するような神経活動が報告されている[2] [8] [9] [10] [14]

 パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている(図2A)。

 刺激の価値を反映した神経活動は、眼窩前頭皮質[15] [16] [17]線条体[7] [18] [19] [20]扁桃体[21] [22]黒質緻密部[23]上丘[24]などで報告されている。

 また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている(図2B)。

 行動の価値を反映した神経活動は、線条体[7] [20] [25] [26] [27] [28]後頭頂皮質[29]などで報告されている。

 また、刺激や行動の価値を反映した神経活動には、予測される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動に関連した情報が符号化されている場合が多い[8] [10]。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている[18] [26]。このような予測された報酬の情報および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる[10]

報酬期待の神経活動

 これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている[2] [8] [9] [10] [30]。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ(図2C)。

 報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体[18] [31] [32]淡蒼球[33]、扁桃体[34]、上丘[24]脚橋被蓋核[35]などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質[5] [36] [37]、眼窩前頭皮質[16] [34]、後頭頂皮質[38]前帯状皮質[39]島皮質[40]運動前野[17] [37]などで報酬期待の神経活動が報告されている。

ドーパミンニューロンの活動と報酬予測誤差

 ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説(the dopamine reward prediction error hypothesis)」と呼ばれている[41] [42] [43]。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている[41] [44]。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している[9]。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり[45] [46]、またオプトジェネティクスを用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている[47]

 報酬予測誤差を反映したドーパミンニューロンの活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており[9] [10]、投射先のニューロンのシナプス強度はドーパミンニューロンが活動することで放出されるドーパミンによって調節される[48] [49]

 近年では、ドーパミンニューロンの他にも、線条体[50]内側前頭前皮質[51]で報酬予測誤差を反映した活動をみせるニューロンが見つかっている。さらに、外側手綱核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている[52]。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない[2]。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究課題の一つといえるだろう[2] [53] [54] [55] [56]

関連項目

参考文献

  1. 1.0 1.1 Mark E Bouton
    Learning and behavior: A contemporary synthesis Second Edition
    Sinauer Associates: 2007
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 筒井健一郎、大山佳
    報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳
    苧坂直行編、新曜社: 2014
  3. Peter Dayan,‎ L. F. Abbott
    Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems
    The MIT Press: 2001
  4. Peter Dayan,‎ Hiroyuki Nakahara
    Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology
    Wiley: 2017
  5. 5.0 5.1 5.2 Watanabe, M. (1996).
    Reward expectancy in primate prefrontal neurons. Nature, 382(6592), 629-32. [PubMed:8757133] [WorldCat] [DOI]
  6. O L Tinklepaugh
    An experimental study of representative factors in monkeys.
    J. Comp. Psychol.: 1928, (8);197-236
  7. 7.0 7.1 7.2 Hassani, O.K., Cromwell, H.C., & Schultz, W. (2001).
    Influence of expectation of different rewards on behavior-related neuronal activity in the striatum. Journal of neurophysiology, 85(6), 2477-89. [PubMed:11387394] [WorldCat] [DOI]
  8. 8.0 8.1 8.2 8.3 8.4 8.5 Schultz, W. (2015).
    Neuronal Reward and Decision Signals: From Theories to Data. Physiological reviews, 95(3), 853-951. [PubMed:26109341] [PMC] [WorldCat] [DOI]
  9. 9.0 9.1 9.2 9.3 9.4 Schultz, W. (2006).
    Behavioral theories and the neurophysiology of reward. Annual review of psychology, 57, 87-115. [PubMed:16318590] [WorldCat] [DOI]
  10. 10.0 10.1 10.2 10.3 10.4 10.5 Hikosaka, O., Nakamura, K., & Nakahara, H. (2006).
    Basal ganglia orient eyes to reward. Journal of neurophysiology, 95(2), 567-84. [PubMed:16424448] [WorldCat] [DOI]
  11. Haber, S.N., & Knutson, B. (2010).
    The reward circuit: linking primate anatomy and human imaging. Neuropsychopharmacology : official publication of the American College of Neuropsychopharmacology, 35(1), 4-26. [PubMed:19812543] [PMC] [WorldCat] [DOI]
  12. Rangel, A., Camerer, C., & Montague, P.R. (2008).
    A framework for studying the neurobiology of value-based decision making. Nature reviews. Neuroscience, 9(7), 545-56. [PubMed:18545266] [PMC] [WorldCat] [DOI]
  13. Rushworth, M.F., Noonan, M.P., Boorman, E.D., Walton, M.E., & Behrens, T.E. (2011).
    Frontal cortex and reward-guided learning and decision-making. Neuron, 70(6), 1054-69. [PubMed:21689594] [WorldCat] [DOI]
  14. O'Doherty, J.P., Cockburn, J., & Pauli, W.M. (2017).
    Learning, Reward, and Decision Making. Annual review of psychology, 68, 73-100. [PubMed:27687119] [PMC] [WorldCat] [DOI]
  15. Rolls, E.T., Critchley, H.D., Mason, R., & Wakeman, E.A. (1996).
    Orbitofrontal cortex neurons: role in olfactory and visual association learning. Journal of neurophysiology, 75(5), 1970-81. [PubMed:8734596] [WorldCat] [DOI]
  16. 16.0 16.1 Tremblay, L., & Schultz, W. (1999).
    Relative reward preference in primate orbitofrontal cortex. Nature, 398(6729), 704-8. [PubMed:10227292] [WorldCat] [DOI]
  17. 17.0 17.1 Roesch, M.R., & Olson, C.R. (2004).
    Neuronal activity related to reward value and motivation in primate frontal cortex. Science (New York, N.Y.), 304(5668), 307-10. [PubMed:15073380] [WorldCat] [DOI]
  18. 18.0 18.1 18.2 Kawagoe, R., Takikawa, Y., & Hikosaka, O. (1998).
    Expectation of reward modulates cognitive signals in the basal ganglia. Nature neuroscience, 1(5), 411-6. [PubMed:10196532] [WorldCat] [DOI]
  19. Kimura, M., Rajkowski, J., & Evarts, E. (1984).
    Tonically discharging putamen neurons exhibit set-dependent responses. Proceedings of the National Academy of Sciences of the United States of America, 81(15), 4998-5001. [PubMed:6589643] [PMC] [WorldCat] [DOI]
  20. 20.0 20.1 Cromwell, H.C., & Schultz, W. (2003).
    Effects of expectations for different reward magnitudes on neuronal activity in primate striatum. Journal of neurophysiology, 89(5), 2823-38. [PubMed:12611937] [WorldCat] [DOI]
  21. Nishijo, H., Ono, T., & Nishino, H. (1988).
    Single neuron responses in amygdala of alert monkey during complex sensory stimulation with affective significance. The Journal of neuroscience : the official journal of the Society for Neuroscience, 8(10), 3570-83. [PubMed:3193171] [WorldCat]
  22. Paton, J.J., Belova, M.A., Morrison, S.E., & Salzman, C.D. (2006).
    The primate amygdala represents the positive and negative value of visual stimuli during learning. Nature, 439(7078), 865-70. [PubMed:16482160] [PMC] [WorldCat] [DOI]
  23. Schultz, W. (1986).
    Responses of midbrain dopamine neurons to behavioral trigger stimuli in the monkey. Journal of neurophysiology, 56(5), 1439-61. [PubMed:3794777] [WorldCat] [DOI]
  24. 24.0 24.1 Ikeda, T., & Hikosaka, O. (2003).
    Reward-dependent gain and bias of visual responses in primate superior colliculus. Neuron, 39(4), 693-700. [PubMed:12925282] [WorldCat] [DOI]
  25. Samejima, K., Ueda, Y., Doya, K., & Kimura, M. (2005).
    Representation of action-specific reward values in the striatum. Science (New York, N.Y.), 310(5752), 1337-40. [PubMed:16311337] [WorldCat] [DOI]
  26. 26.0 26.1 Lauwereyns, J., Watanabe, K., Coe, B., & Hikosaka, O. (2002).
    A neural correlate of response bias in monkey caudate nucleus. Nature, 418(6896), 413-7. [PubMed:12140557] [WorldCat] [DOI]
  27. Watanabe, K., Lauwereyns, J., & Hikosaka, O. (2003).
    Neural correlates of rewarded and unrewarded eye movements in the primate caudate nucleus. The Journal of neuroscience : the official journal of the Society for Neuroscience, 23(31), 10052-7. [PubMed:14602819] [PMC] [WorldCat]
  28. Lau, B., & Glimcher, P.W. (2008).
    Value representations in the primate striatum during matching behavior. Neuron, 58(3), 451-63. [PubMed:18466754] [PMC] [WorldCat] [DOI]
  29. Sugrue, L.P., Corrado, G.S., & Newsome, W.T. (2004).
    Matching behavior and the representation of value in the parietal cortex. Science (New York, N.Y.), 304(5678), 1782-7. [PubMed:15205529] [WorldCat] [DOI]
  30. Liu, X., Hairston, J., Schrier, M., & Fan, J. (2011).
    Common and distinct networks underlying reward valence and processing stages: a meta-analysis of functional neuroimaging studies. Neuroscience and biobehavioral reviews, 35(5), 1219-36. [PubMed:21185861] [PMC] [WorldCat] [DOI]
  31. Schultz, W., Apicella, P., Scarnati, E., & Ljungberg, T. (1992).
    Neuronal activity in monkey ventral striatum related to the expectation of reward. The Journal of neuroscience : the official journal of the Society for Neuroscience, 12(12), 4595-610. [PubMed:1464759] [WorldCat]
  32. Hikosaka, O., Sakamoto, M., & Usui, S. (1989).
    Functional properties of monkey caudate neurons. III. Activities related to expectation of target and reward. Journal of neurophysiology, 61(4), 814-32. [PubMed:2723722] [WorldCat] [DOI]
  33. Tachibana, Y., & Hikosaka, O. (2012).
    The primate ventral pallidum encodes expected reward value and regulates motor action. Neuron, 76(4), 826-37. [PubMed:23177966] [PMC] [WorldCat] [DOI]
  34. 34.0 34.1 Schoenbaum, G., Chiba, A.A., & Gallagher, M. (1998).
    Orbitofrontal cortex and basolateral amygdala encode expected outcomes during learning. Nature neuroscience, 1(2), 155-9. [PubMed:10195132] [WorldCat] [DOI]
  35. Okada, K., Toyama, K., Inoue, Y., Isa, T., & Kobayashi, Y. (2009).
    Different pedunculopontine tegmental neurons signal predicted and actual task rewards. The Journal of neuroscience : the official journal of the Society for Neuroscience, 29(15), 4858-70. [PubMed:19369554] [PMC] [WorldCat] [DOI]
  36. Leon, M.I., & Shadlen, M.N. (1999).
    Effect of expected reward magnitude on the response of neurons in the dorsolateral prefrontal cortex of the macaque. Neuron, 24(2), 415-25. [PubMed:10571234] [WorldCat] [DOI]
  37. 37.0 37.1 Roesch, M.R., & Olson, C.R. (2003).
    Impact of expected reward on neuronal activity in prefrontal cortex, frontal and supplementary eye fields and premotor cortex. Journal of neurophysiology, 90(3), 1766-89. [PubMed:12801905] [WorldCat] [DOI]
  38. Platt, M.L., & Glimcher, P.W. (1999).
    Neural correlates of decision variables in parietal cortex. Nature, 400(6741), 233-8. [PubMed:10421364] [WorldCat] [DOI]
  39. Shidara, M., & Richmond, B.J. (2002).
    Anterior cingulate: single neuronal signals related to degree of reward expectancy. Science (New York, N.Y.), 296(5573), 1709-11. [PubMed:12040201] [WorldCat] [DOI]
  40. Mizuhiki, T., Richmond, B.J., & Shidara, M. (2012).
    Encoding of reward expectation by monkey anterior insular neurons. Journal of neurophysiology, 107(11), 2996-3007. [PubMed:22402653] [PMC] [WorldCat] [DOI]
  41. 41.0 41.1 Schultz, W., Dayan, P., & Montague, P.R. (1997).
    A neural substrate of prediction and reward. Science (New York, N.Y.), 275(5306), 1593-9. [PubMed:9054347] [WorldCat] [DOI]
  42. Glimcher, P.W. (2011).
    Understanding dopamine and reinforcement learning: the dopamine reward prediction error hypothesis. Proceedings of the National Academy of Sciences of the United States of America, 108 Suppl 3, 15647-54. [PubMed:21389268] [PMC] [WorldCat] [DOI]
  43. Nathaniel D. Daw,‎ Philippe N. Tobler
    Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning
    In Neuroeconomics 2nd Edition, Edited by Paul W Glimcher & Ernst Fehr, Academic Press: 2014
  44. Mirenowicz, J., & Schultz, W. (1994).
    Importance of unpredictability for reward responses in primate dopamine neurons. Journal of neurophysiology, 72(2), 1024-7. [PubMed:7983508] [WorldCat] [DOI]
  45. Waelti, P., Dickinson, A., & Schultz, W. (2001).
    Dopamine responses comply with basic assumptions of formal learning theory. Nature, 412(6842), 43-8. [PubMed:11452299] [WorldCat] [DOI]
  46. Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y., & Hikosaka, O. (2004).
    Dopamine neurons can represent context-dependent prediction error. Neuron, 41(2), 269-80. [PubMed:14741107] [WorldCat] [DOI]
  47. Schultz, W., Stauffer, W.R., & Lak, A. (2017).
    The phasic dopamine signal maturing: from reward via behavioural activation to formal economic utility. Current opinion in neurobiology, 43, 139-148. [PubMed:28390863] [WorldCat] [DOI]
  48. Reynolds, J.N., Hyland, B.I., & Wickens, J.R. (2001).
    A cellular mechanism of reward-related learning. Nature, 413(6851), 67-70. [PubMed:11544526] [WorldCat] [DOI]
  49. Yagishita, S., Hayashi-Takagi, A., Ellis-Davies, G.C., Urakubo, H., Ishii, S., & Kasai, H. (2014).
    A critical time window for dopamine actions on the structural plasticity of dendritic spines. Science (New York, N.Y.), 345(6204), 1616-20. [PubMed:25258080] [PMC] [WorldCat] [DOI]
  50. Oyama, K., Hernádi, I., Iijima, T., & Tsutsui, K. (2010).
    Reward prediction error coding in dorsal striatal neurons. The Journal of neuroscience : the official journal of the Society for Neuroscience, 30(34), 11447-57. [PubMed:20739566] [PMC] [WorldCat] [DOI]
  51. Matsumoto, M., Matsumoto, K., Abe, H., & Tanaka, K. (2007).
    Medial prefrontal cell activity signaling prediction errors of action values. Nature neuroscience, 10(5), 647-56. [PubMed:17450137] [WorldCat] [DOI]
  52. Matsumoto, M., & Hikosaka, O. (2007).
    Lateral habenula as a source of negative reward signals in dopamine neurons. Nature, 447(7148), 1111-5. [PubMed:17522629] [WorldCat] [DOI]
  53. Cohen, J.Y., Haesler, S., Vong, L., Lowell, B.B., & Uchida, N. (2012).
    Neuron-type-specific signals for reward and punishment in the ventral tegmental area. Nature, 482(7383), 85-8. [PubMed:22258508] [PMC] [WorldCat] [DOI]
  54. Nakamura, K., Santos, G.S., Matsuzaki, R., & Nakahara, H. (2012).
    Differential reward coding in the subdivisions of the primate caudate during an oculomotor task. The Journal of neuroscience : the official journal of the Society for Neuroscience, 32(45), 15963-82. [PubMed:23136434] [PMC] [WorldCat] [DOI]
  55. Nakahara, H., & Hikosaka, O. (2012).
    Learning to represent reward structure: a key to adapting to complex environments. Neuroscience research, 74(3-4), 177-83. [PubMed:23069349] [PMC] [WorldCat] [DOI]
  56. Nakahara, H. (2014).
    Multiplexing signals in reinforcement learning with internal models and dopamine. Current opinion in neurobiology, 25, 123-9. [PubMed:24463329] [WorldCat] [DOI]