「報酬予測」の版間の差分

(3人の利用者による、間の31版が非表示)

1行目:

望月泰博、陳冲、福田玄明、[https://researchmap.jp/hiroyukinakahara 中原裕之]

''理化学研究所　脳科学総合研究センター　理論統合脳科学研究チーム''

DOI：<selfdoi />　原稿受付日：2018年2月16日　原稿完成日：2018年3月9日

担当編集委員：[http://researchmap.jp/keijitanaka 田中啓治]（理化学研究所　脳科学総合研究センター　認知機能表現研究チーム）

</div>

英：Reward prediction

{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}

{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}

==報酬予測にかかわる行動==

　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。

[[報酬]]（reward）の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。

　動物が実際に報酬を予測していることを示唆する反応や行動選択は、[[パブロフ型条件づけ]]（Pavlovian conditioning、または[[古典的条件づけ]]、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、または[[オペラント条件づけ]]、operant conditioning）、また[[遅延反応課題]]（delayed response task）をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして[[遅延反応課題]]の実験にみられる報酬予測に関連した反応と行動選択について説明する。

　~~実際に動物が報酬を予測していることを示唆する反応や行動は、~~[[~~パブロフ型条件づけ~~]]~~（pavlovian conditioning、または古典的条件づけ、classical conditioning）、~~[[~~道具的条件づけ~~]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題に代表される選択課題の実験で端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもこれらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連する反応と行動について説明する。

===パブロフ型条件づけにみられる反応===

　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件に（学習を必要とせず）ヨダレという反応を引き起こすことから、[[無条件刺激]]（unconditioned stimulus：US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、[[条件刺激]]（conditioned stimulus：CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。

==~~=パブロフ型条件づけ課題にみられる反応===~~

さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬を予想することを学習した動物は、CSの呈示に際してCSや報酬の呈示場所へ近づく[[接近反応]]（approach response）をみせる<ref name=bouton>'''Mark E Bouton''' Learning and behavior: A contemporary synthesis Second Edition ''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐める[[リッキング行動]]がみられる<ref name=tsutsui>'''筒井健一郎、大山佳''' 報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳 ''苧坂直行編、''新曜社'': 2014</ref>。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。

　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。

さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる<ref ~~name=bouton~~>'''~~Mark E Bouton~~''' ~~Learning~~ and ~~behavior: A contemporary synthesis Second Edition~~ ''~~Sinauer Associates~~'': ~~2007~~</ref>~~。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる~~<ref ~~name=tsutsui~~>'''~~筒井健一郎、大山佳~~''' ~~報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳~~ ''~~苧坂直行編、新曜社（東京）~~'':~~2014~~</ref>~~。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。~~

パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「[[レスコーラ・ワグナー・モデル]]（Rescorla–Wagner model）」の強化学習的解釈を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott''' Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems ''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara''' Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology ''Wiley'': 2017</ref>。

このような報酬予測にもとづく反応はどのように学習されるのだろうか？ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」の強化学習的理解を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott''' Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems ''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara''' Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology ''Wiley'': 2017</ref>。

　レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予測された報酬量の差分である「[[報酬予測誤差]]（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される：

　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へと更新される：

新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差

~~   新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差~~

上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）増加し、負であれば（報酬が予想していたより少なければ）減少する。

上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。

レスコーラ・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習した[[ラット]]に対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「[[阻止効果]]（blocking effect）」と呼ばれており<ref name=bouton />、レスコーラ・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。

レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている<ref name=bouton />。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。

===道具的条件づけにみられる自発的行動===

　道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、[[wj:エドワード・ソーンダイク|ソーンダイク]]が行った実験では、パズルボックスの中に閉じ込められた[[ネコ]]が試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。

~~===道具的条件づけ課題と行動選択===~~

　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。

===遅延反応課題にみられる行動選択と反応===

[[ファイル:~~RP_fig0~~.~~jpg~~|thumb|400px|'''図1．遅延反応課題のイメージ''']]

[[ファイル:報酬予測０.png|thumb|400px|'''図1．遅延反応課題のイメージ<ref name=watanabe1996 />''']]

　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある（図1）。たとえば、典型的な遅延選択課題では、まず左右どちらかの手がかり刺激が点灯する。そして、遅延期間を経たのちにGO刺激が点灯すると、サルは左右どちらかのボタンを押すことが求められる。このとき、サルが刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。

　報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、[[サル]]が学習する典型的な遅延選択課題では、まず左右どちらかの[[手がかり刺激]]（cue stimulus）が点灯する。手がかり刺激が消えたあとGO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。

サルはこのような課題で、手がかり刺激に応じたボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる<ref>'''O L Tinklepaugh''' An experimental study of representative factors in monkeys. ''J. Comp. Psychol.'': 1928, (8);197-236</ref>~~。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している~~ <ref name=~~watanabe1996~~><pubmed> ~~8757133~~ </pubmed></ref>。

サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押し、報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる<ref>'''O L Tinklepaugh''' An experimental study of representative factors in monkeys. ''J. Comp. Psychol.'': 1928, (8);197-236</ref>。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。

また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、ジュースの飲み口を予期的に舐めるリッキング行動がより長い時間続く<ref name=~~hassani2001~~><pubmed> ~~11387394~~ </pubmed></ref>。また、同様の試行では、サルがより短い反応時間かつより高い正当率で行動選択を行うことが報告されている<ref name=hassani2001 />。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。

==報酬予測にかかわる神経活動==

[[ファイル:~~RP_fig1~~.~~jpg~~|thumb|400px|'''~~図2．遅延反応課題における報酬予測にかかわる神経活動のイメージ~~'''<ref name=schultz2015 />（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]

[[ファイル:報酬予測1.png|thumb|400px|'''図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ'''<ref name=schultz2015 />

'''A.''' 報酬を予測する刺激の価値を反映したニューロンの活動。

'''B.''' 報酬をもたらす行動の価値を反映したニューロンの活動。

'''C.''' 報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる活動。]]

報酬予測にかかわる神経活動は、一般に[[報酬系]]~~と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる~~<ref name=tsutsui /> <ref name=schultz2006 /> <ref name=hikosaka2006 />。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映する神経活動（図2C）に分類し<ref name=tsutsui /> <ref name=schultz2015 />、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。

報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006><pubmed> 16318590 </pubmed></ref> <ref name=hikosaka2006 /> <ref><pubmed> 19812543 </pubmed></ref> <ref><pubmed>18545266 </pubmed></ref> <ref><pubmed> 21689594 </pubmed></ref>。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し<ref name=tsutsui /> <ref name=schultz2015 />、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミン]]ニューロン（dopaminergic neuron）の活動を紹介する。

===刺激や行動の価値の神経活動===

動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2006 /> <ref name=hikosaka2006 /><ref name=~~schultz2015~~><pubmed> ~~26109341~~ </pubmed></ref>。

動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015><pubmed> 26109341 </pubmed></ref> <ref name=schultz2006 /> <ref name=hikosaka2006 /> <ref><pubmed> 27687119 </pubmed></ref>。

　パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2A）。

刺激の価値を反映した神経活動は、[[眼窩前頭皮質]]<ref><pubmed> 8734596 </pubmed></ref> <ref name=Tremblay1999><pubmed> 10227292 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref>、[[線条体]]<ref name=hassani2001 /> <ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref> <ref><pubmed> 6589643 </pubmed></ref> <ref name=cromwell2003><pubmed> 12611937 </pubmed></ref>、[[扁桃体]]<ref><pubmed> 3193171 </pubmed></ref> <ref><pubmed> 16482160 </pubmed></ref>、[[黒質緻密部]]<ref><pubmed> 3794777</pubmed></ref>、[[上丘]]<ref name=ikeda2003 />などで報告されている。

たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習された刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞が存在する（図2B）。刺激の価値を反映した神経活動は、眼窩前頭皮質<ref name=Padoa-Schioppa2006><pubmed> 16633341 </pubmed></ref> <ref><pubmed> 8734596 </pubmed></ref> <ref name=Tremblay1999><pubmed> 10227292 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref>、線条体 <ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref> <ref name=hassani2001 /> <ref><pubmed>

　また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。

~~6589643 </pubmed></ref> <ref name=cromwell2003><pubmed>~~

12611937 </pubmed></ref>、扁桃体 <ref><pubmed> 3193171 </pubmed></ref> <ref><pubmed> 16482160 </pubmed></ref>、中脳ドーパミン領域（腹側被蓋野・黒質緻密部<ref><pubmed> 3794777</pubmed></ref>）、上丘<ref name=ikeda2003 />などで報告されている。

また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。このような学習された行動の価値を反映するように、報酬をもたらす行動が遂行される前後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞がある。行動を反映した神経活動は、線条体<ref name=hassani2001 /> <ref name=cromwell2003 /><ref><pubmed>

行動の価値を反映した神経活動は、線条体<ref name=hassani2001 /> <ref name=cromwell2003 /> <ref><pubmed>

16311337 </pubmed></ref> <ref name name=lauwereyns2002><pubmed> 12140557 </pubmed></ref> <ref><pubmed>

14602819 </pubmed></ref> <ref><pubmed> 18466754 </pubmed></ref> <ref name=~~nakamura2012~~ />~~、後頭頂皮質~~<ref><~~pubmed~~> ~~15205529~~ </~~pubmed~~></~~ref~~>~~などで報告されている。~~

14602819 </pubmed></ref> <ref><pubmed> 18466754 </pubmed></ref>、[[後頭頂皮質]]<ref><pubmed> 15205529 </pubmed></ref>などで報告されている。

また、刺激や行動の価値を反映した神経活動には、予測される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動に関連した情報が符号化されている場合が多い<ref name=schultz2015 /> <ref name=hikosaka2006 />。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている<ref name=kawagoe1998 /> <ref name=lauwereyns2002 />。このような予測された報酬の情報および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる<ref name=hikosaka2006 />。

===報酬期待の神経活動===

~~これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている~~<ref name=tsutsui /> <ref name=hikosaka2006><pubmed> 16424448 </pubmed></ref> <ref name=schultz2006 />。このような神経活動は、報酬を予測する刺激（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=tsutsui /> <ref name=schultz2006><pubmed> ~~16318590~~ </pubmed></ref>~~（図2C）<ref name=schultz2015 />。~~

これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006 /> <ref name=hikosaka2006><pubmed> 16424448 </pubmed></ref> <ref><pubmed> 21185861 </pubmed></ref>。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。

~~報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref><pubmed> 1464759 </pubmed></ref>~~ <ref name=~~hikosaka2006~~ /> <ref><pubmed> ~~2723722~~ </pubmed></ref~~> <ref name=kawagoe1998 /~~> <ref><pubmed> ~~8867118~~ </pubmed></ref>~~、淡蒼球~~<ref><pubmed> 23177966 </pubmed></ref>、扁桃体 <ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>~~、中脳ドーパミン領域（腹側被蓋野<ref name=cohen2012><pubmed> 22258508 </pubmed></ref>・黒質網様部<ref><pubmed> 11896175 </pubmed></ref>）、上丘~~<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>~~、脚橋被蓋核~~<ref><pubmed> 19369554 </pubmed></ref>~~などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質~~<ref name=watanabe1996 /~~> <ref><pubmed> 3971157 </pubmed></ref~~> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>~~、眼窩前頭前皮質~~ <ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref> ~~<ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質~~<ref><pubmed> 12040201 </pubmed></ref>~~、島皮質<ref><pubmed> 16979828 </pubmed></ref>~~ <ref><pubmed> 22402653

報酬期待の神経活動がみられる脳領野は多岐にわたっている。[[大脳皮質]]下の領域では、線条体<ref name=kawagoe1998 /> <ref><pubmed> 1464759 </pubmed></ref> <ref><pubmed> 2723722 </pubmed></ref>、[[淡蒼球]]<ref><pubmed> 23177966 </pubmed></ref>、扁桃体<ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、[[脚橋被蓋核]]<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動がみられる。また、大脳皮質では、[[背外側前頭前皮質]]<ref name=watanabe1996 /> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭皮質<ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref>、[[前帯状皮質]]<ref><pubmed> 12040201 </pubmed></ref>、[[島皮質]]<ref><pubmed> 22402653

</pubmed></ref>~~、運動前野~~<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。

</pubmed></ref>、[[運動前野]]<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。

これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い<ref name=hikosaka2006 /> <ref name=schultz2015 />。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行でより発火頻度を高める神経細胞が線条体で見つかっている<ref name=kawagoe1998 /> <ref name=lauwereyns2002 /> <ref name=nakamura2012 />。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている<ref name=hikosaka2006 />。

さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している<ref name=tsutsui />。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。

===ドーパミンニューロンの活動と報酬予測誤差===

~~これまで報酬予測にかかわる学習の神経科学的研究は、~~[[~~ドーパミンニューロン~~]]~~のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」~~<ref name=schultz1997><pubmed> 9054347 </pubmed></ref>~~に牽引されてきた。~~

ドーパミンニューロンの[[phasic活動]]は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「[[ドーパミン報酬予測誤差仮説]]（the dopamine reward prediction error hypothesis）」と呼ばれている<ref name=schultz1997><pubmed> 9054347 </pubmed></ref> <ref><pubmed> 21389268 </pubmed></ref> <ref>'''Nathaniel D. Daw,‎ Philippe N. Tobler''' Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning In ''Neuroeconomics 2nd Edition'', Edited by Paul W Glimcher & Ernst Fehr, ''Academic Press'': 2014</ref>。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 /> <ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている<ref><pubmed> 28390863 </pubmed></ref> 。

~~ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている~~<ref name=~~schultz1997~~ />　<ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=~~schultz2006~~ />~~。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり~~<ref><pubmed> ~~11452299~~ </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。

報酬予測誤差を反映したドーパミンニューロンの活動は、[[神経可塑性]]を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=schultz2006 /> <ref name=hikosaka2006 />、投射先のニューロンのシナプス強度はドーパミンニューロンが活動することで放出されるドーパミンによって調節される<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。

~~近年では、報酬予測誤差を反映するような神経活動が線条体~~<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>~~や内側前頭前皮質~~<ref><pubmed> 17450137 </pubmed></ref>などでも報告されており、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている<ref name=tsutsui /> <ref name=~~cohen2012~~ /> <ref name=~~nakamura2012><pubmed> 23136434 </pubmed></ref> <ref~~><pubmed> ~~23069349~~ </pubmed></ref> ~~<ref><pubmed> 24463329 </pubmed></ref>。~~

近年では、ドーパミンニューロンの他にも、線条体<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>や[[内側前頭前皮質]]<ref><pubmed> 17450137 </pubmed></ref>で報酬予測誤差を反映した活動をみせるニューロンが見つかっている。さらに、[[外側手綱核]]ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない<ref name=tsutsui/>。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究課題の一つといえるだろう<ref name=tsutsui /> <ref name=cohen2012><pubmed> 22258508 </pubmed></ref> <ref name=nakamura2012><pubmed> 23136434 </pubmed></ref> <ref><pubmed> 23069349 </pubmed></ref> <ref><pubmed> 24463329 </pubmed></ref>。

~~また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており~~<ref name=~~hikosaka2006 /> <ref name=schultz2006 />、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はシナプス強度を調節する<ref~~><pubmed> ~~11544526~~ </pubmed></ref> <ref><pubmed> ~~17367873~~ </pubmed></ref> <ref><pubmed> ~~25258080~~</pubmed></ref>。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。

== 関連項目 ==

75行目:

80行目:

*[[強化学習]]

*[[報酬系]]

*[[~~ドーパミンニューロン~~]]

*[[ドーパミン]]

*[[報酬予測誤差]]

== 参考文献 ==

~~（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）~~

@@ 1行目: / 1行目: @@
+<div align="right">
+<font size="+1">望月泰博、陳冲、福田玄明、[https://researchmap.jp/hiroyukinakahara 中原裕之]</font><br>
+''理化学研究所　脳科学総合研究センター　理論統合脳科学研究チーム''<br>
+DOI：<selfdoi />　原稿受付日：2018年2月16日　原稿完成日：2018年3月9日<br>
+担当編集委員：[http://researchmap.jp/keijitanaka 田中啓治]（理化学研究所　脳科学総合研究センター　認知機能表現研究チーム）<br>
+</div>
 英：Reward prediction
-{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}
+{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}
 ==報酬予測にかかわる行動==
-　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。
+　[[報酬]]（reward）の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。<br />
+<br />
+　動物が実際に報酬を予測していることを示唆する反応や行動選択は、[[パブロフ型条件づけ]]（Pavlovian conditioning、または[[古典的条件づけ]]、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、または[[オペラント条件づけ]]、operant conditioning）、また[[遅延反応課題]]（delayed response task）をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして[[遅延反応課題]]の実験にみられる報酬予測に関連した反応と行動選択について説明する。
-　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題に代表される選択課題の実験で端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもこれらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連する反応と行動について説明する。
+===パブロフ型条件づけにみられる反応===
+　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件に（学習を必要とせず）ヨダレという反応を引き起こすことから、[[無条件刺激]]（unconditioned stimulus：US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、[[条件刺激]]（conditioned stimulus：CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。
-===パブロフ型条件づけ課題にみられる反応===
+　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬を予想することを学習した動物は、CSの呈示に際してCSや報酬の呈示場所へ近づく[[接近反応]]（approach response）をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐める[[リッキング行動]]がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳<br>''苧坂直行編、''新曜社'': 2014</ref>。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。
-　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。
-　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳<br>''苧坂直行編、新曜社（東京）'':2014</ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。
+　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「[[レスコーラ・ワグナー・モデル]]（Rescorla–Wagner model）」の強化学習的解釈を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara'''<br>Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology<br>''Wiley'': 2017</ref>。
-　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」の強化学習的理解を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara'''<br>Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology<br>''Wiley'': 2017</ref>。
+　レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予測された報酬量の差分である「[[報酬予測誤差]]（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される：
-　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へと更新される：
+&nbsp;&nbsp;&nbsp;<i>新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差</i>
-&nbsp;&nbsp;&nbsp;<i>新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差</i>
+上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）増加し、負であれば（報酬が予想していたより少なければ）減少する。
-上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。
+　レスコーラ・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習した[[ラット]]に対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「[[阻止効果]]（blocking effect）」と呼ばれており<ref name=bouton />、レスコーラ・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。
-　レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている<ref name=bouton />。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。
+===道具的条件づけにみられる自発的行動===
+　道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、[[wj:エドワード・ソーンダイク|ソーンダイク]]が行った実験では、パズルボックスの中に閉じ込められた[[ネコ]]が試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。
-===道具的条件づけ課題と行動選択===
-　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。
 ===遅延反応課題にみられる行動選択と反応===
-[[ファイル:RP_fig0.jpg|thumb|400px|'''図1．遅延反応課題のイメージ''']]
+[[ファイル:報酬予測０.png|thumb|400px|'''図1．遅延反応課題のイメージ<ref name=watanabe1996 />''']]
-　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある（図1）。たとえば、典型的な遅延選択課題では、まず左右どちらかの手がかり刺激が点灯する。そして、遅延期間を経たのちにGO刺激が点灯すると、サルは左右どちらかのボタンを押すことが求められる。このとき、サルが刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。
+　報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、[[サル]]が学習する典型的な遅延選択課題では、まず左右どちらかの[[手がかり刺激]]（cue stimulus）が点灯する。手がかり刺激が消えたあとGO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。
-　サルはこのような課題で、手がかり刺激に応じたボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している <ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。
+　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押し、報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。
-　また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、ジュースの飲み口を予期的に舐めるリッキング行動がより長い時間続く<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。また、同様の試行では、サルがより短い反応時間かつより高い正当率で行動選択を行うことが報告されている<ref name=hassani2001 />。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。
 ==報酬予測にかかわる神経活動==
-[[ファイル:RP_fig1.jpg|thumb|400px|'''図2．遅延反応課題における報酬予測にかかわる神経活動のイメージ'''<ref name=schultz2015 />（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]
+[[ファイル:報酬予測1.png|thumb|400px|'''図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ'''<ref name=schultz2015 /><br />
+'''A.''' 報酬を予測する刺激の価値を反映したニューロンの活動。<br />
+'''B.''' 報酬をもたらす行動の価値を反映したニューロンの活動。<br />
+'''C.''' 報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる活動。]]
-　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる<ref name=tsutsui /> <ref name=schultz2006 /> <ref name=hikosaka2006 />。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映する神経活動（図2C）に分類し<ref name=tsutsui /> <ref name=schultz2015 />、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。
+　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006><pubmed> 16318590 </pubmed></ref> <ref name=hikosaka2006 /> <ref><pubmed> 19812543 </pubmed></ref> <ref><pubmed>18545266 </pubmed></ref> <ref><pubmed> 21689594 </pubmed></ref>。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し<ref name=tsutsui /> <ref name=schultz2015 />、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミン]]ニューロン（dopaminergic neuron）の活動を紹介する。
 ===刺激や行動の価値の神経活動===
-　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2006 /> <ref name=hikosaka2006 /><ref name=schultz2015><pubmed> 26109341 </pubmed></ref>。
+　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015><pubmed> 26109341 </pubmed></ref> <ref name=schultz2006 /> <ref name=hikosaka2006 /> <ref><pubmed> 27687119 </pubmed></ref>。
+　パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2A）。
+　刺激の価値を反映した神経活動は、[[眼窩前頭皮質]]<ref><pubmed> 8734596 </pubmed></ref> <ref name=Tremblay1999><pubmed> 10227292 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref>、[[線条体]]<ref name=hassani2001 /> <ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref> <ref><pubmed> 6589643 </pubmed></ref> <ref name=cromwell2003><pubmed> 12611937 </pubmed></ref>、[[扁桃体]]<ref><pubmed> 3193171 </pubmed></ref> <ref><pubmed> 16482160 </pubmed></ref>、[[黒質緻密部]]<ref><pubmed> 3794777</pubmed></ref>、[[上丘]]<ref name=ikeda2003 />などで報告されている。
-　たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習された刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞が存在する（図2B）。刺激の価値を反映した神経活動は、眼窩前頭皮質<ref name=Padoa-Schioppa2006><pubmed> 16633341 </pubmed></ref> <ref><pubmed> 8734596 </pubmed></ref> <ref name=Tremblay1999><pubmed> 10227292 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref>、線条体 <ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref> <ref name=hassani2001 /> <ref><pubmed>
+　また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。
- 6589643 </pubmed></ref> <ref name=cromwell2003><pubmed>
- 12611937 </pubmed></ref>、扁桃体 <ref><pubmed> 3193171 </pubmed></ref> <ref><pubmed> 16482160 </pubmed></ref>、中脳ドーパミン領域（腹側被蓋野・黒質緻密部<ref><pubmed> 3794777</pubmed></ref>）、上丘<ref name=ikeda2003 />などで報告されている。
-　また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。このような学習された行動の価値を反映するように、報酬をもたらす行動が遂行される前後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞がある。行動を反映した神経活動は、線条体<ref name=hassani2001 /> <ref name=cromwell2003 /><ref><pubmed>
+　行動の価値を反映した神経活動は、線条体<ref name=hassani2001 /> <ref name=cromwell2003 /> <ref><pubmed>
   16311337  </pubmed></ref> <ref name name=lauwereyns2002><pubmed> 12140557 </pubmed></ref> <ref><pubmed>
-  14602819 </pubmed></ref> <ref><pubmed> 18466754 </pubmed></ref> <ref name=nakamura2012 />、後頭頂皮質<ref><pubmed> 15205529 </pubmed></ref>などで報告されている。
+  14602819 </pubmed></ref> <ref><pubmed> 18466754 </pubmed></ref>、[[後頭頂皮質]]<ref><pubmed> 15205529 </pubmed></ref>などで報告されている。
+　また、刺激や行動の価値を反映した神経活動には、予測される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動に関連した情報が符号化されている場合が多い<ref name=schultz2015 /> <ref name=hikosaka2006 />。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている<ref name=kawagoe1998 /> <ref name=lauwereyns2002 />。このような予測された報酬の情報および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる<ref name=hikosaka2006 />。
 ===報酬期待の神経活動===
-　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている<ref name=tsutsui /> <ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref> <ref name=schultz2006 />。このような神経活動は、報酬を予測する刺激（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=tsutsui /> <ref name=schultz2006><pubmed> 16318590 </pubmed></ref>（図2C）<ref name=schultz2015 />。
+　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006 /> <ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref> <ref><pubmed> 21185861 </pubmed></ref>。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。
-　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref><pubmed> 1464759 </pubmed></ref> <ref name=hikosaka2006 /> <ref><pubmed> 2723722 </pubmed></ref> <ref name=kawagoe1998 /> <ref><pubmed> 8867118 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、扁桃体 <ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、中脳ドーパミン領域（腹側被蓋野<ref name=cohen2012><pubmed> 22258508 </pubmed></ref>・黒質網様部<ref><pubmed> 11896175 </pubmed></ref>）、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /> <ref><pubmed> 3971157 </pubmed></ref> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質 <ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref> <ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 16979828 </pubmed></ref> <ref><pubmed> 22402653
+　報酬期待の神経活動がみられる脳領野は多岐にわたっている。[[大脳皮質]]下の領域では、線条体<ref name=kawagoe1998 /> <ref><pubmed> 1464759 </pubmed></ref> <ref><pubmed> 2723722 </pubmed></ref>、[[淡蒼球]]<ref><pubmed> 23177966 </pubmed></ref>、扁桃体<ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、[[脚橋被蓋核]]<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動がみられる。また、大脳皮質では、[[背外側前頭前皮質]]<ref name=watanabe1996 /> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭皮質<ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref>、[[前帯状皮質]]<ref><pubmed> 12040201 </pubmed></ref>、[[島皮質]]<ref><pubmed> 22402653
-  </pubmed></ref>、運動前野<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。
+  </pubmed></ref>、[[運動前野]]<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。
-　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い<ref name=hikosaka2006 /> <ref name=schultz2015 />。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行でより発火頻度を高める神経細胞が線条体で見つかっている<ref name=kawagoe1998 /> <ref name=lauwereyns2002 /> <ref name=nakamura2012 />。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている<ref name=hikosaka2006 />。
-　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している<ref name=tsutsui />。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。
 ===ドーパミンニューロンの活動と報酬予測誤差===
-　これまで報酬予測にかかわる学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref name=schultz1997><pubmed> 9054347 </pubmed></ref>に牽引されてきた。
+　ドーパミンニューロンの[[phasic活動]]は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「[[ドーパミン報酬予測誤差仮説]]（the dopamine reward prediction error hypothesis）」と呼ばれている<ref name=schultz1997><pubmed> 9054347 </pubmed></ref> <ref><pubmed> 21389268 </pubmed></ref> <ref>'''Nathaniel D. Daw,‎ Philippe N. Tobler'''<br>Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning <br>In ''Neuroeconomics 2nd Edition'', Edited by Paul W Glimcher & Ernst Fehr, ''Academic Press'': 2014</ref>。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 /> <ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている<ref><pubmed> 28390863 </pubmed></ref> 。
-　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 />　<ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。
+　報酬予測誤差を反映したドーパミンニューロンの活動は、[[神経可塑性]]を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=schultz2006 /> <ref name=hikosaka2006 />、投射先のニューロンのシナプス強度はドーパミンニューロンが活動することで放出されるドーパミンによって調節される<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。
-　近年では、報酬予測誤差を反映するような神経活動が線条体<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>や内側前頭前皮質<ref><pubmed> 17450137 </pubmed></ref>などでも報告されており、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている<ref name=tsutsui /> <ref name=cohen2012 /> <ref name=nakamura2012><pubmed> 23136434 </pubmed></ref> <ref><pubmed> 23069349 </pubmed></ref> <ref><pubmed> 24463329 </pubmed></ref>。
+　近年では、ドーパミンニューロンの他にも、線条体<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>や[[内側前頭前皮質]]<ref><pubmed> 17450137 </pubmed></ref>で報酬予測誤差を反映した活動をみせるニューロンが見つかっている。さらに、[[外側手綱核]]ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない<ref name=tsutsui/>。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究課題の一つといえるだろう<ref name=tsutsui /> <ref name=cohen2012><pubmed> 22258508 </pubmed></ref> <ref name=nakamura2012><pubmed> 23136434 </pubmed></ref> <ref><pubmed> 23069349 </pubmed></ref> <ref><pubmed> 24463329 </pubmed></ref>。
-　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /> <ref name=schultz2006 />、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はシナプス強度を調節する<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 17367873 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。
 == 関連項目 ==
@@ 75行目: / 80行目: @@
 *[[強化学習]]
 *[[報酬系]]
-*[[ドーパミンニューロン]]
+*[[ドーパミン]]
+*[[報酬予測誤差]]
 == 参考文献 ==
 <references/>
-（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）