<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ja">
	<id>https://bsd.neuroinf.jp/w/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Hiroyukinakahara</id>
	<title>脳科学辞典 - 利用者の投稿記録 [ja]</title>
	<link rel="self" type="application/atom+xml" href="https://bsd.neuroinf.jp/w/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Hiroyukinakahara"/>
	<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/wiki/%E7%89%B9%E5%88%A5:%E6%8A%95%E7%A8%BF%E8%A8%98%E9%8C%B2/Hiroyukinakahara"/>
	<updated>2026-04-11T22:56:52Z</updated>
	<subtitle>利用者の投稿記録</subtitle>
	<generator>MediaWiki 1.43.8</generator>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38117</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38117"/>
		<updated>2018-02-19T04:21:40Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬（reward）の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　動物が実際に報酬を予測していることを示唆する反応や行動選択は、[[パブロフ型条件づけ]]（Pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件に（学習を必要とせず）ヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬を予想することを学習した動物は、CSの呈示に際してCSや報酬の呈示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予測された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）増加し、負であれば（報酬が予想していたより少なければ）減少する。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコーラ・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけにみられる自発的行動===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあとGO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押し、報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる活動。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;18545266 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21689594 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2A）。&lt;br /&gt;
&lt;br /&gt;
　刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、予測される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動に関連した情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような予測された報酬の情報および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」と呼ばれている&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミンニューロンの活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、投射先のニューロンのシナプス強度はドーパミンニューロンが活動することで放出されるドーパミンによって調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせるニューロンが見つかっている。さらに、外側手綱核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない&amp;lt;ref name=tsutsui/&amp;gt;。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：田中啓治）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38116</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38116"/>
		<updated>2018-02-19T03:01:55Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬（reward）の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　動物が実際に報酬を予測していることを示唆する反応や行動選択は、[[パブロフ型条件づけ]]（Pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件に（学習を必要とせず）ヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬を予想することを学習した動物は、CSの呈示に際してCSや報酬の呈示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）増加し、負であれば（報酬が予想していたより少なければ）減少する。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコーラ・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけにみられる自発的行動===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあとGO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる活動。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;18545266 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21689594 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2A）。&lt;br /&gt;
&lt;br /&gt;
　刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、予測される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動に関連した情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような予測された報酬および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」と呼ばれている&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミンニューロンの活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、投射先のシナプス強度はドーパミンニューロンが活動することで放出されるドーパミンによって調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせるニューロンが見つかっている。さらに、外側手綱核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない&amp;lt;ref name=tsutsui/&amp;gt;。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：田中啓治）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38115</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38115"/>
		<updated>2018-02-19T01:55:59Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（Pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬の獲得を予想することを学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）増加し、負であれば（報酬が予想していたより少なければ）減少する。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけにみられる自発的行動===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;18545266 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21689594 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2A）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような予測された報酬および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」と呼ばれている&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミンニューロンの活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンが活動することで放出されるドーパミンは投射先のシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない&amp;lt;ref name=tsutsui/&amp;gt;。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：田中啓治）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38091</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38091"/>
		<updated>2018-02-16T05:20:52Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（Pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬の獲得を予想することを学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）増加し、負であれば（報酬が予想していたより少なければ）減少する。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけにみられる自発的行動===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;18545266 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21689594 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2A）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような予測された報酬および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」と呼ばれている&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンが活動することで放出されるドーパミンは投射先のシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない&amp;lt;ref name=tsutsui/&amp;gt;。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：田中啓治）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38090</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38090"/>
		<updated>2018-02-16T05:11:26Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（Pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬の獲得を予想することを学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）増加し、負であれば（報酬が予想していたより少なければ）減少する。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけにみられる自発的行動===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;18545266 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;18545266 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21689594 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2A）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような予測された報酬および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」と呼ばれている&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンが活動することで放出されるドーパミンは投射先のシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない&amp;lt;ref name=tsutsui/&amp;gt;。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：田中啓治）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38084</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38084"/>
		<updated>2018-02-16T03:18:04Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（Pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬の獲得を予想することを学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、パブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）増加し、負であれば（報酬が予想していたより少なければ）減少する。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけにみられる自発的行動===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような予測された報酬および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」と呼ばれている&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンが活動することで放出されるドーパミンは投射先のシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない&amp;lt;ref name=tsutsui/&amp;gt;。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：田中啓治）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38077</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38077"/>
		<updated>2018-02-14T05:59:34Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（Pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。報酬予測にかかわる神経活動を調べる際に用いられるのも、多くの場合これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSが報酬の獲得を予想することを学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、報酬としてジュースが与えられる課題では、動物が報酬を獲得する前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、心理学でパブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルでは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へ更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）増加し、負であれば（報酬が予想していたより少なければ）減少する。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、パブロフ型条件づけの実験でみられる動物の反応をよく説明する。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは、先に学習された光が報酬の獲得を予測するため、音に予測される報酬の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけにみられる自発的行動===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する自発的な行動がみられる。道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物がとる行動次第で報酬が得られるかどうかが決まる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、ボックスの内側に設置された紐を引き、外に出て餌を獲得することを学習する。報酬をもたらす行動の頻度が増加することは、動物が特定の行動の結果として報酬が得られることを学習したためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動選択を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行において、より短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動をより長い時間続ける&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、サルが特定の行動を選択した結果得られる報酬を予測していることを示している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、報酬との連合が学習されることで、未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、報酬との連合が学習されることで、報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルが遅延反応課題を行う際の神経活動を線条体で計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンがみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような予測された報酬および報酬獲得のための行動関連情報を含む神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」と呼ばれている&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない&amp;lt;ref name=tsutsui/&amp;gt;。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38051</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38051"/>
		<updated>2018-02-12T08:09:44Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待を反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、心理学でパブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的な解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは音に対する学習は起こらないことは、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物が選択する行動次第で得られる報酬やその大きさに違いが生まれる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。より大きな報酬をもたらす行動が学習されることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行においてより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることで報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも確認されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38047</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38047"/>
		<updated>2018-02-09T09:05:33Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これら活動はドーパミンニューロンによって調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、心理学でパブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的な解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは、音に対する学習は起こらないことは先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物が選択する行動次第で得られる報酬やその大きさに違いが生まれる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。より大きな報酬をもたらす行動が学習されることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることでより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体&amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動が動物の学習にともなって調節されるメカニズムは、詳細に理解されていない。報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まることから（図2）、報酬期待の持続的な神経活動が価値に関連した神経活動によって引き起こされるメカニズムがあることが予想されるが&amp;lt;ref name=tsutsui /&amp;gt;、その詳細は理解されていない。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることも確認されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38046</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38046"/>
		<updated>2018-02-09T09:02:20Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これら活動はドーパミンニューロンによって調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、心理学でパブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的な解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは、音に対する学習は起こらないことは先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物が選択する行動次第で得られる報酬やその大きさに違いが生まれる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。より大きな報酬をもたらす行動が学習されることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることでより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質&amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動が動物の学習にともなって調節されるメカニズムは、詳細に理解されていない。報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まることから（図2）、報酬期待の持続的な神経活動が価値に関連した神経活動によって引き起こされるメカニズムがあることが予想されるが&amp;lt;ref name=tsutsui /&amp;gt;、その詳細は理解されていない。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis）」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることも確認されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC1.png&amp;diff=38045</id>
		<title>ファイル:報酬予測1.png</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC1.png&amp;diff=38045"/>
		<updated>2018-02-09T09:00:39Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: Hiroyukinakahara 「ファイル:報酬予測1.png」の新しい版をアップロードしました&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC1.png&amp;diff=38044</id>
		<title>ファイル:報酬予測1.png</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC1.png&amp;diff=38044"/>
		<updated>2018-02-09T08:51:14Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: Hiroyukinakahara 「ファイル:報酬予測1.png」の新しい版をアップロードしました&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38043</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38043"/>
		<updated>2018-02-09T08:50:18Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これら活動はドーパミンニューロンによって調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、心理学でパブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的な解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは、音に対する学習は起こらないことは先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物が選択する行動次第で得られる報酬やその大きさに違いが生まれる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。より大きな報酬をもたらす行動が学習されることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることでより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動が動物の学習にともなって調節されるメカニズムは、詳細に理解されていない。報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まることから（図2）、報酬期待の持続的な神経活動が価値に関連した神経活動によって引き起こされるメカニズムがあることが予想されるが&amp;lt;ref name=tsutsui /&amp;gt;、その詳細は理解されていない。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis））&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることも確認されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、陳冲、福田玄明、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38042</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38042"/>
		<updated>2018-02-09T08:44:57Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これら活動はドーパミンニューロンによって調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、&#039;&#039;新曜社&#039;&#039;: 2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、心理学でパブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的な解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナー・モデルでは、音に対する学習は起こらないことは先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物が選択する行動次第で得られる報酬やその大きさに違いが生まれる。このような実験課題で、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。より大きな報酬をもたらす行動が学習されることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19812543 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 27687119 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることでより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21185861 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動が動物の学習にともなって調節されるメカニズムは、詳細に理解されていない。報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まることから（図2）、報酬期待の持続的な神経活動が価値に関連した神経活動によって引き起こされるメカニズムがあることが予想されるが&amp;lt;ref name=tsutsui /&amp;gt;、その詳細は理解されていない。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis））&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 21389268 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Nathaniel D. Daw,‎ Philippe N. Tobler&#039;&#039;&#039;&amp;lt;br&amp;gt;Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning &amp;lt;br&amp;gt;In &#039;&#039;Neuroeconomics 2nd Edition&#039;&#039;, Edited by Paul W Glimcher &amp;amp; Ernst Fehr, &#039;&#039;Academic Press&#039;&#039;: 2014&amp;lt;/ref&amp;gt;に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることも確認されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題のひとつといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38041</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38041"/>
		<updated>2018-02-09T08:00:19Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これら活動はドーパミンニューロンによって調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連してみられる反応は、[[強化学習]]の行動モデルがよく説明する。ここでは、パブロフ型条件づけにおける動物の反応の数理的モデルとして提唱された「レスコーラ・ワグナー・モデル（Rescorla–Wagner model）」の強化学習的な解釈を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナー・モデルは、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナー・モデルは、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。レスコー・ラワグナー・モデルでは、音に対する学習は起こらないことは、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物が選択する行動次第で得られる報酬やその大きさに違いが生まれる。動物はこのような実験課題でより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。より大きな報酬をもたらす行動が学習されることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&amp;lt;ref name=watanabe1996 /&amp;gt;&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられている[[ドーパミンニューロン]]（dopaminergic neuron）の活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることでより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動が動物の学習にともなって調節されるメカニズムは、詳細に理解されていない。報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まることから（図2）、報酬期待の持続的な神経活動が価値に関連した神経活動によって引き起こされるメカニズムがあることが予想されるが&amp;lt;ref name=tsutsui /&amp;gt;、その詳細は理解されていない。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説（the dopamine reward prediction error hypothesis)」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることも確認されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　近年では、ドーパミンニューロンの他にも、線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題のひとつといえるだろう&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38040</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38040"/>
		<updated>2018-02-09T05:54:55Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、またそれらはドーパミンニューロンの活動に調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ条件づけにみられる報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則は、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則は、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。レスコー・ラワグナーの学習則から考えれば、音に対する学習は起こらないことは、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物が選択する行動次第で得られる報酬やその大きさに違いが生まれる。動物はこのような実験課題でより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。より大きな報酬をもたらす行動が学習されることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることで、より多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測に関連した学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬予測誤差を反映するような神経活動が線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などでも報告されており、また手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38039</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38039"/>
		<updated>2018-02-09T05:32:27Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、またそれらはドーパミンニューロンの活動に調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけ課題にみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ条件づけにみられる報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則は、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則は、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。レスコー・ラワグナーの学習則から考えれば、音に対する学習は起こらないことは、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけ課題と行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物が選択する行動次第で得られる報酬やその大きさに違いが生まれる。動物はこのような実験課題でより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。より大きな報酬をもたらす行動が学習されることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。手がかり刺激が消えたあと、GO刺激（GO stimulus）が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題でみられる報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンがそれぞれ嗜好性の高い報酬と低い報酬が予測される試行でみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることで、より多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ（図2C）。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測に関連した学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬予測誤差を反映するような神経活動が線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などでも報告されており、また手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38038</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38038"/>
		<updated>2018-02-07T06:58:42Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。また、神経科学研究では、報酬を予測する刺激の価値、報酬をもたらす行為の価値、また報酬への期待を反映したニューロンの活動が報告されており、これらの神経活動はドーパミンニューロンの活動によって調整されていると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）などの選択課題の実験に端的に表れる。また、報酬予測の神経基盤に関する研究においても、多くの場合これらの実験パラダイムが用いられる。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけ課題にみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持するj受動的な反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ条件づけにみられる報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則は、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則は、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらないことを予想している。これらのことは、パブロフ型条件づけの行動実験で実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナーの学習則から考えれば、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるためと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけ課題と行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
　&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。そして、遅延期間を経たのち、サルにはGO刺激（GO stimulus）の点灯に際して左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、また予期的なリッキング行動の持続時間も長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題に関連して、報酬予測にかかわる異なる情報が符号化されたニューロン活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じた活動の増大をみせるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じた活動の増大をみせるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行でより大きな活動の高まりをみせるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的な増大をみせ、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図2C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質網様部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測にかかわる学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬予測誤差を反映するような神経活動が線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などでも報告されており、また手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012 /&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38037</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38037"/>
		<updated>2018-02-07T06:57:47Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動をみせる。また、神経科学研究では、報酬を予測する刺激の価値、報酬をもたらす行為の価値、また報酬への期待を反映したニューロンの活動が報告されており、これらの神経活動はドーパミンニューロンの活動によって調整されていると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）などの選択課題の実験に端的に表れる。また、報酬予測の神経基盤に関する研究においても、多くの場合これらの実験パラダイムが用いられる。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけ課題にみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持するj受動的な反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ条件づけにみられる報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則は、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則は、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらないことを予想している。これらのことは、パブロフ型条件づけの行動実験で実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナーの学習則から考えれば、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるためと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけ課題と行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
　&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。そして、遅延期間を経たのち、サルにはGO刺激（GO stimulus）の点灯に際して左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、また予期的なリッキング行動の持続時間も長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題に関連して、報酬予測にかかわる異なる情報が符号化されたニューロン活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じた活動の増大をみせるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じた活動の増大をみせるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行でより大きな活動の高まりをみせるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的な増大をみせ、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図2C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質網様部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測にかかわる学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬予測誤差を反映するような神経活動が線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などでも報告されており、また手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012 /&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38036</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38036"/>
		<updated>2018-02-07T06:38:50Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動をみせる。報酬予測にかかわる神経活動は、意思決定やそれにともなう学習と深くかかわることがわかっており、盛んに研究されている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）などの選択課題の実験に端的に表れる。また、報酬予測の神経基盤に関する研究においても、多くの場合これらの実験パラダイムが用いられる。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけ課題にみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持するj受動的な反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ条件づけにみられる報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則は、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則は、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらないことを予想している。これらのことは、パブロフ型条件づけの行動実験で実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナーの学習則から考えれば、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるためと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけ課題と行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
　&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。そして、遅延期間を経たのち、サルにはGO刺激（GO stimulus）の点灯に際して左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、また予期的なリッキング行動の持続時間も長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題に関連して、報酬予測にかかわる異なる情報が符号化されたニューロン活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じた活動の増大をみせるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じた活動の増大をみせるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行でより大きな活動の高まりをみせるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的な増大をみせ、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図2C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質網様部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測にかかわる学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬予測誤差を反映するような神経活動が線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などでも報告されており、また手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012 /&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38035</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38035"/>
		<updated>2018-02-07T06:36:41Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動をみせる。また、報酬予測にかかわる神経活動は、意思決定やそれにともなう学習と深くかかわることがわかっている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）などの選択課題の実験に端的に表れる。また、報酬予測の神経基盤に関する研究においても、多くの場合これらの実験パラダイムが用いられる。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけ課題にみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持するj受動的な反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　パブロフ条件づけにみられる報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則は、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へ更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則は、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらないことを予想している。これらのことは、パブロフ型条件づけの行動実験で実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれており&amp;lt;ref name=bouton /&amp;gt;、レスコー・ラワグナーの学習則から考えれば、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるためと解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけ課題と行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
　&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある（図1）。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激（cue stimulus）が点灯する。そして、遅延期間を経たのち、サルにはGO刺激（GO stimulus）の点灯に際して左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、また予期的なリッキング行動の持続時間も長くなる&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題に関連して、報酬予測にかかわる異なる情報が符号化されたニューロン活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域でみられる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映した神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、これらの神経活動がみられる領域を紹介する。そして最後に、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　パブロフ型条件づけでは、本来意味を持たない刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習によって増加した刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じた活動の増大をみせるニューロンがみつかっている（図2B）。&lt;br /&gt;
&lt;br /&gt;
　このような刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じた活動の増大をみせるニューロンがみつかっている。&lt;br /&gt;
&lt;br /&gt;
　このような行動の価値を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行でより大きな活動の高まりをみせるニューロンが線条体でみつかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的な増大をみせ、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図2C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質網様部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測にかかわる学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬予測誤差を反映するような神経活動が線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などでも報告されており、また手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012 /&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38032</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38032"/>
		<updated>2018-02-07T02:12:05Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題に代表される選択課題の実験で端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもこれらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけ課題にみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」の強化学習的理解を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へと更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけ課題と行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
　&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある（図1）。たとえば、典型的な遅延選択課題では、まず左右どちらかの手がかり刺激が点灯する。そして、遅延期間を経たのちにGO刺激が点灯すると、サルは左右どちらかのボタンを押すことが求められる。このとき、サルが刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題で、手がかり刺激に応じたボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、ジュースの飲み口を予期的に舐めるリッキング行動がより長い時間続く&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の試行では、サルがより短い反応時間かつより高い正当率で行動選択を行うことが報告されている&amp;lt;ref name=hassani2001 /&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題に関連して、報酬予測にかかわる異なる情報が符号化されたニューロン活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映する神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習された刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞が存在する（図2B）。刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。このような学習された行動の価値を反映するように、報酬をもたらす行動が遂行される前後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞がある。行動を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行でより発火頻度を高める神経細胞が線条体で見つかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図2C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質網様部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測にかかわる学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt;　&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬予測誤差を反映するような神経活動が線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などでも報告されており、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012 /&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38031</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38031"/>
		<updated>2018-02-06T10:56:09Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題に代表される選択課題の実験で端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもこれらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけ課題にみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」の強化学習的理解を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へと更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけ課題と行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
　&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:報酬予測０.png|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある（図1）。たとえば、典型的な遅延選択課題では、まず左右どちらかの手がかり刺激が点灯する。そして、遅延期間を経たのちにGO刺激が点灯すると、サルは左右どちらかのボタンを押すことが求められる。このとき、サルが刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題で、手がかり刺激に応じたボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、ジュースの飲み口を予期的に舐めるリッキング行動がより長い時間続く&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の試行では、サルがより短い反応時間かつより高い正当率で行動選択を行うことが報告されている&amp;lt;ref name=hassani2001 /&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:報酬予測1.png|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題に関連して、報酬予測にかかわる異なる情報が符号化されたニューロン活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映する神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習された刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞が存在する（図2B）。刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。このような学習された行動の価値を反映するように、報酬をもたらす行動が遂行される前後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞がある。行動を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図2C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質網様部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行でより発火頻度を高める神経細胞が線条体で見つかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測にかかわる学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt;　&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬予測誤差を反映するような神経活動が線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などでも報告されており、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012 /&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC1.png&amp;diff=38030</id>
		<title>ファイル:報酬予測1.png</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC1.png&amp;diff=38030"/>
		<updated>2018-02-06T10:50:48Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC%EF%BC%90.png&amp;diff=38029</id>
		<title>ファイル:報酬予測０.png</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC%EF%BC%90.png&amp;diff=38029"/>
		<updated>2018-02-06T10:49:55Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38028</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38028"/>
		<updated>2018-02-06T09:42:10Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題に代表される選択課題の実験で端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもこれらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけ課題にみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」の強化学習的理解を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へと更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけ課題と行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
　&lt;br /&gt;
===遅延反応課題にみられる行動選択と反応===&lt;br /&gt;
[[ファイル:RP_fig0.jpg|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題のイメージ&#039;&#039;&#039;]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある（図1）。たとえば、典型的な遅延選択課題では、まず左右どちらかの手がかり刺激が点灯する。そして、遅延期間を経たのちにGO刺激が点灯すると、サルは左右どちらかのボタンを押すことが求められる。このとき、サルが刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。&lt;br /&gt;
&lt;br /&gt;
　サルはこのような課題で、手がかり刺激に応じたボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している &amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、ジュースの飲み口を予期的に舐めるリッキング行動がより長い時間続く&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の試行では、サルがより短い反応時間かつより高い正当率で行動選択を行うことが報告されている&amp;lt;ref name=hassani2001 /&amp;gt;。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|400px|&#039;&#039;&#039;図2．遅延反応課題における報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;&amp;lt;ref name=schultz2015 /&amp;gt;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図2A）、報酬をもたらす行動の価値を反映した神経活動（図2B）、動物の報酬への期待を反映する神経活動（図2C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　動物の脳では、刺激や行動の「価値（value）」を反映するような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。このような学習された刺激の価値を反映するように、報酬を予測する刺激が呈示された直後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞が存在する（図2B）。刺激の価値を反映した神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。このような学習された行動の価値を反映するように、報酬をもたらす行動が遂行される前後に予想される報酬の好ましさに応じた活動の増大をみせる神経細胞がある。行動を反映した神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図2C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref name=cohen2012&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質網様部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行でより発火頻度を高める神経細胞が線条体で見つかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt; &amp;lt;ref name=nakamura2012 /&amp;gt;。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　これまで報酬予測にかかわる学習の神経科学的研究は、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;に牽引されてきた。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref name=schultz1997 /&amp;gt;　&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬予測誤差を反映するような神経活動が線条体&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;や内側前頭前皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17450137 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などでも報告されており、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=cohen2012 /&amp;gt; &amp;lt;ref name=nakamura2012&amp;gt;&amp;lt;pubmed&amp;gt; 23136434 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23069349 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 24463329 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig0.jpg&amp;diff=38027</id>
		<title>ファイル:RP fig0.jpg</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig0.jpg&amp;diff=38027"/>
		<updated>2018-02-06T08:13:12Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: Hiroyukinakahara 「ファイル:RP fig0.jpg」の新しい版をアップロードしました&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig0.jpg&amp;diff=38026</id>
		<title>ファイル:RP fig0.jpg</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig0.jpg&amp;diff=38026"/>
		<updated>2018-02-06T08:07:09Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: Hiroyukinakahara 「ファイル:RP fig0.jpg」の新しい版をアップロードしました&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig0.jpg&amp;diff=38025</id>
		<title>ファイル:RP fig0.jpg</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig0.jpg&amp;diff=38025"/>
		<updated>2018-02-06T08:04:20Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38024</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38024"/>
		<updated>2018-02-06T06:18:48Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけ課題にみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」の強化学習的理解を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へと更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけ課題にみられる行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
　&lt;br /&gt;
===遅延反応課題にみられる反応と行動===&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。このような課題をサルが学習することは、道具的条件づけの場合と同様、サルが行動の結果得られる報酬を予測しているためと考えられる。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。このことは、サルが報酬としてバナナを期待していることとを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行為の結果特定の報酬が得られることを予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題における報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図1A）、報酬をもたらす行動の価値を反映した神経活動（図1B）、動物の報酬への期待を反映する神経活動（図1C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　このような刺激や行動の価値を反映するようなニューロンの活動は、多くの研究で報告されている &amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の量や好ましさに応じた活動増加をみせる（図1A、B）&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　刺激の価値を反映した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図1C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が線条体で見つかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、道具的条件づけの実験でサルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38023</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38023"/>
		<updated>2018-02-06T06:10:40Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけにみられる反応===&lt;br /&gt;
　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」の強化学習的理解を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」が学習信号となり、今までの予期報酬が新たな予期報酬へと更新される：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方に、負であれば（報酬が予想していたより少なければ）下方に修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけにみられる行動選択===&lt;br /&gt;
　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。&lt;br /&gt;
　&lt;br /&gt;
===遅延反応課題にみられる反応と行動===&lt;br /&gt;
　報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。このような課題をサルが学習することは、道具的条件づけの場合と同様、サルが行動の結果得られる報酬を予測しているためと考えられる。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。このことは、サルが報酬としてバナナを期待していることとを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、学習の結果サルが行為の結果特定の報酬が得られることを予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題における報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図1A）、報酬をもたらす行動の価値を反映した神経活動（図1B）、動物の報酬への期待を反映する神経活動（図1C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　このような刺激や行動の価値を反映するようなニューロンの活動は、多くの研究で報告されている &amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の量や好ましさに応じた活動増加をみせる（図1A、B）&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　刺激の価値を反映した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図1C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が線条体で見つかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、道具的条件づけの実験でサルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38019</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38019"/>
		<updated>2018-02-02T12:03:02Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題における報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、それぞれ嗜好性の高い報酬と低い報酬が予測される場合にみられる単一ニューロンの反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図1A）、報酬をもたらす行動の価値を反映した神経活動（図1B）、動物の報酬への期待を反映する神経活動（図1C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　このような刺激や行動の価値を反映するようなニューロンの活動は、多くの研究で報告されている &amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の量や好ましさに応じた活動増加をみせる（図1A、B）&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　刺激の価値を反映した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図1C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が線条体で見つかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、道具的条件づけの実験でサルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38018</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38018"/>
		<updated>2018-02-02T11:34:33Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題における報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンが、嗜好性の高い報酬と低い報酬が予測される場合にみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動（図1A）、報酬をもたらす行動の価値を反映した神経活動（図1B）、動物の報酬への期待を反映する神経活動（図1C）に分類し&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　このような刺激や行動の価値を反映するようなニューロンの活動は、多くの研究で報告されている &amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt;。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の量や好ましさに応じた活動増加をみせる（図1A、B）&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　刺激の価値を反映した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する刺激（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図1C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2004 /&amp;gt; &amp;lt;ref name=rosech2003 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が線条体で見つかっている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、道具的条件づけの実験でサルのドーパミンニューロンの反応が学習に伴い変化することが知られている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38017</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38017"/>
		<updated>2018-02-02T10:44:01Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題における報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンが、嗜好性の高い報酬と低い報酬が予測される場合にみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激や報酬をもたらす行動の価値を反映する神経活動（図1A、B）と動物の報酬への期待を反映する神経活動（図1C）に分け&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。また、これらの報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介し、これらの神経活動がどのようにかかわるかについて述べる。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる（図1A、B）&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図1C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、線条体で手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が報告されている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような運動準備情報を含む神経信号は、上流で表現されている行動の価値に応じた行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。様々な価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって起こるドーパミンの放出は投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が神経可塑性を介して、脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[パブロフ型条件づけ]]&lt;br /&gt;
*[[道具的条件づけ]]&lt;br /&gt;
*[[強化学習]]&lt;br /&gt;
*[[報酬系]]&lt;br /&gt;
*[[ドーパミンニューロン]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38016</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38016"/>
		<updated>2018-02-02T10:38:52Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題における報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンが、嗜好性の高い報酬と低い報酬が予測される場合にみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激や報酬をもたらす行動の価値を反映する神経活動（図1A、B）と動物の報酬への期待を反映する神経活動（図1C）に分け&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。また、これらの報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介し、これらの神経活動がどのようにかかわるかについて述べる。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる（図1A、B）&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図1C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt;&amp;lt;ref name=shultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、線条体で手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が報告されている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような運動準備情報を含む神経信号は、上流で表現されている行動の価値に応じた行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。様々な価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって起こるドーパミンの放出は投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が神経可塑性を介して、脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38015</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38015"/>
		<updated>2018-02-02T10:37:35Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題における報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンが、嗜好性の高い報酬と低い報酬が予測される場合にみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激や報酬をもたらす行動の価値を反映する神経活動（図1A、B）と動物の報酬への期待を反映する神経活動（図1C）に分け&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。また、これらの報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介し、これらの神経活動がどのようにかかわるかについて述べる。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる（図1A、B）&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name name=lauwereyns2002&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図1C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006 /&amp;gt;&amp;lt;ref name=shultz2015 /&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、線条体で手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が報告されている&amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような運動準備情報を含む神経信号は、上流で表現されている行動の価値に応じた行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。様々な価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって起こるドーパミンの放出は投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して、脳における価値表現を調節していることを示唆している。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38014</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38014"/>
		<updated>2018-02-02T10:28:16Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|400px|&#039;&#039;&#039;図1．遅延反応課題における報酬予測にかかわる神経活動のイメージ&#039;&#039;&#039;（A）報酬を予測する刺激の価値を反映したニューロンの活動。（B）報酬をもたらす行動の価値を反映したニューロンの活動。（C）報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンが、嗜好性の高い報酬と低い報酬が予測される場合にみせる反応。]]&lt;br /&gt;
&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激や報酬をもたらす行動の価値を反映する神経活動（図1A、B）と動物の報酬への期待を反映する神経活動（図1C）に分け&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2015 /&amp;gt;、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。また、これらの報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介し、これらの神経活動がどのようにかかわるかについて述べる。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる（図1A、B）&amp;lt;ref name=schultz2015&amp;gt;&amp;lt;pubmed&amp;gt; 26109341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;（図1C）&amp;lt;ref name=schultz2015 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬予測関連活動の関係性===&lt;br /&gt;
ドーパミンニューロンの活動は、動物の脳における刺激や行動の価値表現を調節する学習信号として働いている可能性がある&amp;lt;ref name=shultz1997&amp;gt;。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、ドーパミンニューロンの活動によって起こるドーパミンの放出は投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して、脳における価値表現を調節することを示唆している。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している&amp;lt;ref name=tsutsui /&amp;gt;。様々な価値を表現した神経活動が、実際に報酬期待の神経活動を調節しているかどうかは今後の研究が俟たれる。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い&amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;ref name=shultz2015&amp;gt;。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、線条体で手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が報告されている&amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;&amp;lt;ref name=lauwereyns2002 /&amp;gt;。このような運動準備情報を含む神経信号は、上流で表現されている行動の価値に応じた行動を遂行することを可能にしていると考えられる&amp;lt;ref name=hikosaka2006 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig1.jpg&amp;diff=38013</id>
		<title>ファイル:RP fig1.jpg</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig1.jpg&amp;diff=38013"/>
		<updated>2018-02-02T08:23:48Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: Hiroyukinakahara 「ファイル:RP fig1.jpg」の新しい版をアップロードしました&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig1.jpg&amp;diff=38012</id>
		<title>ファイル:RP fig1.jpg</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig1.jpg&amp;diff=38012"/>
		<updated>2018-02-02T08:05:37Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: Hiroyukinakahara 「ファイル:RP fig1.jpg」の新しい版をアップロードしました&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38011</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38011"/>
		<updated>2018-02-02T08:00:20Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激や報酬をもたらす行動の価値を反映する神経活動と、動物の報酬への期待を反映する神経活動に分け、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。また、これらの報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介し、これらの神経活動がどのようにかかわるかについて述べる。&lt;br /&gt;
[[ファイル:RP_fig1.jpg|thumb|650px|&#039;&#039;&#039;図2．マウス嗅球&#039;&#039;&#039;　全ての嗅神経細胞でGFPを発現するOMP-GFPノックインマウスのホールマウント共焦点画像。背側から見たもの。嗅上皮（上）の嗅神経細胞軸索が嗅球（下）に投射する。上が吻側で下が尾側。スケールバーは500μm。]]&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ・ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬予測関連活動の関係性===&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008&amp;gt;&amp;lt;pubmed&amp;gt; 18066060 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig1.jpg&amp;diff=38010</id>
		<title>ファイル:RP fig1.jpg</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:RP_fig1.jpg&amp;diff=38010"/>
		<updated>2018-02-02T07:56:07Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38009</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38009"/>
		<updated>2018-02-02T07:55:25Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ Hiroyuki Nakahara&#039;&#039;&#039;&amp;lt;br&amp;gt;Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology&amp;lt;br&amp;gt;&#039;&#039;Wiley&#039;&#039;: 2017&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激や報酬をもたらす行動の価値を反映する神経活動と、動物の報酬への期待を反映する神経活動に分け、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。また、これらの報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介し、これらの神経活動がどのようにかかわるかについて述べる。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ・ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬予測関連活動の関係性===&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008&amp;gt;&amp;lt;pubmed&amp;gt; 18066060 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38008</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38008"/>
		<updated>2018-02-02T07:39:43Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ・ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激や報酬をもたらす行動の価値を反映する神経活動と、動物の報酬への期待を反映する神経活動に分け、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。また、これらの報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介し、これらの神経活動がどのようにかかわるかについて述べる。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ・ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬予測関連活動の関係性===&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008&amp;gt;&amp;lt;pubmed&amp;gt; 18066060 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38007</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38007"/>
		<updated>2018-02-02T05:26:13Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ＝ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ＝ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激や報酬をもたらす行動の価値を反映する神経活動と、動物の報酬への期待を反映する神経活動に分け、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。また、これらの報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介し、これらの神経活動がどのようにかかわるかについて述べる。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ＝ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
　近年、[[ドーパミンニューロン]]のphasic活動が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===報酬予測関連活動の関係性===&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008&amp;gt;&amp;lt;pubmed&amp;gt; 18066060 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38006</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38006"/>
		<updated>2018-02-02T04:38:47Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ＝ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ＝ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、その活動がみられる領域を簡単に列挙する。そして、報酬期待の神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体 &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=cromwell2003&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 12611937 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref name=cromwell2003 /&amp;gt;&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、ヒトfMRI実験でも動物と同様、線条体、島皮質などで報酬予測の神経活動が報告されており、特に前頭眼窩皮質を含む内側前頭前皮質が様々な形の報酬の価値を統一的に表現していることが提案されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は報酬系をはじめとする幅広い脳領域にみられる。より詳細な脳領野間の機能分化の理解は、今後の重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化&amp;lt;ref name=hikosaka2006 /&amp;gt;、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19153577 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Philippe Domenech, Etienne Koechlin&#039;&#039;&#039;&amp;lt;br&amp;gt;Executive control and decision-making in the prefrontal cortex.&amp;lt;br&amp;gt;&#039;&#039;Curr. Opin. Behav. Sci.&#039;&#039;: 2015, (1);101-106&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ＝ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
近年、[[ドーパミンニューロン]]の一過性の活動（phasic activity）が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38005</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=38005"/>
		<updated>2018-02-01T03:34:03Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ＝ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ＝ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、その活動がみられる領域を簡単に列挙する。そして、報酬期待の神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt;&amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; 、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref name=hassani2001 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、ヒトfMRI実験でも動物と同様、線条体、島皮質などで報酬予測の神経活動が報告されており、特に前頭眼窩皮質を含む内側前頭前皮質が様々な形の報酬の価値を統一的に表現していることが提案されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999 /&amp;gt; &amp;lt;ref name=schoenbaum1998 /&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は報酬系をはじめとする幅広い脳領域にみられる。より詳細な脳領野間の機能分化の理解は、今後の重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化&amp;lt;ref name=hikosaka2006 /&amp;gt;、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19153577 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Philippe Domenech, Etienne Koechlin&#039;&#039;&#039;&amp;lt;br&amp;gt;Executive control and decision-making in the prefrontal cortex.&amp;lt;br&amp;gt;&#039;&#039;Curr. Opin. Behav. Sci.&#039;&#039;: 2015, (1);101-106&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ＝ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
近年、[[ドーパミンニューロン]]の一過性の活動（phasic activity）が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=37979</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=37979"/>
		<updated>2018-01-31T15:04:35Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ＝ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ＝ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、その活動がみられる領域を簡単に列挙する。そして、報酬期待の神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; 、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、ヒトfMRI実験でも動物と同様、線条体、島皮質などで報酬予測の神経活動が報告されており、特に前頭眼窩皮質を含む内側前頭前皮質が様々な形の報酬の価値を統一的に表現していることが提案されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=samejima2005&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999/&amp;gt; &amp;lt;ref name=schoenbaum1998&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている&amp;lt;ref name=samejima2005 /&amp;gt;。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は報酬系をはじめとする幅広い脳領域にみられる。より詳細な脳領野間の機能分化の理解は、今後の重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化&amp;lt;ref name=hikosaka2006 /&amp;gt;、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19153577 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Philippe Domenech, Etienne Koechlin&#039;&#039;&#039;&amp;lt;br&amp;gt;Executive control and decision-making in the prefrontal cortex.&amp;lt;br&amp;gt;&#039;&#039;Curr. Opin. Behav. Sci.&#039;&#039;: 2015, (1);101-106&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ＝ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
近年、[[ドーパミンニューロン]]の一過性の活動（phasic activity）が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=37978</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=37978"/>
		<updated>2018-01-31T15:01:50Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ＝ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ＝ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、その活動がみられる領域を簡単に列挙する。そして、報酬期待の神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; 、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、ヒトfMRI実験でも動物と同様、線条体、島皮質などで報酬予測の神経活動が報告されており、特に前頭眼窩皮質を含む内側前頭前皮質が様々な形の報酬の価値を統一的に表現していることが提案されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=samejima2005&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999/&amp;gt; &amp;lt;ref name=schoenbaum1998&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている&amp;lt;ref name=samejima2005 /&amp;gt;。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は報酬系をはじめとする幅広い脳領域にみられる。より詳細な脳領野間の機能分化の理解は、今後の重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化&amp;lt;ref name=hikosaka2006 /&amp;gt;、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19153577 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Philippe Domenech, Etienne Koechlin&#039;&#039;&#039;&amp;lt;br&amp;gt;Executive control and decision-making in the prefrontal cortex.&amp;lt;br&amp;gt;&#039;&#039;Curr. Opin. Behav. Sci.&#039;&#039;: 2015, (1);101-106&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ＝ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
近年、[[ドーパミンニューロン]]の一過性の活動（phasic activity）が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=37977</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=37977"/>
		<updated>2018-01-31T14:40:42Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ＝ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ＝ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、その活動がみられる領域を簡単に列挙する。そして、報酬期待の神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; 、扁桃体 &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、ヒトfMRI実験でも動物と同様、線条体、島皮質などで報酬予測の神経活動が報告されており、特に前頭眼窩皮質を含む内側前頭前皮質が様々な形の報酬の価値を統一的に表現していることが提案されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=samejima2005&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、扁桃体 &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、およびセロトニンニューロンを含む背側縫線核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18480289 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999/&amp;gt; &amp;lt;ref name=schoenbaum1998&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている&amp;lt;ref name=samejima2005 /&amp;gt;。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は報酬系をはじめとする幅広い脳領域にみられる。より詳細な脳領野間の機能分化の理解は、今後の重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化&amp;lt;ref name=hikosaka2006 /&amp;gt;、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19153577 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Philippe Domenech, Etienne Koechlin&#039;&#039;&#039;&amp;lt;br&amp;gt;Executive control and decision-making in the prefrontal cortex.&amp;lt;br&amp;gt;&#039;&#039;Curr. Opin. Behav. Sci.&#039;&#039;: 2015, (1);101-106&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ＝ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
近年、[[ドーパミンニューロン]]の一過性の活動（phasic activity）が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz1997 /&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
	<entry>
		<id>https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=37976</id>
		<title>報酬予測</title>
		<link rel="alternate" type="text/html" href="https://bsd.neuroinf.jp/w/index.php?title=%E5%A0%B1%E9%85%AC%E4%BA%88%E6%B8%AC&amp;diff=37976"/>
		<updated>2018-01-31T14:04:21Z</updated>

		<summary type="html">&lt;p&gt;Hiroyukinakahara: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;英：Reward prediction&lt;br /&gt;
&lt;br /&gt;
{{box|text=　報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる行動==&lt;br /&gt;
　報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動をみせる。&lt;br /&gt;
&lt;br /&gt;
　実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）や[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。&lt;br /&gt;
&lt;br /&gt;
===パブロフ型条件づけと報酬予測にもとづく反応===&lt;br /&gt;
　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）に唾液の分泌という反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。&lt;br /&gt;
&lt;br /&gt;
　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応（approach response）をみせる&amp;lt;ref name=bouton&amp;gt;&#039;&#039;&#039;Mark E Bouton&#039;&#039;&#039;&amp;lt;br&amp;gt;Learning and behavior: A contemporary synthesis Second Edition&amp;lt;br&amp;gt;&#039;&#039;Sinauer Associates&#039;&#039;: 2007&amp;lt;/ref&amp;gt;。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる&amp;lt;ref name=tsutsui&amp;gt;&#039;&#039;&#039;筒井健一郎、大山佳&#039;&#039;&#039;&amp;lt;br&amp;gt;報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
　このような報酬予測にもとづく反応はどのように学習されるのだろうか？ ここでは、パブロフ型条件づけの課題で実際にみられる動物の行動をよく説明する「レスコーラ＝ワグナーの学習則」と呼ばれる[[強化学習]]の学習則を紹介する&amp;lt;ref&amp;gt;&#039;&#039;&#039;Peter Dayan,‎ L. F. Abbott&#039;&#039;&#039;&amp;lt;br&amp;gt;Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems &amp;lt;br&amp;gt;&#039;&#039;The MIT Press&#039;&#039;: 2001&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　レスコーラ＝ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差（reward prediction error）」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する：&lt;br /&gt;
&lt;br /&gt;
&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;lt;i&amp;gt;新たな予期報酬　=　今までの予期報酬　+　学習係数　×　報酬予測誤差&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば（報酬が予想していたより多ければ）上方修正され、負であれば（報酬が予想していたより少なければ）下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。&lt;br /&gt;
&lt;br /&gt;
　これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている&amp;lt;ref name=bouton /&amp;gt;。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。&lt;br /&gt;
&lt;br /&gt;
===道具的条件づけと報酬予測にもとづく行動選択===&lt;br /&gt;
　動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。&lt;br /&gt;
&lt;br /&gt;
　なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない（free responding）課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。&lt;br /&gt;
&lt;br /&gt;
　道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題（delayed response task）がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。&lt;br /&gt;
&lt;br /&gt;
　このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。より多くの報酬をもたらす行動の頻度が増加するという現象は、遅延反応課題に限らず多くの課題で確認されている。動物がこのような学習をすることは、行動の結果得られる報酬が予測されていることを支持している。&lt;br /&gt;
&lt;br /&gt;
　さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる&amp;lt;ref&amp;gt;&#039;&#039;&#039;O L Tinklepaugh&#039;&#039;&#039;&amp;lt;br&amp;gt;An experimental study of representative factors in monkeys.&amp;lt;br&amp;gt;&#039;&#039;J. Comp. Psychol.&#039;&#039;: 1928, (8);197-236&amp;lt;/ref&amp;gt;。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している&amp;lt;ref name=watanabe1996&amp;gt;&amp;lt;pubmed&amp;gt; 8757133 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬（異なる種類のジュース）と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている&amp;lt;ref name=hassani2001&amp;gt;&amp;lt;pubmed&amp;gt; 11387394 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。&lt;br /&gt;
&lt;br /&gt;
==報酬予測にかかわる神経活動==&lt;br /&gt;
　ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、その活動がみられる領域を簡単に列挙する。そして、報酬期待の神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。&lt;br /&gt;
&lt;br /&gt;
===刺激や行動の価値の神経活動===&lt;br /&gt;
　報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値（value）」を生成し、それを調節することと言い換えられる&amp;lt;ref name=sakagami&amp;gt;&#039;&#039;&#039;坂上雅道&#039;&#039;&#039;&amp;lt;br&amp;gt;価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳&amp;lt;br&amp;gt;&#039;&#039;苧坂直行編、新曜社（東京）&#039;&#039;:2014&amp;lt;/ref&amp;gt;。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。&lt;br /&gt;
&lt;br /&gt;
　実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された際、そして行動の開始前後に上昇をみせるという特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる。&lt;br /&gt;
&lt;br /&gt;
　電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質&amp;lt;ref name=Padoa-Schioppa2006&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8734596 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;pubmed&amp;gt; 16633341 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=Tremblay1999&amp;gt;&amp;lt;pubmed&amp;gt; 10227292 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schoenbaum1998&amp;gt;&amp;lt;pubmed&amp;gt; 10195132 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2004&amp;gt;&amp;lt;pubmed&amp;gt; 15073380 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 6589643 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt; &amp;lt;ref name=hassani2001 /&amp;gt; 、扁桃体&amp;lt;ref name=schoenbaum1998/&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3193171 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16482160 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3794777&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003 /&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; &lt;br /&gt;
 14602819 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、ヒトfMRI実験でも動物と同様、線条体、島皮質などで報酬予測の神経活動が報告されており、特に前頭眼窩皮質を含む内側前頭前皮質が様々な形の報酬の価値を統一的に表現していることが提案されている。&lt;br /&gt;
&lt;br /&gt;
===報酬期待の神経活動===&lt;br /&gt;
　これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=hikosaka2006&amp;gt;&amp;lt;pubmed&amp;gt; 16424448  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;。このような神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ&amp;lt;ref name=tsutsui /&amp;gt; &amp;lt;ref name=schultz2006&amp;gt;&amp;lt;pubmed&amp;gt; 16318590 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 1464759 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 2723722 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=kawagoe1998 /&amp;gt; &amp;lt;ref name=samejima2005&amp;gt;&amp;lt;pubmed&amp;gt; 12140557 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt;&lt;br /&gt;
 16311337  &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18466754 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 8867118 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、淡蒼球&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 23177966 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、中脳ドーパミン領域（腹側被蓋野&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22258508 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;・黒質緻密部&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11896175 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;）、上丘&amp;lt;ref name=ikeda2003&amp;gt;&amp;lt;pubmed&amp;gt; 12925282 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、脚橋被蓋核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19369554 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、およびセロトニンニューロンを含む背側縫線核&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 18480289 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19710375 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;などで報酬期待の神経活動が見られる。&lt;br /&gt;
&lt;br /&gt;
　また、大脳皮質では、背外側前頭前皮質&amp;lt;ref name=watanabe1996 /&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 3971157 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10571234 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref name=rosech2003&amp;gt;&amp;lt;pubmed&amp;gt; 12801905 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、眼窩前頭前皮質 &amp;lt;ref name=Tremblay1999/&amp;gt; 、後頭頂皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 10421364 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 15205529 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、前帯状回皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 12040201 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、島皮質&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 16979828 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 22402653 &lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、運動前野&amp;lt;ref name=rosech2003 /&amp;gt; &amp;lt;ref name=rosech2004 /&amp;gt;などで報酬期待の神経活動が報告されている。&lt;br /&gt;
&lt;br /&gt;
　また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せるニューロンの報告がある&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=kawagoe1998&amp;gt;&amp;lt;pubmed&amp;gt; 10196532 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器（effector）をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている&amp;lt;ref name=samejima2005 /&amp;gt;。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている&amp;lt;ref name=Padoa-Schioppa2006 /&amp;gt; &amp;lt;ref name=Padoa-Schioppa2008 /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
　報酬期待の神経活動は報酬系をはじめとする幅広い脳領域にみられる。より詳細な脳領野間の機能分化の理解は、今後の重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化&amp;lt;ref name=hikosaka2006 /&amp;gt;、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 19153577 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&#039;&#039;&#039;Philippe Domenech, Etienne Koechlin&#039;&#039;&#039;&amp;lt;br&amp;gt;Executive control and decision-making in the prefrontal cortex.&amp;lt;br&amp;gt;&#039;&#039;Curr. Opin. Behav. Sci.&#039;&#039;: 2015, (1);101-106&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
===ドーパミンニューロンの活動と報酬予測誤差===&lt;br /&gt;
　報酬予測誤差にもとづくレスコーラ＝ワグナーの学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。このような学習の神経メカニズムとして、ドーパミンニューロンの活動が学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。&lt;br /&gt;
&lt;br /&gt;
近年、[[ドーパミンニューロン]]の一過性の活動（phasic activity）が、強化学習の学習則で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」&amp;lt;ref name=schultz1997&amp;gt;&amp;lt;pubmed&amp;gt; 9054347 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;が注目されている。&lt;br /&gt;
&lt;br /&gt;
　たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 7983508&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる &amp;lt;ref name=schultz1997 /&amp;gt;。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している&amp;lt;ref name=schultz2006 /&amp;gt;。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11452299 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 14741107 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 28390863 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。&lt;br /&gt;
&lt;br /&gt;
　ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先のニューロンのシナプス強度を調節する&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 11544526 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17367873 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 25258080&amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており&amp;lt;ref name=hikosaka2006 /&amp;gt; &amp;lt;ref name=schultz2006 /&amp;gt;、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17603481&lt;br /&gt;
 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。&lt;br /&gt;
&lt;br /&gt;
　近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており&amp;lt;ref name=oyama2010&amp;gt;&amp;lt;pubmed&amp;gt; 20739566 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている&amp;lt;ref&amp;gt;&amp;lt;pubmed&amp;gt; 17522629 &amp;lt;/pubmed&amp;gt;&amp;lt;/ref&amp;gt;。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている&amp;lt;ref name=tsutsui /&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
（執筆者：望月泰博、福田玄明、陳冲、中原裕之、担当編集委員：？？）&lt;/div&gt;</summary>
		<author><name>Hiroyukinakahara</name></author>
	</entry>
</feed>