「報酬予測」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
1行目: 1行目:
英:Reward prediction
英:Reward prediction


{{box|text= 報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待のそれぞれを反映した神経活動が報告されており、これら活動はドーパミンニューロンによって調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}
{{box|text= 報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るために報酬を予測し、それにもとづく反応や行動選択をみせる。動物の脳では、報酬を予測する刺激の価値・報酬をもたらす行動の価値・報酬への期待を反映した神経活動が報告されており、これらの活動はドーパミンニューロンの活動を学習信号として調整されると考えられている。ここでは、動物がみせる報酬予測にもとづく反応と行動選択、そして報酬予測にかかわる神経活動について述べる。}}


==報酬予測にかかわる行動==
==報酬予測にかかわる行動==
 報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、特定の情報から報酬の獲得が予測できる状況にあっては、動物は報酬を予測し、それにともなう様々な反応と行動選択をみせる。
 報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては報酬を予測し、それにともなう様々な反応と行動選択をみせる。


 実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)、[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)、また遅延反応課題(delayed response task)をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。
 実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)、[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)、また遅延反応課題(delayed response task)をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。


===パブロフ型条件づけにみられる反応===
===パブロフ型条件づけにみられる反応===
 パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus、US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus、CS)と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。
 パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus、US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus、CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。


 さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応(approach response)をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、''新曜社'': 2014</ref>。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。
 さらに、パブロフ型条件づけの実験では、動物が報酬を期待していることを示す自発的反応がみられる。たとえば、CSと報酬の獲得を学習した動物は、CSの提示に際してCSや報酬の提示場所へ近づく接近反応(approach response)をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、ジュースを報酬として与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、''新曜社'': 2014</ref>。これらの報酬獲得のための準備行動も、動物がCSにもとづき報酬を予測していることを支持している。


 パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、心理学でパブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル(Rescorla–Wagner model)」の強化学習的な解釈を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara'''<br>Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology<br>''Wiley'': 2017</ref>。
 パブロフ型条件づけをはじめとした実験にみられる報酬予測に関連した反応は、[[強化学習]]のモデルを用いて説明することができる。ここでは、心理学でパブロフ型条件づけにおける動物の反応の数理モデルとして提唱された「レスコーラ・ワグナー・モデル(Rescorla–Wagner model)」の強化学習的な解釈を紹介する<ref>'''Peter Dayan,‎ L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref> <ref>'''Peter Dayan,‎ Hiroyuki Nakahara'''<br>Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology<br>''Wiley'': 2017</ref>。
21行目: 21行目:
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方に、負であれば(報酬が予想していたより少なければ)下方に修正される。
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方に、負であれば(報酬が予想していたより少なければ)下方に修正される。


 レスコー・ラワグナー・モデルは、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれており<ref name=bouton />、レスコー・ラワグナー・モデルでは、音に対する学習は起こらないことは先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。
 レスコー・ラワグナー・モデルは、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれており<ref name=bouton />、レスコー・ラワグナー・モデルでは音に対する学習は起こらないことは、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。


===道具的条件づけと行動選択===
===道具的条件づけと行動選択===
31行目: 31行目:
 報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある(図1)。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激(cue stimulus)が点灯する。手がかり刺激が消えたあと、GO刺激(GO stimulus)が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。
 報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題がある(図1)。たとえば、サルが学習する典型的な遅延選択課題では、まず左右どちらかの手がかり刺激(cue stimulus)が点灯する。手がかり刺激が消えたあと、GO刺激(GO stimulus)が点灯すると、サルには左右どちらかのボタンを押すことが求められる。このとき、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースが与えられるが、逆側を押した場合には報酬が与えられない。


 サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。
 サルはこのような課題を繰り返すうちに、手がかり刺激に応じて左右のボタンを押して報酬を得ることを学習する。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、報酬をレタスに変更すると、サルは驚きと怒りをみせる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。これらのことは、道具的条件づけの場合と同様、サルが特定の行動の結果得られる報酬を予測していることを示している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。


 また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースに対応していることを学習した場合、嗜好性の高い報酬が得られる試行において、サルはより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。
 また、同様の実験パラダイムでサルが二種類の手がかり刺激がそれぞれ異なる種類のジュースを予測していることを学習した場合、サルは嗜好性の高い報酬が得られる試行においてより短い反応時間かつより高い正当率で行動選択を行い、予期的なリッキング行動の持続時間が長くなる<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのこともまた、学習の結果サルが行動の結果得られる報酬を予測していることを支持している。


==報酬予測にかかわる神経活動==
==報酬予測にかかわる神経活動==
49行目: 49行目:
  12611937 </pubmed></ref>、扁桃体<ref><pubmed> 3193171 </pubmed></ref> <ref><pubmed> 16482160 </pubmed></ref>、黒質緻密部<ref><pubmed> 3794777</pubmed></ref>、上丘<ref name=ikeda2003 />などで報告されている。
  12611937 </pubmed></ref>、扁桃体<ref><pubmed> 3193171 </pubmed></ref> <ref><pubmed> 16482160 </pubmed></ref>、黒質緻密部<ref><pubmed> 3794777</pubmed></ref>、上丘<ref name=ikeda2003 />などで報告されている。


 また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることでより多くの報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。
 また、道具的条件づけでは、本来意味を持たない行動が、行動と報酬の連合が学習されることで報酬をもたらす価値の高い行動となる。このような学習にともなう行動の価値の増加を反映するように、報酬をもたらす行動が遂行される前後で予想される報酬の好ましさに応じて活動を増大させるニューロンがみつかっている。


 このような行動の価値を反映した神経活動は、線条体<ref name=hassani2001 /> <ref name=cromwell2003 /> <ref><pubmed>
 このような行動の価値を反映した神経活動は、線条体<ref name=hassani2001 /> <ref name=cromwell2003 /> <ref><pubmed>
55行目: 55行目:
  14602819 </pubmed></ref> <ref><pubmed> 18466754 </pubmed></ref>、後頭頂皮質<ref><pubmed> 15205529 </pubmed></ref>などで報告されている。
  14602819 </pubmed></ref> <ref><pubmed> 18466754 </pubmed></ref>、後頭頂皮質<ref><pubmed> 15205529 </pubmed></ref>などで報告されている。


 また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い<ref name=schultz2015 /> <ref name=hikosaka2006 />。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている<ref name=kawagoe1998 /> <ref name=lauwereyns2002 />。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしていると考えられる<ref name=hikosaka2006 />。
 また、刺激や行動の価値を反映した神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報、あるいは報酬を獲得するための行動にかかわる情報が符号化されている場合が多い<ref name=schultz2015 /> <ref name=hikosaka2006 />。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示される試行で活動を高めるニューロンが線条体でみつかっている<ref name=kawagoe1998 /> <ref name=lauwereyns2002 />。このような報酬および報酬獲得のための行動関連情報を含む報酬期待の神経信号は、報酬獲得のために適切な行動を遂行することを可能にしているものと考えられる<ref name=hikosaka2006 />。


===報酬期待の神経活動===
===報酬期待の神経活動===
 これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006 /> <ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref> <ref><pubmed> 21185861 </pubmed></ref>。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ(図2C)。
 これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006 /> <ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref> <ref><pubmed> 21185861 </pubmed></ref>。報酬期待の神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ(図2C)。


 報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref name=kawagoe1998 /> <ref><pubmed> 1464759 </pubmed></ref> <ref><pubmed> 2723722 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、扁桃体<ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質<ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 22402653  
 報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref name=kawagoe1998 /> <ref><pubmed> 1464759 </pubmed></ref> <ref><pubmed> 2723722 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、扁桃体<ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質<ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 22402653  
  </pubmed></ref>、運動前野<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。
  </pubmed></ref>、運動前野<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。
 報酬期待の神経活動が動物の学習にともなって調節されるメカニズムは、詳細に理解されていない。報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まることから(図2)、報酬期待の持続的な神経活動が価値に関連した神経活動によって引き起こされるメカニズムがあることが予想されるが<ref name=tsutsui />、その詳細は理解されていない。


===ドーパミンニューロンの活動と報酬予測誤差===
===ドーパミンニューロンの活動と報酬予測誤差===
 これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説(the dopamine reward prediction error hypothesis)」<ref name=schultz1997><pubmed> 9054347 </pubmed></ref> <ref><pubmed> 21389268 </pubmed></ref> <ref>'''Nathaniel D. Daw,‎ Philippe N. Tobler'''<br>Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning <br>In ''Neuroeconomics 2nd Edition'', Edited by Paul W Glimcher & Ernst Fehr, ''Academic Press'': 2014</ref>に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 /> <ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることも確認されている<ref><pubmed> 28390863 </pubmed></ref> 。
 これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説(the dopamine reward prediction error hypothesis)」<ref name=schultz1997><pubmed> 9054347 </pubmed></ref> <ref><pubmed> 21389268 </pubmed></ref> <ref>'''Nathaniel D. Daw,‎ Philippe N. Tobler'''<br>Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning <br>In ''Neuroeconomics 2nd Edition'', Edited by Paul W Glimcher & Ernst Fehr, ''Academic Press'': 2014</ref>に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 /> <ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも確認されている<ref><pubmed> 28390863 </pubmed></ref> 。


 報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=schultz2006 /> <ref name=hikosaka2006 />、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。
 報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=schultz2006 /> <ref name=hikosaka2006 />、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。


 近年では、ドーパミンニューロンの他にも、線条体<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>や内側前頭前皮質<ref><pubmed> 17450137 </pubmed></ref>で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう<ref name=tsutsui /> <ref name=cohen2012><pubmed> 22258508 </pubmed></ref> <ref name=nakamura2012><pubmed> 23136434 </pubmed></ref> <ref><pubmed> 23069349 </pubmed></ref> <ref><pubmed> 24463329 </pubmed></ref>。
 近年では、ドーパミンニューロンの他にも、線条体<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>や内側前頭前皮質<ref><pubmed> 17450137 </pubmed></ref>で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンが報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているものと考えられるが、その詳細はまだわかっていない。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう<ref name=tsutsui /> <ref name=cohen2012><pubmed> 22258508 </pubmed></ref> <ref name=nakamura2012><pubmed> 23136434 </pubmed></ref> <ref><pubmed> 23069349 </pubmed></ref> <ref><pubmed> 24463329 </pubmed></ref>。


== 関連項目 ==
== 関連項目 ==
214

回編集