「報酬予測」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
37行目: 37行目:
[[ファイル:RP_fig1.jpg|thumb|400px|'''図1.遅延反応課題における報酬予測にかかわる神経活動のイメージ'''(A)報酬を予測する刺激の価値を反映したニューロンの活動。(B)報酬をもたらす行動の価値を反映したニューロンの活動。(C)報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンが、嗜好性の高い報酬と低い報酬が予測される場合にみせる反応。]]
[[ファイル:RP_fig1.jpg|thumb|400px|'''図1.遅延反応課題における報酬予測にかかわる神経活動のイメージ'''(A)報酬を予測する刺激の価値を反映したニューロンの活動。(B)報酬をもたらす行動の価値を反映したニューロンの活動。(C)報酬への期待を反映したニューロンの活動。黄色と青色は、同じニューロンが、嗜好性の高い報酬と低い報酬が予測される場合にみせる反応。]]


 報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激や報酬をもたらす行動の価値を反映する神経活動(図1A、B)と動物の報酬への期待を反映する神経活動(図1C)に分け<ref name=tsutsui /> <ref name=schultz2015 />、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。また、これらの報酬予測にかかわる神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介し、これらの神経活動がどのようにかかわるかについて述べる。
 報酬予測にかかわる神経活動は、一般に[[報酬系]]と呼ばれる脳領域群をはじめとして、多様な脳領域で見られる<ref name=tsutsui /> <ref name=schultz2006 /> <ref name=hikosaka2006 />。ここでは、報酬予測にかかわる神経活動を、報酬を予測する刺激の価値を反映した神経活動(図1A)、報酬をもたらす行動の価値を反映した神経活動(図1B)、動物の報酬への期待を反映する神経活動(図1C)に分類し<ref name=tsutsui /> <ref name=schultz2015 />、それぞれの神経活動の特徴とそのような活動がみられる領域を紹介する。そして、刺激や行動の価値を反映したニューロンの活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。


===刺激や行動の価値の神経活動===
===刺激や行動の価値の神経活動===
 報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値(value)」を生成し、それを調節することと言い換えられる<ref name=sakagami>'''坂上雅道'''<br>価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。
 報酬を予測することは、報酬を予測する刺激やより多くの報酬をもたらす特定の行動に「価値(value)」を生成し、それを調節することと言い換えられる<ref name=sakagami>'''坂上雅道'''<br>価値の生成とその神経機構、報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。たとえば、パブロフ型条件づけでは、動物にとって本来意味を持たなかった刺激が、刺激と報酬の連合が学習されることで未来の報酬を予測する価値の高い情報となる。また、道具的条件づけでは、動物にとって本来意味を持たなかった行動が、行動選択と報酬の連合が学習によってより多くの報酬をもたらす価値の高い行動となる。


 実際にこのような刺激や行動の価値を反映するようなニューロンの活動が、単一ニューロン活動を記録した実験で報告されている。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の大きさに応じた増大幅の活動増加をみせる(図1A、B)<ref name=schultz2015><pubmed> 26109341 </pubmed></ref>。
 このような刺激や行動の価値を反映するようなニューロンの活動は、多くの研究で報告されている <ref name=tsutsui /> <ref name=schultz2006 /> <ref name=hikosaka2006 />。特定の刺激や行動の価値を反映したニューロンの活動は、それぞれ刺激が呈示された直後、そして行動の開始前後に上昇する特徴を持つ。また、どちらの場合も予測される報酬の量や好ましさに応じた活動増加をみせる(図1A、B)<ref name=schultz2015><pubmed> 26109341 </pubmed></ref>。


 電気生理学的実験では、刺激の価値に関連した報酬予測の神経活動は、眼窩前頭皮質<ref name=Padoa-Schioppa2006><pubmed> 16633341 </pubmed></ref> <ref><pubmed> 8734596 </pubmed></ref> <ref name=Tremblay1999><pubmed> 10227292 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref>、線条体 <ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref> <ref name=hassani2001 /> <ref><pubmed>  
 刺激の価値を反映した報酬予測の神経活動は、眼窩前頭皮質<ref name=Padoa-Schioppa2006><pubmed> 16633341 </pubmed></ref> <ref><pubmed> 8734596 </pubmed></ref> <ref name=Tremblay1999><pubmed> 10227292 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref>、線条体 <ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref> <ref name=hassani2001 /> <ref><pubmed>  
  6589643 </pubmed></ref> <ref name=cromwell2003><pubmed>  
  6589643 </pubmed></ref> <ref name=cromwell2003><pubmed>  
  12611937 </pubmed></ref>、扁桃体 <ref><pubmed> 3193171 </pubmed></ref> <ref><pubmed> 16482160 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野・黒質緻密部<ref><pubmed> 3794777</pubmed></ref>)、上丘<ref name=ikeda2003 />などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体<ref name=hassani2001 /> <ref name=cromwell2003 /><ref><pubmed>
  12611937 </pubmed></ref>、扁桃体 <ref><pubmed> 3193171 </pubmed></ref> <ref><pubmed> 16482160 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野・黒質緻密部<ref><pubmed> 3794777</pubmed></ref>)、上丘<ref name=ikeda2003 />などで報告されている。また、行動の価値に関連した報酬予測の神経活動は、線条体<ref name=hassani2001 /> <ref name=cromwell2003 /><ref><pubmed>
51行目: 51行目:


===報酬期待の神経活動===
===報酬期待の神経活動===
 これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている<ref name=tsutsui /> <ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref> <ref name=schultz2006 />。このような神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得する、あるいは報酬獲得のための選択行動を行うまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=tsutsui /> <ref name=schultz2006><pubmed> 16318590 </pubmed></ref>(図1C)<ref name=schultz2015 />。
 これまでの多くの実験から、動物の報酬への期待を反映したような神経活動が報告されている<ref name=tsutsui /> <ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref> <ref name=schultz2006 />。このような神経活動は、報酬を予測する刺激(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=tsutsui /> <ref name=schultz2006><pubmed> 16318590 </pubmed></ref>(図1C)<ref name=schultz2015 />。


 報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref><pubmed> 1464759 </pubmed></ref> <ref name=hikosaka2006 /> <ref><pubmed> 2723722 </pubmed></ref> <ref name=kawagoe1998 /> <ref><pubmed> 8867118 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、扁桃体 <ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野<ref><pubmed> 22258508 </pubmed></ref>・黒質緻密部<ref><pubmed> 11896175 </pubmed></ref>)、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動が見られる。
 報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref><pubmed> 1464759 </pubmed></ref> <ref name=hikosaka2006 /> <ref><pubmed> 2723722 </pubmed></ref> <ref name=kawagoe1998 /> <ref><pubmed> 8867118 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、扁桃体 <ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野<ref><pubmed> 22258508 </pubmed></ref>・黒質緻密部<ref><pubmed> 11896175 </pubmed></ref>)、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動が見られる。また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /> <ref><pubmed> 3971157 </pubmed></ref> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質 <ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref> <ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 16979828 </pubmed></ref> <ref><pubmed> 22402653
</pubmed></ref>、運動前野<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。


 また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /> <ref><pubmed> 3971157 </pubmed></ref> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質 <ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref> <ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 16979828 </pubmed></ref> <ref><pubmed> 22402653
 これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い<ref name=hikosaka2006 /> <ref name=schultz2015 />。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が線条体で見つかっている<ref name=kawagoe1998 /> <ref name=lauwereyns2002 />。このような運動準備情報を含む報酬期待の神経信号は、上流で表現されている行動の価値に応じた適切な行動を遂行することを可能にしていると考えられている<ref name=hikosaka2006 />
</pubmed></ref>、運動前野<ref name=rosech2003 /> <ref name=rosech2004 />などで報酬期待の神経活動が報告されている。


 これらの報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い<ref name=hikosaka2006 /> <ref name=schultz2015 />。たとえば、サルの遅延反応課題中の神経活動を計測した実験では、線条体で手がかり刺激が視野の対側に呈示されるトライアルでより発火頻度を高める神経細胞が報告されている<ref name=kawagoe1998 /> <ref name=lauwereyns2002 />。このような運動準備情報を含む神経信号は、上流で表現されている行動の価値に応じた行動を遂行することを可能にしていると考えられる<ref name=hikosaka2006 />。
 さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している<ref name=tsutsui />。刺激や行動の価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。
 
 さらに、報酬期待の神経活動は、刺激や行動の価値を反映した神経活動より時間的に遅れて高まる。このことは、報酬期待を反映した持続的な活動が、刺激や行動の価値を反映した神経活動によって引き起こされていることを示唆している<ref name=tsutsui />。様々な価値を表現した神経活動が、どのように報酬期待の神経活動を調節しているかについては、今後の研究が俟たれる。


===ドーパミンニューロンの活動と報酬予測誤差===
===ドーパミンニューロンの活動と報酬予測誤差===
 近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref name=schultz1997><pubmed> 9054347 </pubmed></ref>が注目されている。
 近年、[[ドーパミンニューロン]]のphasic活動が、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref name=schultz1997><pubmed> 9054347 </pubmed></ref>が注目されている。


 たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている<ref><pubmed> 7983508</pubmed></ref> <ref name=schultz1997 />。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。
 ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、道具的条件づけの実験でサルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref><pubmed> 7983508</pubmed></ref> <ref name=schultz1997 />。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref>


 近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている<ref name=tsutsui />。
 近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>、また手綱外側核では、罰の予測に関連してドーパミンニューロンとは逆に負の報酬予測誤差を反映するニューロンが報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている<ref name=tsutsui />。


 また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /> <ref name=schultz2006 />、ドーパミンニューロンの活動によって起こるドーパミンの放出は投射先のニューロンのシナプス強度を調節する<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 17367873 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が神経可塑性を介して、脳における価値表現を調節していることを示唆している。
 また、ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /> <ref name=schultz2006 />、ドーパミンニューロンの活動によって、その投射先で起こるドーパミンの放出はニューロンのシナプス強度を調節する<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 17367873 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。これらのことは、報酬予測誤差を反映したドーパミン動物の活動が、神経可塑性を介して脳における価値表現を調節していることを示唆している。


== 関連項目 ==
== 関連項目 ==
214

回編集