「報酬予測」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
24行目: 24行目:


===道具的条件づけと報酬予測にもとづく行動選択===
===道具的条件づけと報酬予測にもとづく行動選択===
 動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかにかかわりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。動物は、道具的条件づけの実験課題を行う際、特的の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。なお、道具的条件づけを大別すると、動物がいつ・どのような行動を取るかに制限のない(free responding)課題と、試行ごとに取り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。
 動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかにかかわりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。動物は、道具的条件づけの実験課題を行う際、特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。なお、道具的条件づけを大別すると、動物がいつ・どのような行動を取るかに制限のない(free responding)課題と、試行ごとに取り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。


 道具的条件づけの課題のなかでも、報酬予測に関する行動を調べるためによく用いられる課題に、遅延選択課題(delayed response task)がある。例えば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。
 道具的条件づけの課題のなかでも、報酬予測に関する行動を調べるためによく用いられる課題に、遅延選択課題(delayed response task)がある。例えば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。
35行目: 35行目:
 ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、このような活動がみられる領域を簡単に列挙する。そして、報酬期待の神経活動を調整する学習信号と考えられているドーパミンニューロンを紹介する。
 ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、このような活動がみられる領域を簡単に列挙する。そして、報酬期待の神経活動を調整する学習信号と考えられているドーパミンニューロンを紹介する。


===報酬予期の神経活動===
===報酬期待の神経活動===
 これまでの多くの実験から、あたかも動物の報酬への期待を反映してたような神経活動が報告されている<ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref><ref name=schultz2006 /><ref name=tsutsui />。このような報酬予期にかかわる神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得する間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=schultz2006><pubmed> 16318590 </pubmed></ref>。
 これまでの多くの実験から、あたかも動物の報酬への期待を反映したような神経活動が報告されている<ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref><ref name=schultz2006 /><ref name=tsutsui />。このような報酬期待の神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得する間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=schultz2006><pubmed> 16318590 </pubmed></ref>。


 このような、報酬予期にかかわる神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref><pubmed> 1464759 </pubmed></ref><ref name=hollerman1998><pubmed> 9705481 </pubmed></ref><ref name=hikosaka2006 /><ref name=kawagoe1998 /><ref name=cromwell2003><pubmed> 12611937 </pubmed></ref><ref name=samejima2005><pubmed> 12140557 </pubmed></ref><ref name=hassani2001 /><ref><pubmed>
 報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref><pubmed> 1464759 </pubmed></ref><ref name=hollerman1998><pubmed> 9705481 </pubmed></ref><ref name=hikosaka2006 /><ref name=kawagoe1998 /><ref name=cromwell2003><pubmed> 12611937 </pubmed></ref><ref name=samejima2005><pubmed> 12140557 </pubmed></ref><ref name=hassani2001 /><ref><pubmed>
  16311337  </pubmed></ref><ref><pubmed> 18466754 </pubmed></ref><ref><pubmed> 8867118 </pubmed></ref><ref><pubmed> 2723722 </pubmed></ref><ref><pubmed> 9705482 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野<ref><pubmed> 22258508 </pubmed></ref>・黒質緻密部<ref><pubmed> 11896175 </pubmed></ref>)や扁桃体<ref><pubmed> 16482160 </pubmed></ref><ref><pubmed> 17880899 </pubmed></ref>、上丘<ref><pubmed> 12925282 </pubmed></ref>と脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>、およびセロトニンニューロンを含む背側縫線核<ref><pubmed> 18480289 </pubmed></ref><ref><pubmed> 19710375 </pubmed></ref>などで報酬予期にかかわる脳活動が見られる。
  16311337  </pubmed></ref><ref><pubmed> 18466754 </pubmed></ref><ref><pubmed> 8867118 </pubmed></ref><ref><pubmed> 2723722 </pubmed></ref><ref><pubmed> 9705482 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野<ref><pubmed> 22258508 </pubmed></ref>・黒質緻密部<ref><pubmed> 11896175 </pubmed></ref>)や扁桃体<ref><pubmed> 16482160 </pubmed></ref><ref><pubmed> 17880899 </pubmed></ref>、上丘<ref><pubmed> 12925282 </pubmed></ref>と脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>、およびセロトニンニューロンを含む背側縫線核<ref><pubmed> 18480289 </pubmed></ref><ref><pubmed> 19710375 </pubmed></ref>などで報酬期待の神経活動が見られる。


 また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /><ref><pubmed> 3971157 </pubmed></ref><ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質<ref><pubmed> 10227292 </pubmed></ref><ref><pubmed> 8734596 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref><ref name=Padoa-Schioppa2006><pubmed> 16633341 </pubmed></ref><ref name=Padoa-Schioppa2008><pubmed> 18066060 </pubmed></ref>、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref><ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 16979828 </pubmed></ref><ref><pubmed> 22402653  
 また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /><ref><pubmed> 3971157 </pubmed></ref><ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質<ref><pubmed> 10227292 </pubmed></ref><ref><pubmed> 8734596 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref><ref name=Padoa-Schioppa2006><pubmed> 16633341 </pubmed></ref><ref name=Padoa-Schioppa2008><pubmed> 18066060 </pubmed></ref>、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref><ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 16979828 </pubmed></ref><ref><pubmed> 22402653  
  </pubmed></ref>、運動前野<ref name=rosech2003 /><ref name=rosech2004 />などで報酬予期に関連した活動が報告されている。
  </pubmed></ref>、運動前野<ref name=rosech2003 /><ref name=rosech2004 />などで報酬期待に関連した活動が報告されている。


 これらの報酬予期にかかわる神経活動は、期待される報酬とともに報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。例えば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ、予期された報酬量を反映した活動を見せる神経細胞の報告がある<ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref><ref name=hikosaka2006 />。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器(effector)をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている<ref name=samejima2005 />。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知のみが反映された報酬期待の神経活動が報告されている<ref name=Padoa-Schioppa2006 /><ref name=Padoa-Schioppa2008 />。
 これらの報酬期待にかかわる神経活動は、期待される報酬とともに報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。例えば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ、予期された報酬量を反映した活動を見せる神経細胞の報告がある<ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref><ref name=hikosaka2006 />。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器(effector)をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている<ref name=samejima2005 />。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知のみが反映された報酬期待の神経活動が報告されている<ref name=Padoa-Schioppa2006 /><ref name=Padoa-Schioppa2008 />。


 報酬予期にかかわる神経活動は報酬系をはじめとする幅広い脳領域にみられる。より詳細な脳領野間の機能分化の理解は、今後の重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化<ref name=hikosaka2006 />、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている<ref><pubmed> 19153577 </pubmed></ref><ref>'''Philippe Domenech, Etienne Koechlin'''<br>Executive control and decision-making in the prefrontal cortex.<br>''Curr. Opin. Behav. Sci.'': 2015, (1);101-106</ref>。
 報酬期待の神経活動は報酬系をはじめとする幅広い脳領域にみられる。より詳細な脳領野間の機能分化の理解は、今後の重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化<ref name=hikosaka2006 />、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている<ref><pubmed> 19153577 </pubmed></ref><ref>'''Philippe Domenech, Etienne Koechlin'''<br>Executive control and decision-making in the prefrontal cortex.<br>''Curr. Opin. Behav. Sci.'': 2015, (1);101-106</ref>。


===ドーパミンニューロンの活動と報酬予測誤差===
===ドーパミンニューロンの活動と報酬予測誤差===
53行目: 53行目:
 たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている<ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる<ref><pubmed> 10195164 </pubmed></ref>。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref><ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。
 たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている<ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる<ref><pubmed> 10195164 </pubmed></ref>。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref><ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。


 ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先の神経細胞のシナプス強度を調節する<ref><pubmed> 12371508 </pubmed></ref><ref><pubmed> 17367873 </pubmed></ref><ref><pubmed> 25258080</pubmed></ref>。実際、ドーパミンニューロンは、前述の報酬予期にかかわる活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /><ref name=schultz2006 />、このため報酬予測誤差を反映したドーパミンニューロンの活動が学習信号となって、報酬予期の神経活動が調節されていると考えられている。
 ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先の神経細胞のシナプス強度を調節する<ref><pubmed> 12371508 </pubmed></ref><ref><pubmed> 17367873 </pubmed></ref><ref><pubmed> 25258080</pubmed></ref>。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /><ref name=schultz2006 />、このため報酬予測誤差を反映したドーパミンニューロンの活動が学習信号となって、報酬期待の神経活動が調節されていると考えられている。


 近年では、報酬予期に関連した活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されている<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>。また、手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映するような活動が報告されている<ref><pubmed> 17522629 </pubmed></ref> 。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているかという問題も今後の研究が待たれている<ref name=tsutsui />。
 近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されている<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>。また、手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映するような活動が報告されている<ref><pubmed> 17522629 </pubmed></ref> 。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているかという問題も今後の研究が待たれている<ref name=tsutsui />。


== 参考文献 ==
== 参考文献 ==
214

回編集