「報酬予測」の版間の差分

ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
編集の要約なし
60行目: 60行目:
 これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006 /> <ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref> <ref><pubmed> 21185861 </pubmed></ref>。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ(図2C)。
 これまでの多くの実験から、動物の報酬への期待を反映するような神経活動が報告されている<ref name=tsutsui /> <ref name=schultz2015 /> <ref name=schultz2006 /> <ref name=hikosaka2006><pubmed> 16424448  </pubmed></ref> <ref><pubmed> 21185861 </pubmed></ref>。このような神経活動は、報酬を予測する刺激が呈示された後、報酬が獲得されるまでの間に持続的に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ(図2C)。


 報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref name=kawagoe1998 /> <ref><pubmed> 1464759 </pubmed></ref> <ref><pubmed> 2723722 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、扁桃体 <ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質 <ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 22402653  
 報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref name=kawagoe1998 /> <ref><pubmed> 1464759 </pubmed></ref> <ref><pubmed> 2723722 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、扁桃体 <ref name=schoenbaum1998><pubmed> 10195132 </pubmed></ref>、上丘<ref name=ikeda2003><pubmed> 12925282 </pubmed></ref>、脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>などで報酬期待の神経活動がみられる。また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質<ref name=Tremblay1999 /> <ref name=schoenbaum1998 />、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 22402653  
  </pubmed></ref>、運動前野<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。
  </pubmed></ref>、運動前野<ref name=rosech2004 /> <ref name=rosech2003 />などで報酬期待の神経活動が報告されている。


66行目: 66行目:


===ドーパミンニューロンの活動と報酬予測誤差===
===ドーパミンニューロンの活動と報酬予測誤差===
 これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説(the dopamine reward prediction error hypothesis))<ref name=schultz1997><pubmed> 9054347 </pubmed></ref> <ref><pubmed> 21389268 </pubmed></ref> <ref>'''Nathaniel D. Daw,‎ Philippe N. Tobler'''<br>Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning <br>In ''Neuroeconomics 2nd Edition'', Edited by Paul W Glimcher & Ernst Fehr, ''Academic Press'': 2014</ref>に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 /> <ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることも確認されている<ref><pubmed> 28390863 </pubmed></ref> 。
 これまで報酬予測に関連した学習の神経科学的研究は、ドーパミンニューロンのphasic活動が強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化しているとする「ドーパミン報酬予測誤差仮説(the dopamine reward prediction error hypothesis)」<ref name=schultz1997><pubmed> 9054347 </pubmed></ref> <ref><pubmed> 21389268 </pubmed></ref> <ref>'''Nathaniel D. Daw,‎ Philippe N. Tobler'''<br>Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning <br>In ''Neuroeconomics 2nd Edition'', Edited by Paul W Glimcher & Ernst Fehr, ''Academic Press'': 2014</ref>に牽引されてきた。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 /> <ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることも確認されている<ref><pubmed> 28390863 </pubmed></ref> 。


 報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=schultz2006 /> <ref name=hikosaka2006 />、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。
 報酬予測誤差を反映したドーパミン動物の活動は、神経可塑性を介して脳における価値表現を調節していると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=schultz2006 /> <ref name=hikosaka2006 />、ドーパミンニューロンの活動によってその投射先で起こるドーパミンの放出はシナプス強度を調節する<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。
214

回編集

案内メニュー