「報酬予測」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
44行目: 44行目:
  16311337  </pubmed></ref><ref><pubmed> 18466754 </pubmed></ref><ref><pubmed> 8867118 </pubmed></ref><ref><pubmed> 2723722 </pubmed></ref><ref><pubmed> 9705482 </pubmed></ref>(Breiter, Aharon, Kahneman, Dale, & Shizgal, 2001;  Ito & Doya, 2009; J. O'doherty et al., 2004; J. P. O'Doherty, Deichmann, Critchley, & Dolan, 2002;)、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野<ref><pubmed> 22258508 </pubmed></ref>・黒質緻密部<ref><pubmed> 11896175 </pubmed></ref>)(Mirenowicz & Schultz, 1994; J. P. O'Doherty et al., 2002; Waelti, Dickinson, & Schultz, 2001)や扁桃体<ref><pubmed> 16482160 </pubmed></ref><ref><pubmed> 17880899 </pubmed></ref>(Breiter et al., 2001; Gottfried, O'Doherty, & Dolan, 2003; Nishijo, Ono, & Nishino, 1988; J. P. O'Doherty et al., 2002; )、報酬の価値に関連した活動をみせる視床下部(Breiter et al., 2001)、運動出力に関連する上丘<ref><pubmed> 12925282 </pubmed></ref>と脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>、およびセロトニンニューロンを含む背側縫線核<ref><pubmed> 18480289 </pubmed></ref><ref><pubmed> 19710375 </pubmed></ref>などで報酬予期にかかわる脳活動が見られる。
  16311337  </pubmed></ref><ref><pubmed> 18466754 </pubmed></ref><ref><pubmed> 8867118 </pubmed></ref><ref><pubmed> 2723722 </pubmed></ref><ref><pubmed> 9705482 </pubmed></ref>(Breiter, Aharon, Kahneman, Dale, & Shizgal, 2001;  Ito & Doya, 2009; J. O'doherty et al., 2004; J. P. O'Doherty, Deichmann, Critchley, & Dolan, 2002;)、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野<ref><pubmed> 22258508 </pubmed></ref>・黒質緻密部<ref><pubmed> 11896175 </pubmed></ref>)(Mirenowicz & Schultz, 1994; J. P. O'Doherty et al., 2002; Waelti, Dickinson, & Schultz, 2001)や扁桃体<ref><pubmed> 16482160 </pubmed></ref><ref><pubmed> 17880899 </pubmed></ref>(Breiter et al., 2001; Gottfried, O'Doherty, & Dolan, 2003; Nishijo, Ono, & Nishino, 1988; J. P. O'Doherty et al., 2002; )、報酬の価値に関連した活動をみせる視床下部(Breiter et al., 2001)、運動出力に関連する上丘<ref><pubmed> 12925282 </pubmed></ref>と脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>、およびセロトニンニューロンを含む背側縫線核<ref><pubmed> 18480289 </pubmed></ref><ref><pubmed> 19710375 </pubmed></ref>などで報酬予期にかかわる脳活動が見られる。


 また、大脳皮質領域では、前頭葉の中でも特に背外側前頭前皮質<ref name=watanabe1996 /><ref><pubmed> 3971157 </pubmed></ref><ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003 />や眼窩前頭前皮質<ref><pubmed> 10227292 </pubmed></ref><ref><pubmed> 8734596 </pubmed></ref> <ref name=rosech2004 />(Gottfried et al., 2003; Padoa-Schioppa & Assad, 2006, 2008; )、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref><ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 16979828 </pubmed></ref><ref><pubmed> 22402653  
 また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /><ref><pubmed> 3971157 </pubmed></ref><ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003 />、眼窩前頭前皮質<ref><pubmed> 10227292 </pubmed></ref><ref><pubmed> 8734596 </pubmed></ref> <ref name=rosech2004 />(Gottfried et al., 2003; Padoa-Schioppa & Assad, 2006, 2008; )、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref><ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 16979828 </pubmed></ref><ref><pubmed> 22402653  
  </pubmed></ref>(Rolls et al., 2008)、運動前野<ref name=rosech2003 /><ref name=rosech2004 />などで報酬予期に関連した活動が報告されている。
  </pubmed></ref>(Rolls et al., 2008)、運動前野<ref name=rosech2003 /><ref name=rosech2004 />などで報酬予期に関連した活動が報告されている。


52行目: 52行目:
 近年、ドーパミンニューロンの活動が、強化学習の学習信号である報酬予測誤差を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref><pubmed> 9054347 </pubmed></ref>が注目されている。報酬予測誤差にもとづく学習則が、動物の報酬予測に関連した行動の変化をよく説明することは既に述べた。ドーパミンニューロンの活動は、動物の報酬予測にもとづく学習の学習信号として働いている可能性がある。
 近年、ドーパミンニューロンの活動が、強化学習の学習信号である報酬予測誤差を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref><pubmed> 9054347 </pubmed></ref>が注目されている。報酬予測誤差にもとづく学習則が、動物の報酬予測に関連した行動の変化をよく説明することは既に述べた。ドーパミンニューロンの活動は、動物の報酬予測にもとづく学習の学習信号として働いている可能性がある。


 たとえば、パブロフ型条件づけのパラダイムを用いた実験では、動物の学習に伴ってドーパミンニューロンの反応が変化することが報告されている(Waelti et al, 2001; Day et al, 2007; D’ardenne et al., 2008)。ドーパミンニューロンは、学習の初期には報酬の提示直後に活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する刺激(CS)の呈示直後に増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号を反映する活動の変化をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref><ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。
 たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている<ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する<ref><pubmed> 10195164 </pubmed></ref>。これは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号を反映する活動の変化をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref><ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。


 ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先の神経細胞のシナプス強度を調節する<ref><pubmed> 12371508 </pubmed></ref><ref><pubmed> 17367873 </pubmed></ref><ref><pubmed> 25258080</pubmed></ref>。実際、ドーパミンニューロンは、前述の報酬予期にかかわる活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /><ref name=schultz2006 />、このため報酬予測誤差を反映したドーパミンニューロンの活動が学習信号となって、報酬予期の神経活動が調節されていると考えらえている。
 ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先の神経細胞のシナプス強度を調節する<ref><pubmed> 12371508 </pubmed></ref><ref><pubmed> 17367873 </pubmed></ref><ref><pubmed> 25258080</pubmed></ref>。実際、ドーパミンニューロンは、前述の報酬予期にかかわる活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /><ref name=schultz2006 />、このため報酬予測誤差を反映したドーパミンニューロンの活動が学習信号となって、報酬予期の神経活動が調節されていると考えらえている。
214

回編集