214
回編集
Hiroyukinakahara (トーク | 投稿記録) 細編集の要約なし |
Hiroyukinakahara (トーク | 投稿記録) 細編集の要約なし |
||
62行目: | 62行目: | ||
ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説(the dopamine reward prediction error hypothesis)」と呼ばれている<ref name=schultz1997><pubmed> 9054347 </pubmed></ref> <ref><pubmed> 21389268 </pubmed></ref> <ref>'''Nathaniel D. Daw, Philippe N. Tobler'''<br>Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning <br>In ''Neuroeconomics 2nd Edition'', Edited by Paul W Glimcher & Ernst Fehr, ''Academic Press'': 2014</ref>。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 /> <ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている<ref><pubmed> 28390863 </pubmed></ref> 。 | ドーパミンニューロンのphasic活動は、強化学習で一般に報酬予測誤差と呼ばれる学習信号を符号化していると考えられており、これは「ドーパミン報酬予測誤差仮説(the dopamine reward prediction error hypothesis)」と呼ばれている<ref name=schultz1997><pubmed> 9054347 </pubmed></ref> <ref><pubmed> 21389268 </pubmed></ref> <ref>'''Nathaniel D. Daw, Philippe N. Tobler'''<br>Value Learning through Reinforcement: The Basics of Dopamine and Reinforcement Learning <br>In ''Neuroeconomics 2nd Edition'', Edited by Paul W Glimcher & Ernst Fehr, ''Academic Press'': 2014</ref>。ドーパミン報酬予測誤差仮説を支持する研究結果として、たとえば、サルのドーパミンニューロンの反応が学習に伴い変化することが知られている<ref name=schultz1997 /> <ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果に関する実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが確認されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、また[[オプトジェネティクス]]を用いてドーパミンニューロンの活動を人為的に操作すると報酬予測に関連した学習が阻害されることも報告されている<ref><pubmed> 28390863 </pubmed></ref> 。 | ||
報酬予測誤差を反映したドーパミンニューロンの活動は、神経可塑性を介して脳における価値表現を調節すると考えられている。ドーパミンニューロンは、前述の刺激や行動の価値を反映した神経活動が報告されている脳領域の多くに投射しており<ref name=schultz2006 /> <ref name=hikosaka2006 />、ドーパミンニューロンが活動することで放出されるドーパミンは投射先のシナプス強度を調節する<ref><pubmed> 11544526 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。 | |||
近年では、ドーパミンニューロンの他にも、線条体<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>や内側前頭前皮質<ref><pubmed> 17450137 </pubmed></ref>で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない<ref name=tsutsui/>。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう<ref name=tsutsui /> <ref name=cohen2012><pubmed> 22258508 </pubmed></ref> <ref name=nakamura2012><pubmed> 23136434 </pubmed></ref> <ref><pubmed> 23069349 </pubmed></ref> <ref><pubmed> 24463329 </pubmed></ref>。 | 近年では、ドーパミンニューロンの他にも、線条体<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>や内側前頭前皮質<ref><pubmed> 17450137 </pubmed></ref>で報酬予測誤差を反映した活動をみせる神経細胞が見つかっている。さらに、手綱外側核ではドーパミンニューロンとは逆に罰の予測に関連して負の報酬予測誤差を反映するニューロンの活動が報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する神経活動の調整にかかわっているものと考えられるが、その詳細はまだわかっていない<ref name=tsutsui/>。また、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の重要な研究の課題の一つといえるだろう<ref name=tsutsui /> <ref name=cohen2012><pubmed> 22258508 </pubmed></ref> <ref name=nakamura2012><pubmed> 23136434 </pubmed></ref> <ref><pubmed> 23069349 </pubmed></ref> <ref><pubmed> 24463329 </pubmed></ref>。 |
回編集