「報酬予測」の版間の差分

ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
編集の要約なし
11行目: 11行目:
 パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応や行動がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。
 パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応や行動がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。


 さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。
 さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。


 動物はどのように報酬を予測できるようになるのだろうか? ここでは、一般に[[強化学習]]と呼ばれる学習則を紹介する<ref name=bouton>'''Richard S. Sutton,‎ Andrew G. Barto'''<br>Reinforcement Learning: An Introduction<br>''The MIT Press'': 1998</ref>。強化学習は、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている。
 動物はどのように報酬を予測できるようになるのだろうか? ここでは、一般に[[強化学習]]と呼ばれる学習則を紹介する<ref name>'''Richard S. Sutton,‎ Andrew G. Barto'''<br>Reinforcement Learning: An Introduction<br>''The MIT Press'': 1998</ref>。強化学習は、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている。


 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する:
 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する:
36行目: 36行目:


===報酬予期の神経活動===
===報酬予期の神経活動===
 これまでの多くの実験から、あたかも動物の報酬への期待を反映しているような神経活動が報告されている<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。このような報酬予期にかかわる神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得する間に増大し、さらに予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=schultz2006><pubmed> 16318590 </pubmed></ref>。
 これまでの多くの実験から、あたかも動物の報酬への期待を反映しているような神経活動が報告されている<ref name=tsutsui />。このような報酬予期にかかわる神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得する間に増大し、さらに予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=schultz2006><pubmed> 16318590 </pubmed></ref>。


 また、報酬予期にかかわる神経活動は、実験条件に応じて知覚→認知→運動(行動)の各段階に応じた修飾を受けることが多い。たとえば、パブロフ型条件づけのように動物が特定の刺激から報酬を予測する場合、刺激の特性を反映した反応が見られることがある。顕著な例として、刺激が視覚空間上のどこに呈示されるかに依存して、予期された報酬量に対応した活動を見せる神経細胞の報告がある<ref name=kawagoe1998><pubmed>  
 また、報酬予期にかかわる神経活動は、実験条件に応じて知覚→認知→運動(行動)の各段階に応じた修飾を受けることが多い。たとえば、パブロフ型条件づけのように動物が特定の刺激から報酬を予測する場合、刺激の特性を反映した反応が見られることがある。顕著な例として、刺激が視覚空間上のどこに呈示されるかに依存して、予期された報酬量に対応した活動を見せる神経細胞の報告がある<ref name=kawagoe1998><pubmed>  
56行目: 56行目:
 ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先の神経細胞のシナプス強度を調節する<ref><pubmed> 12371508 </pubmed></ref><ref><pubmed> 17367873 </pubmed></ref><ref><pubmed> 25258080</pubmed></ref>。実際、ドーパミンニューロンは、前述の報酬予期にかかわる活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /><ref name=schultz2006 />、このため報酬予測誤差を反映したドーパミンニューロンの活動が学習信号となって、報酬予期の神経活動が調節されていると考えらえている。
 ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先の神経細胞のシナプス強度を調節する<ref><pubmed> 12371508 </pubmed></ref><ref><pubmed> 17367873 </pubmed></ref><ref><pubmed> 25258080</pubmed></ref>。実際、ドーパミンニューロンは、前述の報酬予期にかかわる活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /><ref name=schultz2006 />、このため報酬予測誤差を反映したドーパミンニューロンの活動が学習信号となって、報酬予期の神経活動が調節されていると考えらえている。


 近年では、前述の報酬予測に関連した活動が見られる線条体でも、報酬予測誤差を反映する神経活動が報告されている<ref name=oyama2010 />。また、手綱外側核では、ドーパミンニューロンとは逆に報酬の欠知や嫌悪刺激など負の報酬予測誤差に関連する活動が報告されている<ref><pubmed> 17522629 </pubmed></ref> 。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差が脳でどのように計算されるかという問題も今後の研究が待たれている<ref name=tsutsui />。
 近年では、前述の報酬予測に関連した活動が見られる線条体でも、報酬予測誤差を反映する神経活動が報告されている<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>。また、手綱外側核では、ドーパミンニューロンとは逆に報酬の欠知や嫌悪刺激など負の報酬予測誤差に関連する活動が報告されている<ref><pubmed> 17522629 </pubmed></ref> 。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差が脳でどのように計算されるかという問題も今後の研究が待たれている<ref name=tsutsui />。


== 参考文献 ==
== 参考文献 ==
214

回編集

案内メニュー