「報酬予測」の版間の差分

報酬予測 (ソースを閲覧)

2018年1月26日 (金) 15:18時点における版

58 バイト除去、 2018年1月26日 (金)

細

編集の要約なし

Hiroyukinakahara

214

回編集

@@ 11行目: / 11行目: @@
 　パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応や行動がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。
-　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる<ref><pubmed> 20739566 </pubmed></ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。
+　さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング（licking）行動がみられる<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。
 　動物はどのように報酬を予測できるようになるのだろうか？ ここでは、一般に[[強化学習]]と呼ばれる学習則を紹介する。強化学習は、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている。
@@ 36行目: / 36行目: @@
 ===報酬予期の神経活動===
-　これまでの多くの実験から、あたかも動物の報酬への期待を反映しているような神経活動が報告されている<ref>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳<br>''苧坂直行編、新曜社（東京）'':2014</ref>。このような報酬予期にかかわる神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する間に増大し、さらに予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=Schultz2006><pubmed> 16318590 </pubmed></ref>。
+　これまでの多くの実験から、あたかも動物の報酬への期待を反映しているような神経活動が報告されている<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第５巻・報酬を期待する脳<br>''苧坂直行編、新曜社（東京）'':2014</ref>。このような報酬予期にかかわる神経活動は、報酬を予測する情報（パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など）が呈示された後、実際に報酬を獲得する間に増大し、さらに予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=Schultz2006><pubmed> 16318590 </pubmed></ref>。
 　また、報酬予期にかかわる神経活動は、実験条件に応じて知覚→認知→運動(行動)の各段階に応じた修飾を受けることが多い。たとえば、パブロフ型条件づけのように動物が特定の刺激から報酬を予測する場合、刺激の特性を反映した反応が見られることがある。顕著な例として、刺激が視覚空間上のどこに呈示されるかに依存して、予期された報酬量に対応した活動を見せる神経細胞の報告がある<ref name=kawagoe1998><pubmed>
@@ 50行目: / 50行目: @@
 　近年、ドーパミンニューロンの活動が、強化学習の学習信号である報酬予測誤差を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref><pubmed> 9054347 </pubmed></ref>が注目されている。報酬予測誤差にもとづく学習則が、動物の報酬予測に関連した行動の変化をよく説明することは既に述べた。ドーパミンニューロンの活動は、動物の報酬予測にもとづく学習の学習信号として働いている可能性がある。
-　たとえば、パブロフ型条件づけのパラダイムを用いた実験では、動物の学習に伴ってドーパミンニューロンの反応が変化することが報告されている(Waelti et al, 2001; Day et al, 2007; D’ardenne et al., 2008)。ドーパミンニューロンは、学習の初期には報酬の提示直後に活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する刺激（CS）の呈示直後に増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号に対応するような活動の変化をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref><ref><pubmed> 14741107 </pubmed></ref>、また近年では[[オプトジェネティクス]]やマイクロスティミュレーション（micro-stimulation）法を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている(Wolfram Schultz, Stauffer, & Lak, 2017)。これらのこともまたドーパミン報酬予測誤差仮説を支持している。
+　たとえば、パブロフ型条件づけのパラダイムを用いた実験では、動物の学習に伴ってドーパミンニューロンの反応が変化することが報告されている(Waelti et al, 2001; Day et al, 2007; D’ardenne et al., 2008)。ドーパミンニューロンは、学習の初期には報酬の提示直後に活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する刺激（CS）の呈示直後に増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号に対応するような活動の変化をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref><ref><pubmed> 14741107 </pubmed></ref>、また近年では[[オプトジェネティクス]]やマイクロスティミュレーション（micro-stimulation）法を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </ref></pubmed> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。
-　ドーパミンニューロンは、前述の報酬予測に関連する活動が報告されている脳領野の多くに投射している(Hikosaka et al., 2006; Wolfram Schultz, 2006)。たとえば、線条体・側坐核・前頭葉内側部などは、ドーパミンニューロンの投射を密に受ける典型的な領域である。このことから、報酬予測に関連して活動する脳領域は、ドーパミンニューロンの活動を学習信号として調整されていると考えられている。
+　ドーパミンニューロンは、前述の報酬予測に関連する活動が報告されている脳領野の多くに投射している<ref name=hikosaka2006 /><ref name=schultz2006 />。たとえば、線条体・側坐核・前頭葉内側部などは、ドーパミンニューロンの投射を密に受ける典型的な領域である。このことから、報酬予測に関連して活動する脳領域は、ドーパミンニューロンの活動を学習信号として調整されていると考えられている。
 　このような活動の調整にはシナプス可塑性が重要な役割を果たす。実際、ドーパミンニューロンが活動することで起こるドーパミンの放出が、その投射先の神経細胞のシナプスの可塑性を修飾することが知られている(Calabresi, Picconi, Tozzi, & Di Filippo, 2007)河西ラボの論文」。このことから、ドーパミンニューロンの活動が報酬予測誤差の学習信号としてシナプス結合強度を調整することで、報酬に対する強化学習が起きていると考えられている(ref) 「「「Hn Wickensの論文」」」。
-　近年では、前述の報酬予測に関連した活動が見られる線条体でも、報酬予測誤差を反映する神経活動が報告されている(D'ardenne, McClure, Nystrom, & Cohen, 2008)（Oyama et al., 2010）。また、手綱外側核では、ドーパミンニューロンとは逆に報酬の欠知や嫌悪刺激など負の報酬予測誤差に関連する活動が報告されている(Bromberg-Martin, Matsumoto, Hong, & Hikosaka, 2010; Matsumoto & Hikosaka, 2007)。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差が脳でどのように計算されるかという問題も今後の研究が待たれている（筒井、大山）。
+　近年では、前述の報酬予測に関連した活動が見られる線条体でも、報酬予測誤差を反映する神経活動が報告されている<ref name=oyama2010 />。また、手綱外側核では、ドーパミンニューロンとは逆に報酬の欠知や嫌悪刺激など負の報酬予測誤差に関連する活動が報告されている<ref><pubmed> 17522629 </pubmed></ref> 。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差が脳でどのように計算されるかという問題も今後の研究が待たれている<ref name=tsutsui />。