「報酬予測」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
11行目: 11行目:
 パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応や行動がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。
 パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応や行動がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。


 さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。
 さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。


 動物はどのように報酬を予測できるようになるのだろうか? ここでは、一般に[[強化学習]]と呼ばれる学習則を紹介する。強化学習は、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている。
 動物はどのように報酬を予測できるようになるのだろうか? ここでは、一般に[[強化学習]]と呼ばれる学習則を紹介する。強化学習は、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている。
21行目: 21行目:
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方修正され、負であれば(報酬が予想していたより少なければ)下方修正される。このような学習は、心理学の分野で[[レスコーラ-ワグナーの学習則]]と呼ばれている。
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方修正され、負であれば(報酬が予想していたより少なければ)下方修正される。このような学習は、心理学の分野で[[レスコーラ-ワグナーの学習則]]と呼ばれている。


 報酬予測誤差にもとづく学習では、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。これらのことは、実際のパブロフ型条件づけの様々な行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれており<ref name=bouton />、強化学習の枠組みでは音と餌の連合学習が起こらないのことは、先に学習された光が餌を完全に予測するため、音に対する報酬予測誤差がゼロとなるためと解釈できる。
 報酬予測誤差にもとづく学習では、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。これらのことは、実際のパブロフ型条件づけの様々な行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれており<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>、強化学習の枠組みでは音と餌の連合学習が起こらないのことは、先に学習された光が餌を完全に予測するため、音に対する報酬予測誤差がゼロとなるためと解釈できる。


===道具的条件づけと報酬予測にもとづく行動選択===
===道具的条件づけと報酬予測にもとづく行動選択===
 動物は、報酬予測にもとづき適応的に行動を選択する。このような行動を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかにかかわりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題を行う際、動物は特的の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。なお、道具的条件づけを大別すると、動物がいつ・どのような行動を取るかに制限のない(free responding)課題と、あらかじめ試行ごとに取り得る行動の選択肢が決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。
 動物は、報酬予測にもとづき適応的に行動を選択する。このような行動を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかにかかわりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題を行う際、動物は特的の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。なお、道具的条件づけを大別すると、動物がいつ・どのような行動を取るかに制限のない(free responding)課題と、あらかじめ試行ごとに取り得る行動の選択肢が決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。


 道具的条件づけの課題のなかでも、報酬予測に関する行動を調べるためによく用いられる課題に、遅延選択課題(delayed response task)がある。例えば、サルに対して行われる典型的な遅延選択課題では、サルが各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。
 道具的条件づけの課題のなかでも、報酬予測に関する行動を調べるためによく用いられる課題に、遅延選択課題(Delayed response task)がある。例えば、サルに対して行われる典型的な遅延選択課題では、サルが各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。


 サルは、このような課題で手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。これは、より多くの報酬をもたらす行動の頻度が増加するという、ソーンダイク(E. Thorndike)によって「効果の法則(law of effect)」と名づけられた現象<ref name=bouton />の一例である。動物がより多くの報酬をもたらす行動を学習することは、行動の結果得られる報酬を予測していることを支持している。
 サルは、このような課題で手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。これは、より多くの報酬をもたらす行動の頻度が増加するという、ソーンダイク(E. Thorndike)によって「効果の法則(Law of effect)」と名づけられた現象<ref name=bouton />の一例である。動物がより多くの報酬をもたらす行動を学習することは、行動の結果得られる報酬を予測していることを支持している。


 さらに、遅延選択課題でサルの好物であるバナナを報酬として条件付けを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りを見せる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。これは、サルが学習の結果報酬としてバナナを期待するようになったことを支持している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。また、同様の実験パラダイムで、二種類の手がかり刺激がそれぞれ異なる報酬(異なる種類のジュース)と対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間とより高い正当率で回答することが報告されている<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。
 さらに、遅延選択課題でサルの好物であるバナナを報酬として条件付けを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りを見せる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。これは、サルが学習の結果報酬としてバナナを期待するようになったことを支持している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。また、同様の実験パラダイムで、二種類の手がかり刺激がそれぞれ異なる報酬(異なる種類のジュース)と対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間とより高い正当率で回答することが報告されている<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。
47行目: 47行目:
  </pubmed></ref>(Rolls et al., 2008)、運動前野<ref name=rosech2003 /><ref name=rosech2004 />などで報酬予期に関連した活動が報告されている。
  </pubmed></ref>(Rolls et al., 2008)、運動前野<ref name=rosech2003 /><ref name=rosech2004 />などで報酬予期に関連した活動が報告されている。


 このように、報酬予期にかかわる神経活動は報酬系をはじめとする幅広い脳領域にみられる。報酬予測に関連して異なる脳領域の機能がどのように分化しているかを理解するとことは重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化<ref name=hikosaka2006 />、前頭連合野では外側/内側・背側/腹側・吻側/尾側の機能分化が提案されている(Domenech & Koechlin, 2015; Mansouri, Tanaka, & Buckley, 2009)
 このように、報酬予期にかかわる神経活動は報酬系をはじめとする幅広い脳領域にみられる。それぞれの領域の活動のより詳細な脳領野間の機能分化の理解は重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化<ref name=hikosaka2006 />、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている(Domenech & Koechlin, 2015; Mansouri, Tanaka, & Buckley, 2009)。。


===ドーパミンニューロンの活動と報酬予測誤差===
===ドーパミンニューロンの活動と報酬予測誤差===
 近年、ドーパミンニューロンの活動が、強化学習の学習信号である報酬予測誤差を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref><pubmed> 9054347 </pubmed></ref>が注目されている。報酬予測誤差にもとづく学習則が、動物の報酬予測に関連した行動の変化をよく説明することは既に述べた。ドーパミンニューロンの活動は、動物の報酬予測にもとづく学習の学習信号として働いている可能性がある。
 近年、ドーパミンニューロンの活動が、強化学習の学習信号である報酬予測誤差を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref><pubmed> 9054347 </pubmed></ref>が注目されている。報酬予測誤差にもとづく学習則が、動物の報酬予測に関連した行動の変化をよく説明することは既に述べた。ドーパミンニューロンの活動は、動物の報酬予測にもとづく学習の学習信号として働いている可能性がある。


 たとえば、パブロフ型条件づけのパラダイムを用いた実験では、動物の学習に伴ってドーパミンニューロンの反応が変化することが報告されている(Waelti et al, 2001; Day et al, 2007; D’ardenne et al., 2008)。ドーパミンニューロンは、学習の初期には報酬の提示直後に活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する刺激(CS)の呈示直後に増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号に対応するような活動の変化をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref><ref><pubmed> 14741107 </pubmed></ref>、また近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。
 たとえば、パブロフ型条件づけのパラダイムを用いた実験では、動物の学習に伴ってドーパミンニューロンの反応が変化することが報告されている(Waelti et al, 2001; Day et al, 2007; D’ardenne et al., 2008)。ドーパミンニューロンは、学習の初期には報酬の提示直後に活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する刺激(CS)の呈示直後に増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号に対応するような活動の変化をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref><ref><pubmed> 14741107 </pubmed></ref>、また近年では[[オプトジェネティクス]]やマイクロスティミュレーション(micro-stimulation)法を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。


 ドーパミンニューロンは、前述の報酬予測に関連する活動が報告されている脳領野の多くに投射している<ref name=hikosaka2006 /><ref name=schultz2006 />。たとえば、線条体・側坐核・前頭葉内側部などは、ドーパミンニューロンの投射を密に受ける典型的な領域である。このことから、報酬予測に関連して活動する脳領域は、ドーパミンニューロンの活動を学習信号として調整されていると考えられている。
 ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先の神経細胞のシナプス強度を調節する<ref><pubmed> 12371508 </pubmed></ref><ref><pubmed> 17367873 </pubmed></ref>><ref><pubmed> 25258080</pubmed></ref>。実際、ドーパミンニューロンは、前述の報酬予期にかかわる活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /><ref name=schultz2006 />、このため報酬予測誤差を反映したドーパミンニューロンの活動が学習信号となって、報酬予期の神経活動が調節されていると考えらえている。
 
 このような活動の調整にはシナプス可塑性が重要な役割を果たす。実際、ドーパミンニューロンが活動することで起こるドーパミンの放出が、その投射先の神経細胞のシナプスの可塑性を修飾することが知られている(Calabresi, Picconi, Tozzi, & Di Filippo, 2007)河西ラボの論文」。このことから、ドーパミンニューロンの活動が報酬予測誤差の学習信号としてシナプス結合強度を調整することで、報酬に対する強化学習が起きていると考えられている(ref) 「「「Hn Wickensの論文」」」。


 近年では、前述の報酬予測に関連した活動が見られる線条体でも、報酬予測誤差を反映する神経活動が報告されている<ref name=oyama2010 />。また、手綱外側核では、ドーパミンニューロンとは逆に報酬の欠知や嫌悪刺激など負の報酬予測誤差に関連する活動が報告されている<ref><pubmed> 17522629 </pubmed></ref> 。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差が脳でどのように計算されるかという問題も今後の研究が待たれている<ref name=tsutsui />。
 近年では、前述の報酬予測に関連した活動が見られる線条体でも、報酬予測誤差を反映する神経活動が報告されている<ref name=oyama2010 />。また、手綱外側核では、ドーパミンニューロンとは逆に報酬の欠知や嫌悪刺激など負の報酬予測誤差に関連する活動が報告されている<ref><pubmed> 17522629 </pubmed></ref> 。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差が脳でどのように計算されるかという問題も今後の研究が待たれている<ref name=tsutsui />。
214

回編集