報酬予測

2018年1月26日 (金) 15:19時点におけるHiroyukinakahara (トーク | 投稿記録)による版

英:Reward prediction

 報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。食料・水などに代表される報酬は、正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。報酬予測は私たちが常日頃行うさまざまな意思決定を駆動しており、さらに、脳における学習メカニズムとも関わりが深い。ここでは、報酬予測にもとづく反応と行動、また報酬予測にもとづく適応的な行動選択、そしてこれらにかかわる神経活動について述べる。

行動実験にみる報酬予測

 報酬の代表である食料・水・配偶者の存在は、動物の生存と生殖に不可欠であり、未来の報酬を予測し、それに合わせて反応・行動することは、種の存続に有利に働く。動物は、特定の情報から報酬の獲得が予測できる状況で、報酬を期待し、それにともなう様々な反応と行動をみせる。

 動物が実際に報酬を期待していることを示唆する反応と行動は、パブロフ型条件づけ(pavlovian conditioning、または古典的条件づけ、classical conditioning)や道具的条件づけ(instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験にみられる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動を挙げる。

パブロフ型条件づけと報酬予測にもとづく反応と行動

 パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応や行動がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。

 さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる[1]。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。

 動物はどのように報酬を予測できるようになるのだろうか? ここでは、一般に強化学習と呼ばれる学習則を紹介する。強化学習は、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている。

 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する:

   新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差

上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方修正され、負であれば(報酬が予想していたより少なければ)下方修正される。このような学習は、心理学の分野でレスコーラ-ワグナーの学習則と呼ばれている。

 報酬予測誤差にもとづく学習では、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。これらのことは、実際のパブロフ型条件づけの様々な行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれており[2]、強化学習の枠組みでは音と餌の連合学習が起こらないのことは、先に学習された光が餌を完全に予測するため、音に対する報酬予測誤差がゼロとなるためと解釈できる。

道具的条件づけと報酬予測にもとづく行動選択

 動物は、報酬予測にもとづき適応的に行動を選択する。このような行動を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかにかかわりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題を行う際、動物は特的の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。なお、道具的条件づけを大別すると、動物がいつ・どのような行動を取るかに制限のない(free responding)課題と、あらかじめ試行ごとに取り得る行動の選択肢が決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。

 道具的条件づけの課題のなかでも、報酬予測に関する行動を調べるためによく用いられる課題に、遅延選択課題(Delayed response task)がある。例えば、サルに対して行われる典型的な遅延選択課題では、サルが各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。

 サルは、このような課題で手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。これは、より多くの報酬をもたらす行動の頻度が増加するという、ソーンダイク(E. Thorndike)によって「効果の法則(Law of effect)」と名づけられた現象[2]の一例である。動物がより多くの報酬をもたらす行動を学習することは、行動の結果得られる報酬を予測していることを支持している。

 さらに、遅延選択課題でサルの好物であるバナナを報酬として条件付けを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りを見せる[3]。これは、サルが学習の結果報酬としてバナナを期待するようになったことを支持している[4]。また、同様の実験パラダイムで、二種類の手がかり刺激がそれぞれ異なる報酬(異なる種類のジュース)と対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間とより高い正当率で回答することが報告されている[5]。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。

報酬予測にかかわる神経活動

 ここでは、報酬予測にかかわる神経活動として、まず一般的に報酬系と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、関連領域を簡単に列挙する。そして、予期報酬を更新するための学習信号とみられるドーパミンニューロンの神経活動について述べる。

報酬予期の神経活動

 これまでの多くの実験から、あたかも動物の報酬への期待を反映しているような神経活動が報告されている[6]。このような報酬予期にかかわる神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得する間に増大し、さらに予測された報酬の量や好ましさを反映するという特徴を持つ[7]

 また、報酬予期にかかわる神経活動は、実験条件に応じて知覚→認知→運動(行動)の各段階に応じた修飾を受けることが多い。たとえば、パブロフ型条件づけのように動物が特定の刺激から報酬を予測する場合、刺激の特性を反映した反応が見られることがある。顕著な例として、刺激が視覚空間上のどこに呈示されるかに依存して、予期された報酬量に対応した活動を見せる神経細胞の報告がある[8][9]。これは、知覚情報である報酬を予測する刺激の空間特性と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。同様に、道具的条件づけので動物が報酬予測にもとづき特定の行動を選択する場合にも、行動の空間的特性を反映した神経活動がみられることがある[10] [11]。これは行動器の運動やその準備と報酬への期待の両方が神経活動に影響を与える場合である。

 このような、報酬予期にかかわる神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体[12][13][9][8][14][15][5][16][17][18][19][20](Breiter, Aharon, Kahneman, Dale, & Shizgal, 2001; Ito & Doya, 2009; J. O'doherty et al., 2004; J. P. O'Doherty, Deichmann, Critchley, & Dolan, 2002;)、淡蒼球[21]、中脳ドーパミン領域(腹側被蓋野[22]・黒質緻密部[23])(Mirenowicz & Schultz, 1994; J. P. O'Doherty et al., 2002; Waelti, Dickinson, & Schultz, 2001)や扁桃体[24][25](Breiter et al., 2001; Gottfried, O'Doherty, & Dolan, 2003; Nishijo, Ono, & Nishino, 1988; J. P. O'Doherty et al., 2002; )、報酬の価値に関連した活動をみせる視床下部(Breiter et al., 2001)、運動出力に関連する上丘[26]と脚橋被蓋核[27]、およびセロトニンニューロンを含む背側縫線核[28][29]などで報酬予期にかかわる脳活動が見られる。

 また、大脳皮質領域では、前頭葉の中でも特に背外側前頭前皮質[4][30][31] [10]や眼窩前頭前皮質[32][33] [11](Gottfried et al., 2003; Padoa-Schioppa & Assad, 2006, 2008; )、後頭頂皮質[34][35]、前帯状回皮質[36]、島皮質[37][38](Rolls et al., 2008)、運動前野[10][11]などで報酬予期に関連した活動が報告されている。

ドーパミンニューロンの活動と報酬予測誤差

 近年、ドーパミンニューロンの活動が、強化学習の学習信号である報酬予測誤差を符号化しているとする「ドーパミン報酬予測誤差仮説」[39]が注目されている。報酬予測誤差にもとづく学習則が、動物の報酬予測に関連した行動の変化をよく説明することは既に述べた。ドーパミンニューロンの活動は、動物の報酬予測にもとづく学習の学習信号として働いている可能性がある。

 たとえば、パブロフ型条件づけのパラダイムを用いた実験では、動物の学習に伴ってドーパミンニューロンの反応が変化することが報告されている(Waelti et al, 2001; Day et al, 2007; D’ardenne et al., 2008)。ドーパミンニューロンは、学習の初期には報酬の提示直後に活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する刺激(CS)の呈示直後に増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動が低下する。これは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している。さらに、阻止効果の実験などでも、ドーパミンニューロンが強化学習の理論から予見される学習信号に対応するような活動の変化をみせることが報告されおり[40][41]、また近年ではオプトジェネティクスやマイクロスティミュレーション(micro-stimulation)法を用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている[42] 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。

 ドーパミンニューロンは、前述の報酬予測に関連する活動が報告されている脳領野の多くに投射している[9][43]。たとえば、線条体・側坐核・前頭葉内側部などは、ドーパミンニューロンの投射を密に受ける典型的な領域である。このことから、報酬予測に関連して活動する脳領域は、ドーパミンニューロンの活動を学習信号として調整されていると考えられている。

 このような活動の調整にはシナプス可塑性が重要な役割を果たす。実際、ドーパミンニューロンが活動することで起こるドーパミンの放出が、その投射先の神経細胞のシナプスの可塑性を修飾することが知られている(Calabresi, Picconi, Tozzi, & Di Filippo, 2007)河西ラボの論文」。このことから、ドーパミンニューロンの活動が報酬予測誤差の学習信号としてシナプス結合強度を調整することで、報酬に対する強化学習が起きていると考えられている(ref) 「「「Hn Wickensの論文」」」。

 近年では、前述の報酬予測に関連した活動が見られる線条体でも、報酬予測誤差を反映する神経活動が報告されている[1]。また、手綱外側核では、ドーパミンニューロンとは逆に報酬の欠知や嫌悪刺激など負の報酬予測誤差に関連する活動が報告されている[44] 。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差が脳でどのように計算されるかという問題も今後の研究が待たれている[6]


[コメント]  ventralとdorsal striatumを分ける

参考文献

  1. 1.0 1.1 Oyama, K., Hernádi, I., Iijima, T., & Tsutsui, K. (2010).
    Reward prediction error coding in dorsal striatal neurons. The Journal of neuroscience : the official journal of the Society for Neuroscience, 30(34), 11447-57. [PubMed:20739566] [PMC] [WorldCat] [DOI]
  2. 2.0 2.1 Mark E Bouton
    Learning and behavior: A contemporary synthesis Second Edition
    Sinauer Associates: 2007
  3. O L Tinklepaugh
    An experimental study of representative factors in monkeys.
    J. Comp. Psychol.: 1928, (8);197-236
  4. 4.0 4.1 Watanabe, M. (1996).
    Reward expectancy in primate prefrontal neurons. Nature, 382(6592), 629-32. [PubMed:8757133] [WorldCat] [DOI]
  5. 5.0 5.1 Hassani, O.K., Cromwell, H.C., & Schultz, W. (2001).
    Influence of expectation of different rewards on behavior-related neuronal activity in the striatum. Journal of neurophysiology, 85(6), 2477-89. [PubMed:11387394] [WorldCat] [DOI]
  6. 6.0 6.1 筒井健一郎、大山佳
    報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳
    苧坂直行編、新曜社(東京):2014
  7. Schultz, W. (2006).
    Behavioral theories and the neurophysiology of reward. Annual review of psychology, 57, 87-115. [PubMed:16318590] [WorldCat] [DOI]
  8. 8.0 8.1 Kawagoe, R., Takikawa, Y., & Hikosaka, O. (1998).
    Expectation of reward modulates cognitive signals in the basal ganglia. Nature neuroscience, 1(5), 411-6. [PubMed:10196532] [WorldCat] [DOI]
  9. 9.0 9.1 9.2 Hikosaka, O., Nakamura, K., & Nakahara, H. (2006).
    Basal ganglia orient eyes to reward. Journal of neurophysiology, 95(2), 567-84. [PubMed:16424448] [WorldCat] [DOI]
  10. 10.0 10.1 10.2 Roesch, M.R., & Olson, C.R. (2003).
    Impact of expected reward on neuronal activity in prefrontal cortex, frontal and supplementary eye fields and premotor cortex. Journal of neurophysiology, 90(3), 1766-89. [PubMed:12801905] [WorldCat] [DOI]
  11. 11.0 11.1 11.2 Roesch, M.R., & Olson, C.R. (2004).
    Neuronal activity related to reward value and motivation in primate frontal cortex. Science (New York, N.Y.), 304(5668), 307-10. [PubMed:15073380] [WorldCat] [DOI]
  12. Schultz, W., Apicella, P., Scarnati, E., & Ljungberg, T. (1992).
    Neuronal activity in monkey ventral striatum related to the expectation of reward. The Journal of neuroscience : the official journal of the Society for Neuroscience, 12(12), 4595-610. [PubMed:1464759] [WorldCat]
  13. Hollerman, J.R., Tremblay, L., & Schultz, W. (1998).
    Influence of reward expectation on behavior-related neuronal activity in primate striatum. Journal of neurophysiology, 80(2), 947-63. [PubMed:9705481] [WorldCat] [DOI]
  14. Cromwell, H.C., & Schultz, W. (2003).
    Effects of expectations for different reward magnitudes on neuronal activity in primate striatum. Journal of neurophysiology, 89(5), 2823-38. [PubMed:12611937] [WorldCat] [DOI]
  15. Lauwereyns, J., Watanabe, K., Coe, B., & Hikosaka, O. (2002).
    A neural correlate of response bias in monkey caudate nucleus. Nature, 418(6896), 413-7. [PubMed:12140557] [WorldCat] [DOI]
  16. Samejima, K., Ueda, Y., Doya, K., & Kimura, M. (2005).
    Representation of action-specific reward values in the striatum. Science (New York, N.Y.), 310(5752), 1337-40. [PubMed:16311337] [WorldCat] [DOI]
  17. Lau, B., & Glimcher, P.W. (2008).
    Value representations in the primate striatum during matching behavior. Neuron, 58(3), 451-63. [PubMed:18466754] [PMC] [WorldCat] [DOI]
  18. Bowman, E.M., Aigner, T.G., & Richmond, B.J. (1996).
    Neural signals in the monkey ventral striatum related to motivation for juice and cocaine rewards. Journal of neurophysiology, 75(3), 1061-73. [PubMed:8867118] [WorldCat] [DOI]
  19. Hikosaka, O., Sakamoto, M., & Usui, S. (1989).
    Functional properties of monkey caudate neurons. III. Activities related to expectation of target and reward. Journal of neurophysiology, 61(4), 814-32. [PubMed:2723722] [WorldCat] [DOI]
  20. Tremblay, L., Hollerman, J.R., & Schultz, W. (1998).
    Modifications of reward expectation-related neuronal activity during learning in primate striatum. Journal of neurophysiology, 80(2), 964-77. [PubMed:9705482] [WorldCat] [DOI]
  21. Tachibana, Y., & Hikosaka, O. (2012).
    The primate ventral pallidum encodes expected reward value and regulates motor action. Neuron, 76(4), 826-37. [PubMed:23177966] [PMC] [WorldCat] [DOI]
  22. Cohen, J.Y., Haesler, S., Vong, L., Lowell, B.B., & Uchida, N. (2012).
    Neuron-type-specific signals for reward and punishment in the ventral tegmental area. Nature, 482(7383), 85-8. [PubMed:22258508] [PMC] [WorldCat] [DOI]
  23. Sato, M., & Hikosaka, O. (2002).
    Role of primate substantia nigra pars reticulata in reward-oriented saccadic eye movement. The Journal of neuroscience : the official journal of the Society for Neuroscience, 22(6), 2363-73. [PubMed:11896175] [PMC] [WorldCat]
  24. Paton, J.J., Belova, M.A., Morrison, S.E., & Salzman, C.D. (2006).
    The primate amygdala represents the positive and negative value of visual stimuli during learning. Nature, 439(7078), 865-70. [PubMed:16482160] [PMC] [WorldCat] [DOI]
  25. Belova, M.A., Paton, J.J., Morrison, S.E., & Salzman, C.D. (2007).
    Expectation modulates neural responses to pleasant and aversive stimuli in primate amygdala. Neuron, 55(6), 970-84. [PubMed:17880899] [PMC] [WorldCat] [DOI]
  26. Ikeda, T., & Hikosaka, O. (2003).
    Reward-dependent gain and bias of visual responses in primate superior colliculus. Neuron, 39(4), 693-700. [PubMed:12925282] [WorldCat] [DOI]
  27. Okada, K., Toyama, K., Inoue, Y., Isa, T., & Kobayashi, Y. (2009).
    Different pedunculopontine tegmental neurons signal predicted and actual task rewards. The Journal of neuroscience : the official journal of the Society for Neuroscience, 29(15), 4858-70. [PubMed:19369554] [PMC] [WorldCat] [DOI]
  28. Nakamura, K., Matsumoto, M., & Hikosaka, O. (2008).
    Reward-dependent modulation of neuronal activity in the primate dorsal raphe nucleus. The Journal of neuroscience : the official journal of the Society for Neuroscience, 28(20), 5331-43. [PubMed:18480289] [PMC] [WorldCat] [DOI]
  29. Ranade, S.P., & Mainen, Z.F. (2009).
    Transient firing of dorsal raphe neurons encodes diverse and specific sensory, motor, and reward events. Journal of neurophysiology, 102(5), 3026-37. [PubMed:19710375] [WorldCat] [DOI]
  30. Inoue, M., Oomura, Y., Aou, S., Nishino, H., & Sikdar, S.K. (1985).
    Reward related neuronal activity in monkey dorsolateral prefrontal cortex during feeding behavior. Brain research, 326(2), 307-12. [PubMed:3971157] [WorldCat] [DOI]
  31. Leon, M.I., & Shadlen, M.N. (1999).
    Effect of expected reward magnitude on the response of neurons in the dorsolateral prefrontal cortex of the macaque. Neuron, 24(2), 415-25. [PubMed:10571234] [WorldCat] [DOI]
  32. Tremblay, L., & Schultz, W. (1999).
    Relative reward preference in primate orbitofrontal cortex. Nature, 398(6729), 704-8. [PubMed:10227292] [WorldCat] [DOI]
  33. Rolls, E.T., Critchley, H.D., Mason, R., & Wakeman, E.A. (1996).
    Orbitofrontal cortex neurons: role in olfactory and visual association learning. Journal of neurophysiology, 75(5), 1970-81. [PubMed:8734596] [WorldCat] [DOI]
  34. Platt, M.L., & Glimcher, P.W. (1999).
    Neural correlates of decision variables in parietal cortex. Nature, 400(6741), 233-8. [PubMed:10421364] [WorldCat] [DOI]
  35. Sugrue, L.P., Corrado, G.S., & Newsome, W.T. (2004).
    Matching behavior and the representation of value in the parietal cortex. Science (New York, N.Y.), 304(5678), 1782-7. [PubMed:15205529] [WorldCat] [DOI]
  36. Shidara, M., & Richmond, B.J. (2002).
    Anterior cingulate: single neuronal signals related to degree of reward expectancy. Science (New York, N.Y.), 296(5573), 1709-11. [PubMed:12040201] [WorldCat] [DOI]
  37. Asahi, T., Uwano, T., Eifuku, S., Tamura, R., Endo, S., Ono, T., & Nishijo, H. (2006).
    Neuronal responses to a delayed-response delayed-reward go/nogo task in the monkey posterior insular cortex. Neuroscience, 143(2), 627-39. [PubMed:16979828] [WorldCat] [DOI]
  38. Mizuhiki, T., Richmond, B.J., & Shidara, M. (2012).
    Encoding of reward expectation by monkey anterior insular neurons. Journal of neurophysiology, 107(11), 2996-3007. [PubMed:22402653] [PMC] [WorldCat] [DOI]
  39. Schultz, W., Dayan, P., & Montague, P.R. (1997).
    A neural substrate of prediction and reward. Science (New York, N.Y.), 275(5306), 1593-9. [PubMed:9054347] [WorldCat] [DOI]
  40. Waelti, P., Dickinson, A., & Schultz, W. (2001).
    Dopamine responses comply with basic assumptions of formal learning theory. Nature, 412(6842), 43-8. [PubMed:11452299] [WorldCat] [DOI]
  41. Nakahara, H., Itoh, H., Kawagoe, R., Takikawa, Y., & Hikosaka, O. (2004).
    Dopamine neurons can represent context-dependent prediction error. Neuron, 41(2), 269-80. [PubMed:14741107] [WorldCat] [DOI]
  42. Schultz, W., Stauffer, W.R., & Lak, A. (2017).
    The phasic dopamine signal maturing: from reward via behavioural activation to formal economic utility. Current opinion in neurobiology, 43, 139-148. [PubMed:28390863] [WorldCat] [DOI]
  43. 引用エラー: 無効な <ref> タグです。「schultz2006」という名前の注釈に対するテキストが指定されていません
  44. Matsumoto, M., & Hikosaka, O. (2007).
    Lateral habenula as a source of negative reward signals in dopamine neurons. Nature, 447(7148), 1111-5. [PubMed:17522629] [WorldCat] [DOI]

(執筆者:望月泰博、福田玄明、陳冲、中原裕之、担当編集委員:??)