「報酬予測」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
1行目: 1行目:
英:Reward prediction
英:Reward prediction


{{box|text= 報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。食料・水などに代表される報酬は、正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。報酬予測は私たちが常日頃行うさまざまな意思決定を駆動しており、さらに、脳における学習メカニズムとも関わりが深い。ここでは、報酬予測にもとづく反応と行動、また報酬予測にもとづく適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}
{{box|text= 報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。食料・水などに代表される報酬は、正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、さらに、報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}}


==行動実験にみる報酬予測==
==行動実験にみる報酬予測==
 報酬の代表である食料・水・配偶者の存在は、動物の生存と生殖に不可欠であり、未来の報酬を予測し、それに合わせて反応・行動することは、種の存続に有利に働く。動物は、特定の情報から報酬の獲得が予測できる状況で、報酬を期待し、それにともなう様々な反応と行動をみせる。
 報酬の代表である食料・水・配偶者の存在は、動物の生存と生殖に不可欠であり、未来の報酬を予測しそれに合わせて反応・行動することは、種の存続に有利に働く。動物は、特定の情報から報酬の獲得が予測できる状況で、報酬を期待し、それにともなう様々な反応と行動をみせる。


 動物が実際に報酬を期待していることを示唆する反応と行動は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)や[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験にみられる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動を挙げる。
 動物が実際に報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)や[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験にみられる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。


===パブロフ型条件づけと報酬予測にもとづく反応と行動===
===パブロフ型条件づけと報酬予測にもとづく反応===
 パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応や行動がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。
 パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。


 さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。
 さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的な反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応(approach response)をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、報酬としてジュースが与えられる課題では、動物が報酬が与えられる前に飲み口を予期的に舐めることリッキング(licking)行動が知られている<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。


 動物はどのように報酬を予測できるようになるのだろうか? ここでは、一般に[[強化学習]]と呼ばれる学習則を紹介する<ref name>'''Richard S. Sutton,‎ Andrew G. Barto'''<br>Reinforcement Learning: An Introduction<br>''The MIT Press'': 1998</ref>。強化学習は、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている。
 動物はどのように報酬を予測するようになるのだろうか? ここでは、一般に[[強化学習]]と呼ばれる学習則を紹介する<ref name>'''Richard S. Sutton,‎ Andrew G. Barto'''<br>Reinforcement Learning: An Introduction<br>''The MIT Press'': 1998</ref>。この学習則は、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている。


 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する:
 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する:
21行目: 21行目:
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方修正され、負であれば(報酬が予想していたより少なければ)下方修正される。このような学習は、心理学の分野で[[レスコーラ-ワグナーの学習則]]と呼ばれている。
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方修正され、負であれば(報酬が予想していたより少なければ)下方修正される。このような学習は、心理学の分野で[[レスコーラ-ワグナーの学習則]]と呼ばれている。


 報酬予測誤差にもとづく学習では、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。これらのことは、実際のパブロフ型条件づけの様々な行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれており<ref name=bouton />、強化学習の枠組みでは音と餌の連合学習が起こらないのことは、先に学習された光が餌を完全に予測するため、音に対する報酬予測誤差がゼロとなるためと解釈できる。
 報酬予測誤差にもとづく学習では、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。これらのことは、実際のパブロフ型条件づけの様々な行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれており<ref name=bouton />、強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるためと解釈される。


===道具的条件づけと報酬予測にもとづく行動選択===
===道具的条件づけと報酬予測にもとづく行動選択===
 動物は、報酬予測にもとづき適応的に行動を選択する。このような行動を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかにかかわりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題を行う際、動物は特的の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。なお、道具的条件づけを大別すると、動物がいつ・どのような行動を取るかに制限のない(free responding)課題と、あらかじめ試行ごとに取り得る行動の選択肢が決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。
 動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかにかかわりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。動物は、道具的条件づけの実験課題を行う際、特的の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。なお、道具的条件づけを大別すると、動物がいつ・どのような行動を取るかに制限のない(free responding)課題と、試行ごとに取り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。


 道具的条件づけの課題のなかでも、報酬予測に関する行動を調べるためによく用いられる課題に、遅延選択課題(delayed response task)がある。例えば、サルに対して行われる典型的な遅延選択課題では、サルが各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。
 道具的条件づけの課題のなかでも、報酬予測に関する行動を調べるためによく用いられる課題に、遅延選択課題(delayed response task)がある。例えば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。


 サルは、このような課題で手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。これは、より多くの報酬をもたらす行動の頻度が増加するという、ソーンダイク(E. Thorndike)によって「効果の法則(law of effect)」と名づけられた現象<ref name=bouton />の一例である。動物がより多くの報酬をもたらす行動を学習することは、行動の結果得られる報酬を予測していることを支持している。
 サルは、このような課題で手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。これは、より多くの報酬をもたらす行動の頻度が増加するという、一般に「効果の法則(law of effect)」と呼ばれる現象<ref name=bouton />の一例である。動物がより多くの報酬をもたらす行動を学習することは、行動の結果得られる報酬が予測されていることを支持している。


 さらに、遅延選択課題でサルの好物であるバナナを報酬として条件付けを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りを見せる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。これは、サルが学習の結果報酬としてバナナを期待するようになったことを支持している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。また、同様の実験パラダイムで、二種類の手がかり刺激がそれぞれ異なる報酬(異なる種類のジュース)と対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間とより高い正当率で回答することが報告されている<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。
 さらに、遅延選択課題でサルの好物であるバナナを報酬として条件付けを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りを見せる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。これは、学習の結果サルが報酬としてバナナを期待するようになったことを支持している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬(例えば、異なる種類のジュース)と対応していることを学習したサルでは、嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間とより高い正当率で回答することが報告されている<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。


==報酬予測にかかわる神経活動==
==報酬予測にかかわる神経活動==
 ここでは、報酬予測にかかわる神経活動として、まず一般的に[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、関連領域を簡単に列挙する。そして、予期報酬を更新するための学習信号とみられるドーパミンニューロンの神経活動について述べる。
 ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、このような活動がみられる領域を簡単に列挙する。そして、予期報酬を更新するための学習信号と考えられているドーパミンニューロンの神経活動について述べる。


===報酬予期の神経活動===
===報酬予期の神経活動===
 これまでの多くの実験から、あたかも動物の報酬への期待を反映しているような神経活動が報告されている<ref name=tsutsui />。このような報酬予期にかかわる神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得する間に増大し、さらに予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=schultz2006><pubmed> 16318590 </pubmed></ref>。
 これまでの多くの実験から、あたかも動物の報酬への期待を反映してたような神経活動が報告されている<ref name=hikosaka2006 /><ref name=schultz2006 /><ref name=tsutsui />。このような報酬予期にかかわる神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得する間に増大し、さらに予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=schultz2006><pubmed> 16318590 </pubmed></ref>。


 また、報酬予期にかかわる神経活動は、実験条件に応じて知覚→認知→運動(行動)の各段階に応じた修飾を受けることが多い。たとえば、パブロフ型条件づけのように動物が特定の刺激から報酬を予測する場合、刺激の特性を反映した反応が見られることがある。顕著な例として、刺激が視覚空間上のどこに呈示されるかに依存して、予期された報酬量に対応した活動を見せる神経細胞の報告がある<ref name=kawagoe1998><pubmed>  
 また、報酬予期にかかわる神経活動は、実験条件に応じて知覚→認知→運動(行動)の各段階に応じた修飾を受けることが多い。たとえば、パブロフ型条件づけのように動物が特定の刺激から報酬を予測する場合、刺激の特性を反映した反応が見られることがある。顕著な例として、刺激が視覚空間上のどこに呈示されるかに依存して、予期された報酬量に対応した活動を見せる神経細胞の報告がある<ref name=kawagoe1998><pubmed>  
214

回編集