報酬予測のソースを表示
←
報酬予測
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
英:Reward prediction {{box|text= 報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。ここで「報酬」とは、食料・水などに代表される正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。私たちが常日頃行うさまざまな意思決定は報酬予測に駆動されており、また近年では報酬予測と脳における学習メカニズムが深くかかわることが提案されている。ここでは、動物がみせる報酬予測にもとづく反応、また報酬予測にもとづいた適応的な行動選択、そしてこれらにかかわる神経活動について述べる。}} ==行動実験にみる報酬予測== 報酬の代表である食料・水は、動物の生存に不可欠であり、より多くの報酬を得るために反応・行動することは、種の存続に有利に働く。そのため、動物は特定の情報から報酬の獲得が予測できる状況にあっては、報酬を予測し、それにともなう様々な反応と行動をみせる。 実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)や[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験においてみられる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。 ===パブロフ型条件づけと報酬予測にもとづく反応=== パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)に唾液の分泌という反応を引き起こすことから、無条件刺激(unconditioned stimulus、US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus、CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。 さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応(approach response)をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。 このような報酬予測にもとづく反応はどのように学習されるのだろうか? ここでは、パブロフ型条件づけをはじめとする条件づけ課題で実際にみられる動物の行動をよく説明することが知られている、[[強化学習]]と呼ばれる学習則を紹介する<ref>'''Richard S. Sutton, Andrew G. Barto'''<br>Reinforcement Learning: An Introduction<br>''The MIT Press'': 1998</ref>。 強化学習では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」を学習信号として、今までの予期報酬を新たな予期報酬へと更新する: <big>新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差</big> 同様の学習則は、心理学の分野でレスコーラ-ワグナーの学習則と呼ばれている。 上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方修正され、負であれば(報酬が予想していたより少なければ)下方修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。これらのことは、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれている<ref name=bouton />。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。 ===道具的条件づけと報酬予測にもとづく行動選択=== 動物は、報酬予測にもとづき適応的に行動を選択する。このような行動選択を調べるための実験パラダイムとして、道具的条件づけがある。受動的な課題であるパブロフ型条件づけの実験パラダイムは、自らの反応や行動と実際に報酬が得られるかどうかに関わりがないため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の刺激に対して選択される行動次第で得られる報酬に違いが生まれる。このような課題のなかで、動物は特定の行動の結果得られる報酬を予測し、より多くのより好ましい報酬を得るために適応的な行動選択をみせる。 なお、道具的条件づけを大別すると、動物がいつ・どのような行動を採るかに制限のない(free responding)課題と、試行ごとに採り得る行動の選択肢があらかじめ決まっている課題があるが、ここでは主に後者に関連して報酬予測と行動選択の関係を概観する。 道具的条件づけの課題のなかでも、報酬予測にもとづく行動を調べるためによく用いられる課題に、遅延選択課題(delayed response task)がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。 このような課題で、サルは手がかり刺激が呈示された側のボタンを押して報酬を得ることを学習する。これは、より多くの報酬をもたらす行動の頻度が増加するという、一般に「効果の法則(law of effect)」<ref name=bouton />と呼ばれる現象の一例である。動物がより多くの報酬をもたらす行動を学習するということは、行動の結果得られる報酬が予測されていることを支持している。 さらに、遅延選択課題でサルの好物であるバナナを報酬として条件づけを行った場合、報酬が突然レタスに変更されると、サルは驚きと怒りをみせる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。これは、サルが学習の結果、報酬としてバナナを期待するようになったことを支持している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬(異なる種類のジュース)と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのこともまた、サルが学習の結果報酬を予測していることを支持している。 ==報酬予測にかかわる神経活動== ここでは、報酬予測にかかわる神経活動として、[[報酬系]]と呼ばれる脳領域群をはじめとする多様な脳領域で見られる動物の報酬への期待を反映した神経活動の特性を説明し、その活動がみられる領域を簡単に列挙する。そして、報酬期待の神経活動を調整する学習信号と考えられているドーパミンニューロンの活動を紹介する。 ===報酬期待の神経活動=== これまでの多くの実験から、あたかも動物の報酬への期待を反映したような神経活動が報告されている<ref name=tsutsui /> <ref name=hikosaka2006><pubmed> 16424448 </pubmed></ref> <ref name=schultz2006 />。このような神経活動は、報酬を予測する情報(パブロフ型条件づけのCS・遅延反応課題の手がかり刺激など)が呈示された後、実際に報酬を獲得するまでの間に増大し、さらに活動の増大幅は予測された報酬の量や好ましさを反映するという特徴を持つ<ref name=tsutsui /> <ref name=schultz2006><pubmed> 16318590 </pubmed></ref>。ここでは、これらの特徴も持つ神経活動を「報酬期待の神経活動」と呼ぶ。 報酬期待の神経活動がみられる脳領野は多岐にわたっている。大脳皮質下の領域では、線条体<ref name=hassani2001 /> <ref><pubmed> 1464759 </pubmed></ref> <ref name=hikosaka2006 /> <ref><pubmed> 2723722 </pubmed></ref> <ref name=kawagoe1998 /> <ref name=samejima2005><pubmed> 12140557 </pubmed></ref> <ref><pubmed> 16311337 </pubmed></ref> <ref><pubmed> 18466754 </pubmed></ref> <ref><pubmed> 8867118 </pubmed></ref>、淡蒼球<ref><pubmed> 23177966 </pubmed></ref>、中脳ドーパミン領域(腹側被蓋野<ref><pubmed> 22258508 </pubmed></ref>・黒質緻密部<ref><pubmed> 11896175 </pubmed></ref>)、扁桃体<ref><pubmed> 16482160 </pubmed></ref> <ref><pubmed> 17880899 </pubmed></ref>、上丘<ref><pubmed> 12925282 </pubmed></ref>、脚橋被蓋核<ref><pubmed> 19369554 </pubmed></ref>、およびセロトニンニューロンを含む背側縫線核<ref><pubmed> 18480289 </pubmed></ref> <ref><pubmed> 19710375 </pubmed></ref>などで報酬期待の神経活動が見られる。 また、大脳皮質では、背外側前頭前皮質<ref name=watanabe1996 /> <ref><pubmed> 3971157 </pubmed></ref> <ref><pubmed> 10571234 </pubmed></ref> <ref name=rosech2003><pubmed> 12801905 </pubmed></ref>、眼窩前頭前皮質<ref><pubmed> 10227292 </pubmed></ref> <ref><pubmed> 8734596 </pubmed></ref> <ref name=rosech2004><pubmed> 15073380 </pubmed></ref> <ref name=Padoa-Schioppa2006><pubmed> 16633341 </pubmed></ref> <ref name=Padoa-Schioppa2008><pubmed> 18066060 </pubmed></ref>、後頭頂皮質<ref><pubmed> 10421364 </pubmed></ref> <ref><pubmed> 15205529 </pubmed></ref>、前帯状回皮質<ref><pubmed> 12040201 </pubmed></ref>、島皮質<ref><pubmed> 16979828 </pubmed></ref> <ref><pubmed> 22402653 </pubmed></ref>、運動前野<ref name=rosech2003 /> <ref name=rosech2004 />などで報酬期待の神経活動が報告されている。 また、報酬期待の神経活動には、期待される報酬の量や好ましさの情報とともに、報酬を予測する刺激の知覚情報や、報酬を獲得するための行動情報が符号化されている場合が多い。たとえば、線条体では手がかり刺激が視野の対側に呈示されるときにのみ予測された報酬量を反映した活動を見せる神経細胞の報告がある<ref name=hikosaka2006 /> <ref name=kawagoe1998><pubmed> 10196532 </pubmed></ref>。これは、報酬を予測する刺激の位置情報と、その刺激が予想する報酬への期待の両方が反映された神経活動と考えられる。また、同じ線条体では、行動器(effector)をどのように動かすかという運動準備情報と、その運動の結果予測される報酬への期待の両方が反映された神経活動が報告されている<ref name=samejima2005 />。これに対して、眼窩前頭前皮質では、刺激の知覚や選択された行動によらず予測される報酬が何であるかという認知が反映された報酬期待の神経活動が報告されている<ref name=Padoa-Schioppa2006 /> <ref name=Padoa-Schioppa2008 />。 報酬期待の神経活動は報酬系をはじめとする幅広い脳領域にみられる。より詳細な脳領野間の機能分化の理解は、今後の重要な課題の一つだろう。たとえば、線条体では背側と腹側の機能分化<ref name=hikosaka2006 />、また前頭連合野では外側/内側・背側/腹側などの機能分化が提案されている<ref><pubmed> 19153577 </pubmed></ref> <ref>'''Philippe Domenech, Etienne Koechlin'''<br>Executive control and decision-making in the prefrontal cortex.<br>''Curr. Opin. Behav. Sci.'': 2015, (1);101-106</ref>。 ===ドーパミンニューロンの活動と報酬予測誤差=== 近年、[[ドーパミンニューロン]]の活動が、強化学習の学習信号である報酬予測誤差を符号化しているとする「ドーパミン報酬予測誤差仮説」<ref><pubmed> 9054347 </pubmed></ref>が注目されている。報酬予測誤差にもとづく学習則が、動物の報酬予測に関連した学習をよく説明することは既に述べた。ドーパミンニューロンの活動は、動物の報酬予測にかかわる学習の学習信号として働いている可能性がある。 たとえば、道具的条件づけのパラダイムを用いた実験では、サルの学習に伴ってドーパミンニューロンの反応が変化することが報告されている<ref><pubmed> 7983508</pubmed></ref>。ドーパミンニューロンは、学習の初期には報酬の獲得にあわせて活動を増大させる。この反応は、学習が進むにつれ消失し、報酬を予測する手がかり刺激の呈示直後に活動が増大するようになる。また、予想された報酬が呈示されなかった場合には、報酬が予測された時刻の活動に低下がみられる<ref><pubmed> 10195164 </pubmed></ref>。これらのことは、ドーパミンニューロンが正負の報酬予測誤差を両方向的に符号化していることを示唆している<ref name=schultz2006 />。さらに、阻止効果の実験でもドーパミンニューロンが強化学習の理論から予見される学習信号を反映した活動をみせることが報告されおり<ref><pubmed> 11452299 </pubmed></ref> <ref><pubmed> 14741107 </pubmed></ref>、近年では[[オプトジェネティクス]]やマイクロスティミュレーションを用いてドーパミンニューロンの活動を人為的に操作すると学習が阻害されることが報告されている<ref><pubmed> 28390863 </pubmed></ref> 。これらのこともまたドーパミン報酬予測誤差仮説を支持している。 このようなドーパミンニューロンの活動は、学習信号となって報酬期待の神経活動をみせる脳領域の活動を調整している可能性がある。ドーパミンニューロンが活動するとことで起こるドーパミンの放出は、投射先の神経細胞のシナプス強度を調節する<ref><pubmed> 12371508 </pubmed></ref> <ref><pubmed> 17367873 </pubmed></ref> <ref><pubmed> 25258080</pubmed></ref>。実際、ドーパミンニューロンは、前述の報酬期待の神経活動が報告されている脳領域の多くに投射しており<ref name=hikosaka2006 /> <ref name=schultz2006 />、投射先のドーパミン濃度は報酬予測誤差を反映するよう調節される<ref><pubmed> 17603481 </pubmed></ref>。これらのことは、報酬予測誤差を反映したドーパミンニューロンの活動が投射先のシナプス強度を調節することで、報酬予測に関連した学習が起こることを示唆している。 近年では、報酬期待の神経活動が見られる線条体でも、報酬予測誤差を反映するような神経活動が報告されており<ref name=oyama2010><pubmed> 20739566 </pubmed></ref>。、また手綱外側核では、ドーパミンニューロンとは逆に嫌悪刺激などに関連して負の報酬予測誤差を反映する神経活動が報告されている<ref><pubmed> 17522629 </pubmed></ref>。これらの神経活動もなんらかの形で報酬予測に関連する活動の調整に関与しているとみられるが、その詳細はまだわかっていない。さらに、報酬予測誤差そのものが脳でどのように計算されているのかという問題も今後の研究が俟たれている<ref name=tsutsui />。 == 参考文献 == <references/> (執筆者:望月泰博、福田玄明、陳冲、中原裕之、担当編集委員:??)
このページで使用されているテンプレート:
テンプレート:Box
(
ソースを閲覧
)
報酬予測
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
日本語
表示
閲覧
履歴表示
その他
検索
案内
索引
脳科学辞典について
最近完成した項目
編集履歴
執筆にあたって
引用の仕方
著作権について
免責事項
問い合わせ
各学会編集のオンライン用語辞典
About us (in English)
Twitter (BrainScienceBot)
ツール
リンク元
関連ページの更新状況
特別ページ
ページ情報
他のプロジェクト