214
回編集
Hiroyukinakahara (トーク | 投稿記録) 細編集の要約なし |
Hiroyukinakahara (トーク | 投稿記録) 細編集の要約なし |
||
8行目: | 8行目: | ||
実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)や[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。 | 実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)や[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。 | ||
=== | ===パブロフ型条件づけにみられる反応=== | ||
パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)に唾液の分泌という反応を引き起こすことから、無条件刺激(unconditioned stimulus、US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus、CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。 | |||
さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応(approach response)をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。 | さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す自発的反応もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ近づく接近反応(approach response)をみせる<ref name=bouton>'''Mark E Bouton'''<br>Learning and behavior: A contemporary synthesis Second Edition<br>''Sinauer Associates'': 2007</ref>。また、ラットに報酬としてジュースを与える課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる<ref name=tsutsui>'''筒井健一郎、大山佳'''<br>報酬期待の神経科学、社会脳シリーズ第5巻・報酬を期待する脳<br>''苧坂直行編、新曜社(東京)'':2014</ref>。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを支持している。 | ||
このような報酬予測にもとづく反応はどのように学習されるのだろうか? | このような報酬予測にもとづく反応はどのように学習されるのだろうか? ここでは、パブロフ型条件づけにおける動物の反応をよく説明する「レスコーラ・ワグナーの学習則」の強化学習的理解を紹介する<ref>'''Peter Dayan, L. F. Abbott'''<br>Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems <br>''The MIT Press'': 2001</ref> <ref>'''Peter Dayan, Hiroyuki Nakahara'''<br>Models and Methods for Reinforcement Learning, The Stevens’ Handbook of Experimental Psychology<br>''Wiley'': 2017</ref>。 | ||
レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction | レスコーラ・ワグナーの学習則では、実際に得られた報酬量と予期された報酬量の差分である「報酬予測誤差(reward prediction error)」が学習信号となり、今までの予期報酬が新たな予期報酬へと更新される: | ||
<i>新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差</i> | <i>新たな予期報酬 = 今までの予期報酬 + 学習係数 × 報酬予測誤差</i> | ||
上式からわかるように、新たな予期報酬は、報酬予測誤差が正であれば(報酬が予想していたより多ければ)上方に、負であれば(報酬が予想していたより少なければ)下方に修正される。また、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習は起こらない。 | |||
レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれている<ref name=bouton />。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。 | |||
=== | ===道具的条件づけにみられる行動選択=== | ||
道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。 | |||
===遅延反応課題にみられる反応と行動=== | |||
報酬予測に関連した行動を調べるためによく用いられる課題に、遅延選択課題(delayed response task)がある。たとえば、典型的な遅延選択課題では、サルは各試行で左右どちらかのボタンを押すことが求められる。このとき、ボタン押しに先んじて視野の左右どちらかに手がかり刺激が呈示される。サルは、手がかり刺激が消えてから数秒後にボタンを押すよう訓練され、刺激が呈示されたのと同じ側のボタンを押した場合には報酬として餌やジュースを得るが、逆側を押した場合には報酬が得られない。このような課題をサルが学習することは、道具的条件づけの場合と同様、サルが行動の結果得られる報酬を予測しているためと考えられる。さらに、サルの好物であるバナナを報酬として遅延選択課題を行った場合、突然報酬をレタスに変更すると、サルは驚きと怒りをみせる<ref>'''O L Tinklepaugh'''<br>An experimental study of representative factors in monkeys.<br>''J. Comp. Psychol.'': 1928, (8);197-236</ref>。このことは、サルが報酬としてバナナを期待していることとを支持している<ref name=watanabe1996><pubmed> 8757133 </pubmed></ref>。 | |||
また、同様の実験パラダイムで二種類の手がかり刺激がそれぞれ異なる報酬(異なる種類のジュース)と対応していることを学習したサルでは、より嗜好性の高い報酬が得られる試行において、サルがより長い時間予期的なリッキング行動を続け、より短い反応時間かつより高い正当率で回答することが報告されている<ref name=hassani2001><pubmed> 11387394 </pubmed></ref>。これらのこともまた、学習の結果サルが行為の結果特定の報酬が得られることを予測していることを支持している。 | |||
==報酬予測にかかわる神経活動== | ==報酬予測にかかわる神経活動== |
回編集