「報酬予測」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
8行目: 8行目:
 実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)や[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。
 実際に動物が報酬を予測していることを示唆する反応や行動は、[[パブロフ型条件づけ]](pavlovian conditioning、または古典的条件づけ、classical conditioning)や[[道具的条件づけ]](instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験に端的に表れる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動について説明する。


===パブロフ型条件づけにみられる反応===
===パブロフ型条件づけ課題にみられる反応===
 パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)に唾液の分泌という反応を引き起こすことから、無条件刺激(unconditioned stimulus、US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus、CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。
 パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する反応がみられる。パブロフ型条件づけでは、動物が本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)に唾液の分泌という反応を引き起こすことから、無条件刺激(unconditioned stimulus、US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus、CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。


23行目: 23行目:
 レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれている<ref name=bouton />。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。
 レスコー・ラワグナーの学習則が予想するこれらの現象は、実際のパブロフ型条件づけのさまざまな行動実験で確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果(blocking effect)」と呼ばれている<ref name=bouton />。強化学習の枠組みでは、先に学習された光から餌の獲得が完全に予測されるため、音に対する報酬予測誤差がゼロとなるからであると解釈できる。


===道具的条件づけにみられる行動選択===
===道具的条件づけ課題にみられる行動選択===
 道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。
 道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応や行動によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して選択される行動次第で得られる報酬やその大きさに違いが生まれる。道具的条件づけの実験では、動物はより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込めらたネコが、試行錯誤を繰り返すうちに内側に設置された紐を引くことで箱の外に出て、餌を獲得することを学習する。このような学習がおこることは、動物が行動の結果得られる報酬を予測しているためと考えられる。
 
 
214

回編集