「報酬予測」の版間の差分

報酬予測 (ソースを閲覧)

2018年2月9日 (金) 14:54時点における版

12 バイト除去、 2018年2月9日 (金)

細

編集の要約なし

Hiroyukinakahara

214

回編集

@@ 8行目: / 8行目: @@
 　実際に動物が報酬を予測していることを示唆する反応と行動選択は、[[パブロフ型条件づけ]]（pavlovian conditioning、または古典的条件づけ、classical conditioning）、[[道具的条件づけ]]（instrumental conditioning、またはオペラント条件づけ、operant conditioning）、また遅延反応課題（delayed response task）をはじめとする選択課題の実験に端的に表れる。また、多くの場合報酬予測にかかわる神経活動を調べる際に用いられるのも、これらの実験パラダイムである。以下では、パブロフ型条件づけ、道具的条件づけ、そして遅延反応課題の実験にみられる報酬予測に関連した反応と行動選択について説明する。
-===パブロフ型条件づけ課題にみられる反応===
+===パブロフ型条件づけにみられる反応===
 　パブロフ型条件づけの実験では、動物が報酬を予測していることを支持する受動的な反応がみられる。パブロフ型条件づけでは、動物は本来意味を持たない外界の情報（刺激）と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられることを何度も経験するうちに、イヌはベルの音を聞くだけでヨダレをだすようになる。これは、イヌがベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件（学習を必要とせず）にヨダレという反応を引き起こすことから、無条件刺激（unconditioned stimulus、US）と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激（conditioned stimulus、CS）と呼ばれる。動物が本来意味を持たないCSに対してUSが引き起こす反応を獲得することは、動物がCSをもとに報酬が得られることを予測するようになったためと考えられる。
@@ 23行目: / 23行目: @@
 　レスコー・ラワグナーの学習則は、報酬予測誤差が小さくなるほど学習が遅くなり、誤差がないときに学習が起こらないことを予想している。これらのことは、パブロフ型条件づけの実験から実際に確認されている。たとえば、光が点灯すると餌がもらえることを学習したラットに対し、光と音を同時に呈示した後に餌を与えることを繰り返しても、音に対する学習は起こらない。これは「阻止効果（blocking effect）」と呼ばれている<ref name=bouton />。レスコー・ラワグナーの学習則から考えれば、音に対する学習は起こらないことは、先に学習された光が餌の獲得を完全に予測するため、音が予測する餌の報酬予測誤差がゼロとなるからと解釈できる。
-===道具的条件づけ課題と行動選択===
+===道具的条件づけと行動選択===
 　道具的条件づけの実験では、動物が報酬を予測していることを支持する行動選択がみられる。パブロフ型条件づけの実験パラダイムでは、動物自らの反応によらず受動的に報酬が与えられるため、動物の積極的な行動選択を調べることはできない。これに対して、道具的条件づけの実験パラダイムでは、特定の環境や刺激に対して動物が選択する行動次第で得られる報酬やその大きさに違いが生まれる。動物はこのような実験課題でより大きな報酬をもたらす行動の頻度を増加させる。たとえば、ソーンダイクが行った実験では、パズルボックスの中に閉じ込められたネコが試行錯誤を繰り返すうちに、内側に設置された紐を引いてパズルボックスの外に出て餌を獲得することを学習する。より大きな報酬をもたらす行動が学習されることは、動物が行動の結果得られる報酬を予測しているためと考えられる。

「報酬予測」の版間の差分

報酬予測 (ソースを閲覧)

2018年2月9日 (金) 14:54時点における版

案内メニュー

検索