報酬予測
英:Reward prediction
報酬予測とは、ヒトを含む動物が、特定の情報から将来の報酬を予測することである。食料・水などに代表される報酬は、正の動機や感情を生む物質・出来事・状況・活動の総称であり、動物はより多くの報酬を得るため報酬を予測し、それにもとづく反応や行動を見せる。報酬予測は、私たちが常日頃行っているさまざまな意思決定を駆動しており、さらに、脳における学習メカニズムとも深い関わりをもつことが提案されている。ここでは、報酬予測にもとづく反応と行動、また報酬予測にもとづく適応的な行動選択、そしてこれらに関係した神経活動について述べる。
行動実験にみる報酬予測
報酬の代表である食料・水・配偶者の存在は、動物の生存と生殖に不可欠であり、未来の報酬を予測し、それに合わせて反応・行動することは、種の存続に有利に働く。動物は、特定の情報から報酬の獲得が予測できる状況で、報酬を期待し、それにともなう様々な反応と行動をみせる。
動物が実際に報酬を期待していることを示唆する反応と行動は、パブロフ型条件づけ(Pavlovian conditioning、または古典的条件づけ、classical conditioning)や道具的条件づけ(instrumental conditioning、またはオペラント条件づけ、operant conditioning)の実験にみられる。近年の研究動向は、報酬予測の神経基盤へと拡がっているが、多くの場合そこで用いられるのもパブロフ型条件づけ・道具的条件づけの実験パラダイムである。以下では、パブロフ型条件づけと道具的条件づけの行動実験にみられる報酬予測に関連する反応と行動を挙げる。
パブロフ型条件づけと報酬予測にもとづく反応と行動
パブロフ型条件づけの実験パラダイムでは、動物の報酬予測にもとづく反応や行動がみられる。動物は、パブロフ型条件づけで本来意味を持たない外界の情報(刺激)と報酬の連合を学習する。たとえば、有名な「パブロフの犬」の実験では、イヌがベルの音を聞いた直後に餌が与えられりことを何度も経験するうちに、ベルの音を聞くだけでヨダレをだすようになる。これは、犬がベルの音と餌の獲得の連合を学習したものと解釈できる。ここでは餌が報酬であり、無条件(学習を必要とせず)にヨダレという反応を引き起こすことから、無条件刺激(unconditioned stimulus, US)と呼ばれる。また、ベルの音は学習の結果ヨダレの反応を引き起こすことから、条件刺激(conditioned stimulus, CS)と呼ばれる。動物が本来意味を持たないCSに対してUSによって引き起こされる反応を獲得することは、動物がCSをもとに報酬が得られることを予測しているためと考えられる。
さらに、パブロフ型条件づけ課題では、動物が報酬を期待していることを示す行動もみられる。たとえば、動物はCSの提示に際してCSや報酬の提示場所へ接近行動(approach behavior)をみせることが知られている。また、報酬としてジュースが与えられる課題では、報酬が与えられる前に飲み口を予期的に舐めるリッキング(licking)行動がみられる(Oyama et al , 2014)。これらの報酬予測にもとづく報酬獲得の準備行動も、動物がCSにもとづき報酬を予測していることを示している。
(執筆者:望月泰博、福田玄明、陳冲、中原裕之、担当編集委員:??)