オペラント条件づけ

櫻井芳雄
京都大学大学院文学研究科心理学研究室
高橋晋
同志社大学大学院脳科学研究科
DOI：10.14931/bsd.2023　原稿受付日：2012年6月21日　原稿完成日：2012年8月13日
担当編集委員：藤田一郎（大阪大学大学院生命機能研究科）

英語名：operant conditioning

同義語：道具的条件づけ

　動物（ヒトを含む）が自発した反応の直後に報酬など特定の刺激を与えることで、その反応が生起する頻度を変化させる実験手続きであり、アメリカの心理学者スキナー（B.F. Skinner）が考案した条件づけの手法である^[1]。動物にさまざまな行動課題を訓練するための方法として広く活用されている。

基本的な用語と手続き

　条件づけの対象とする自発反応をオペラント反応またはオペラント行動、その直後に与える報酬などの刺激を強化子（reinforcer）、強化子を与える操作を強化（reinforcement）と呼ぶ。オペラント条件づけの基本は、オペラント反応－強化子の関係（強化随伴性contingency of reinforcement）を設定し操作することである。報酬のように、与えることで反応の生起頻度を増大させる強化子を正の強化子（positive reinforcer）、嫌悪性の刺激（嫌な匂いや暗闇など）のように、それを取り去ることで反応の生起頻度を増大させる強化子を負の強化子（negative reinforcer）と呼ぶ。例えばラットにレバー押し反応を行わせるためには、レバー押しというオペラント反応と餌という正の強化子の間に強化随伴性を形成し訓練することになる。訓練を効率的に進める上でもっとも肝心な手続きは、オペラント反応の直後に強化子を与えること（即時強化 immediacy of reinforcement）である。

　なお、オペラント反応の直後に与えることでその生起頻度を減少させる刺激は、強化子ではなく罰（punishment）と呼ばれる。レバー押しの後に罰として電気ショックを与えると、当然ラットはその後レバーを押さなくなる。罰を用いると、動物は実験事態そのものを嫌悪するようになり訓練が進まなくなることも多いため、特別な目的がない限り用いない方が望ましい。

強化スケジュール

　オペラント反応を1回ごとに強化する手続きを連続強化（continuous reinforcement）、反応の回数や時間間隔ごとに強化する手続きを部分強化（partial reinforcement）と呼ぶ。条件づけの後、強化をやめてしまうと反応は次第に生じなくなり消去（extinction）するが、あらかじめ部分強化で条件づけすると、強化をやめても反応はなかなか消去せず持続することがわかっている。この持続性を消去抵抗（resistance to extinction）と呼ぶ。

　部分強化の方式を強化スケジュール（schedule of reinforcement）と呼び、大きく、定率（fixed ratio FR）、変率（variable ratio VR）、定間隔（fixed interval FI）、変間隔（variable interval VI）の4つの基本スケジュール分けることができる。その違いにより、オペラント反応が生起する頻度やパターンが異なる。

　FRスケジュールは、一定の反応数が生起したとき強化する方式であり、例えばレバーを3回押したら強化する（FR3）などである。この方式ではオペラント反応がコンスタントに生起し続ける。日常生活では出来高払いの給与などが例となる。

　VRスケジュールは、何回目の反応で強化するかはその都度ランダムに変動するが、平均してある反応数が生起したとき強化する方式である。例えばレバーを1～5回押したら（平均3回）強化する（VR3）などである。反応が常に高頻度で生起するという特徴があり、消去抵抗がもっとも高い。ほとんどのギャンブルがVRで強化されている。

　FIスケジュールは、一定時間が経過した後の反応を強化する方式であり、たとえば先の強化から10秒経った後の反応を強化する（FI10秒）などである。設定された時間が近づくにつれ徐々に反応の生起頻度が上がるというパターンを生む。実社会では、時間給、週給、月給などが相当する。

　VIスケジュールは、いつ反応を強化するかはその都度ランダムに変動するが、平均してある時間が経過した後に生起した反応を強化する方式である。先の強化から5～15秒（平均10秒）経った後の反応を強化する（VI10秒）などである。反応の生起頻度は低いが安定して生じ続けるという特徴がある。釣りなどがその例とされている。

刺激統制

　オペラント条件づけはあくまでも自発する反応を強化する手続きであるため、反応を強制的に引き起こすことは出来ない。しかし特定の刺激を提示することでオペラント反応をより高頻度に自発させことは可能であり、その手続きを刺激統制（stimulus control）と呼ぶ。例えば、ある音を提示しているときだけレバー押しを強化し、音が提示されていない時は強化しないという手続きを繰り返すことで、その音を提示することでレバー押しを生起させることができる。この音のように、動物から見てオペラント反応を増減させる手掛かりとなる刺激を弁別刺激（discriminative stimulus）と呼び、実験ではさまざまな聴覚刺激や視覚刺激などが用いられる。動物に課題を訓練する際には、何らかの弁別刺激を用いることが多いことから、弁別刺激－オペラント反応－強化子の関係を示す三項随伴性（three-term contingency）の設定と操作が、オペラント条件づけの手続きとしてもっとも重要となる。

図1．ラットのレバー押し反応の行動形成
（^[2] より改変）

行動形成

　オペラント条件づけでは、動物にとって随意的で身体的に可能な反応であれば、どのような反応も条件づけることが出来る。その際、まず条件づけるオペラント反応を選び、その反応のみを強化しなければならないが、そこに至るまでの訓練を行動形成（shaping）と呼び、具体的な手続きを逐次接近法（successive approximation method）と呼ぶ。たとえば、ラットにレバー押しを条件づける際、目的とするオペラント反応（レバー押し）により近い反応を順次条件づけていく。図1の例では、まずレバーに近づく反応を強化する。するとラットはレバーに近づく反応を増やす。ここで強化を止めると、ラットは他のさまざまな反応を示すため、それらの反応のうちからよりレバー押しに近い反応（立ち上がる）を選びしばらく強化する。するとラットは盛んに立ち上がるようになるが、やはりここで強化を止めると、他のさまざまな反応が生じるため、その中からレバー押し反応を選び強化する。この逐次接近法を用いることで、簡単なオペラント反応であれば数分で条件づけることも可能である。映像1は、ラットのノーズポーク反応（壁にあいた穴に鼻先を入れる反応）の行動形成のプロセスを示しているが、ほぼ5分ほどでオペラント条件づけが成立している。

映像1.行動形成（shaping）の実際例<
壁の中央下部分に報酬（ペレット）が放出され、同時にホロホロ音が鳴る。やや見えにくいが、ラットから向かって右のやや上方に穴が空いており、その穴に鼻先を入れるオペラント反応（ノーズポーク）を形成している。はじめはノーズポークに近い反応を強化し、次第にノーズポーク自体を強化している。数分間でshapingできたことがわかる。（データ：櫻井芳雄）

参考文献

↑ Reynolds
A Primer of Operant Conditioning
Scott, Freeman and Company, Glenview:1975（浅野俊夫訳、オペラント心理学入門、サイエンス社（東京）、1978
↑ 南博監訳
図説現代心理学3
講談社 1977年

[1] Reynolds
A Primer of Operant Conditioning
Scott, Freeman and Company, Glenview:1975（浅野俊夫訳、オペラント心理学入門、サイエンス社（東京）、1978

[2] 南博監訳
図説現代心理学3
講談社 1977年

[1]

[2]