「オペラント条件づけ」の版間の差分

提供:脳科学辞典
ナビゲーションに移動 検索に移動
(ページの作成:「英:operant conditioning 例えばラットやサルがレバーを押す反応は、生得的に備わった行動ではないため、新たに学習させなけれ...」)
(4人の利用者による、間の29版が非表示)
1行目: 1行目:
<div align="right"> 
英:operant conditioning
<font size="+1">[http://researchmap.jp/yoshiosakurai 櫻井 芳雄]</font><br>
''京都大学 大学院文学研究科心理学研究室''<br>
<font size="+1">[http://researchmap.jp/tsusumu 高橋 晋]</font><br>
''同志社大学 大学院脳科学研究科''<br>
DOI:<selfdoi /> 原稿受付日:2012年6月21日 原稿完成日:2012年8月13日<br>
担当編集委員:[http://researchmap.jp/ichirofujita 藤田 一郎](大阪大学 大学院生命機能研究科)<br>
</div>


英語名:operant conditioning


同義語:道具的条件づけ


{{box|text=
例えばラットやサルがレバーを押す反応は、生得的に備わった行動ではないため、新たに学習させなければなない。そこで、それら動物がたまたまレバーを押した時に餌を与えるという訓練が必要となり、その訓練を続けることで動物は頻繁にレバーを押すようなる。このように、動物が自発した反応の直後に特定の刺激を与えることで、その反応がその後生起する頻度を変化させる手続きをオペラント条件づけと呼ぶ。アメリカの心理学者スキナー(B.F. Skinner)が考案した条件づけであり、動物にさまざまな行動課題を訓練する方法として広く活用されている。
 動物([[wikipedia:ja:ヒト|ヒト]]を含む)が自発した反応の直後に報酬など特定の刺激を与えることで、その反応が生起する頻度を変化させる実験手続きであり、アメリカの心理学者[[wikipedia:ja:バラス・スキナー|スキナー]](B.F. Skinner)が考案した条件づけの手法である<ref>'''Reynolds'''<br>A Primer of Operant Conditioning<br>''Scott, Freeman and Company, Glenview'':1975(浅野俊夫訳、オペラント心理学入門、サイエンス社(東京)、1978</ref>。動物にさまざまな行動課題を訓練するための方法として広く活用されている。
}}


== 基本的な用語と手続き ==


 条件づけの対象とする自発反応をオペラント反応またはオペラント行動、その直後に与える報酬などの刺激を[[強化子]](reinforcer)、強化子を与える操作を[[強化]](reinforcement)と呼ぶ。オペラント条件づけの基本は、オペラント反応-強化子の関係(強化随伴性contingency of reinforcement)を設定し操作することである。報酬のように、与えることで反応の生起頻度を増大させる強化子を正の強化子(positive reinforcer)、嫌悪性の刺激(嫌な匂いや暗闇など)のように、それを取り去ることで反応の生起頻度を増大させる強化子を負の強化子(negative reinforcer)と呼ぶ。例えば[[wikipedia:ja:ラット|ラット]]にレバー押し反応を行わせるためには、レバー押しというオペラント反応と餌という正の強化子の間に強化随伴性を形成し訓練することになる。訓練を効率的に進める上でもっとも肝心な手続きは、オペラント反応の直後に強化子を与えること(即時強化 immediacy of reinforcement)である。


 なお、オペラント反応の直後に与えることでその生起頻度を減少させる刺激は、強化子ではなく罰(punishment)と呼ばれる。レバー押しの後に罰として電気ショックを与えると、当然ラットはその後レバーを押さなくなる。罰を用いると、動物は実験事態そのものを嫌悪するようになり訓練が進まなくなることも多いため、特別な目的がない限り用いない方が望ましい。
1.基本的方法<br>オペラント条件づけは、スキナー箱またはオペラント箱と呼ばれる装置を使うことが多く(図1)、実験の目的によりさまざまに作ることが可能である。その装置内で条件づける自発反応をオペラント反応またはオペラント行動、その直後に与える報酬などの刺激を強化子(reinforcer)、強化子を与える操作を強化(reinforcment)と呼ぶ。オペラント条件づけの基本は、オペラント反応-強化子の関係(強化随伴性contingency of reinforcement)を設定し操作することである。報酬のように、与えることでオペラント反応の生起頻度を増大させる強化子を正の強化子(positive reinforcer)と呼び、逆に与えないことで生起頻度を増大させる強化子を負の強化子(negative reinforcer)と呼ぶ。例えばラットのレバー押し訓練は、レバー押しというオペラント反応を強化する手続きであり、与える餌が正の強化子である。なお、オペラント反応の直後に与えることでその生起頻度を減少させる刺激は、強化子ではなく罰(punishment)と呼ばれる。レバー押しの直後に罰として電気ショックを与えると、当然ラットはその後レバーを押さなくなる。


== 強化スケジュール ==


 オペラント反応を1回ごとに強化する手続きを[[連続強化]](continuous reinforcement)、反応の回数や時間間隔ごとに強化する手続きを[[部分強化]](partial reinforcement)と呼ぶ。条件づけの後、強化をやめてしまうと反応は次第に生じなくなり[[消去]](extinction)するが、あらかじめ部分強化で条件づけすると、強化をやめても反応はなかなか消去せず持続することがわかっている。この持続性を[[消去抵抗]](resistance to extinction)と呼ぶ。


 部分強化の方式を[[強化スケジュール]](schedule of reinforcement)と呼び、大きく、[[定率スケジュール|定率]](fixed ratio FR)、[[変率スケジュール|変率]](variable ratio VR)、[[定間隔スケジュール|定間隔]](fixed interval FI)、[[変間隔スケジュール|変間隔]](variable interval VI)の4つの基本スケジュール分けることができる。その違いにより、オペラント反応が生起する頻度やパターンが異なる。
2.強化スケジュール<br>オペラント反応を1回ごとに強化する手続きを連続強化(continuous reinforcement)と呼び、反応の回数や時間間隔ごとに強化する手続きを部分強化(partial reinforcement)という。条件づけの後、強化をやめてしまうと反応は次第に生じなくなり消去(extinction)するが、あらかじめ部分強化で条件づけすると、強化をやめても反応はなかなか消去せず持続することがわかっている。この持続性を消去抵抗(resistance to extinctin)と呼ぶ。<br> 部分強化の方式を強化スケジュール(schedule of reinforcement)と呼び、大きく、定率(fixed ratio FR)、変率(variable ratio VR)、定間隔(fixed interval FI)、変間隔(variable interval VI)の4つの基本スケジュール分けることができる。その違いにより、オペラント反応が生起する頻度やパターンが異なる。FRスケジュールは、一定の反応数が生起したとき強化する方式であり、例えばレバーを3回押したら強化する(FR3)などである。この方式ではオペラント反応がコンスタントに生起し続けるが、日常生活では出来高払いの給与などが例となる。VRスケジュールは、何回目の反応で強化するかはその都度ランダムに変動するが、平均してある反応数が生起したとき強化する方式である。例えばレバーを1~5回押したら(平均3回)強化する(VR3)などである。反応が常に高頻度で生起するという特徴があり、消去抵抗がもっとも高い。ほとんどのギャンブルがVRで強化されている。FIスケジュールは、一定時間が経過した後の反応を強化する方式であり、たとえば先の強化から10秒経った後の反応を強化する(FI10秒)などである。設定された時間が近づくにつれ徐々に反応の生起頻度が上がるというパターンを生み、実社会では、時間給、週給、月給などが相当する。VIスケジュールは、いつ反応を強化するかはその都度ランダムに変動するが、平均してある時間が経過した後に生起した反応を強化する方式である。先の強化から5~15秒(平均10秒)経った後の反応を強化する(VI10秒)などである。反応の生起頻度は低いが安定して生じ続けるという特徴があり、釣りなどがその例とされている。


 FRスケジュールは、一定の反応数が生起したとき強化する方式であり、例えばレバーを3回押したら強化する(FR3)などである。この方式ではオペラント反応がコンスタントに生起し続ける。日常生活では出来高払いの給与などが例となる。


 VRスケジュールは、何回目の反応で強化するかはその都度ランダムに変動するが、平均してある反応数が生起したとき強化する方式である。例えばレバーを1~5回押したら(平均3回)強化する(VR3)などである。反応が常に高頻度で生起するという特徴があり、消去抵抗がもっとも高い。ほとんどのギャンブルがVRで強化されている。


 FIスケジュールは、一定時間が経過した後の反応を強化する方式であり、たとえば先の強化から10秒経った後の反応を強化する(FI10秒)などである。設定された時間が近づくにつれ徐々に反応の生起頻度が上がるというパターンを生む。実社会では、時間給、週給、月給などが相当する。
3.刺激統制(stimulus control)<br>オペラント条件づけはあくまでも自発する反応を強化する手続きであるため、反応を強制的に引き起こすことは出来ない。しかし特定の刺激を提示することでオペラント反応をより高頻度に自発させことは可能であり、その手続きを刺激統制(stimulus control)と呼ぶ。例えば、ある音を提示しているときだけレバー押しを強化し、音が提示されていない時は強化しないという手続きを繰り返すことで、その音を提示することでレバー押しを生起させることができる。この音のように、動物から見てオペラント反応を増減させる手掛かりとなる刺激を弁別刺激(discriminative stimulus)と呼び、実験ではさまざまな聴覚刺激や視覚刺激などが用いられる。動物に課題を訓練する際には、何らかの弁別刺激を用いることが多いことから、弁別刺激-オペラント反応-強化子の関係を示す三項随伴性(three-term contingency)の設定と操作が、オペラント条件づけの手続きとしてもっとも重要となる。


 VIスケジュールは、いつ反応を強化するかはその都度ランダムに変動するが、平均してある時間が経過した後に生起した反応を強化する方式である。先の強化から5~15秒(平均10秒)経った後の反応を強化する(VI10秒)などである。反応の生起頻度は低いが安定して生じ続けるという特徴がある。釣りなどがその例とされている。


== 刺激統制 ==


 オペラント条件づけはあくまでも自発する反応を強化する手続きであるため、反応を強制的に引き起こすことは出来ない。しかし特定の刺激を提示することでオペラント反応をより高頻度に自発させことは可能であり、その手続きを[[刺激統制]](stimulus control)と呼ぶ。例えば、ある音を提示しているときだけレバー押しを強化し、音が提示されていない時は強化しないという手続きを繰り返すことで、その音を提示することでレバー押しを生起させることができる。この音のように、動物から見てオペラント反応を増減させる手掛かりとなる刺激を[[弁別刺激]](discriminative stimulus)と呼び、実験ではさまざまな[[聴覚]]刺激や[[視覚]]刺激などが用いられる。動物に課題を訓練する際には、何らかの弁別刺激を用いることが多いことから、弁別刺激-オペラント反応-強化子の関係を示す[[三項随伴性]](three-term contingency)の設定と操作が、オペラント条件づけの手続きとしてもっとも重要となる。
4.行動形成(shaping)<br>オペラント条件づけでは、動物にとって随意的で身体的に可能な反応であれば、どのような反応も条件づけることが出来る。その際、まず条件づけるオペラント反応を選び、その反応のみを強化しなければならないが、そこに至るまでの訓練を行動形成と呼び、具体的な手続きを逐次接近法(progressive apporoach method)と呼ぶ。たとえば、ラットにレバー押しを条件づける際、目的とするオペラント反応(レバー押し)により近い反応を順次条件づけていく。図2の例では、まずレバーに近づく反応を強化する。するとラットはレバーに近づく反応を増やす。ここで強化を止めると、ラットは他のさまざまな反応を示すため、それらの反応のうちよりレバー押しに近い反応(立ち上がる)を選びしばらく強化する。するとラットは盛んに立ち上がるようになるが、やはりここで強化を止めると、他のさまざまな反応が生じため、その中からレバー押しを選び強化する。この逐次接近法を用いることで、簡単なオペラント反応であれば数分で条件づけることも可能である。映像1は、ラットのノーズポーク反応(壁にあいた穴に鼻先を入れる反応)の行動形成を示しているが、ほぼ5分ほどでオペラント条件づけが成立している。<br>


[[Image:Sakurai fig 1.jpg|thumb|320px|<b>図1.ラットのレバー押し反応の行動形成</b><br />(<ref>'''南博監訳'''<br>図説現代心理学3<br>''講談社'' 1977年</ref> より改変)]]<br>
道具的条件付け


== 行動形成  ==
 オペラント条件づけでは、動物にとって随意的で身体的に可能な反応であれば、どのような反応も条件づけることが出来る。その際、まず条件づけるオペラント反応を選び、その反応のみを強化しなければならないが、そこに至るまでの訓練を行動形成(shaping)と呼び、具体的な手続きを逐次接近法(successive approximation method)と呼ぶ。たとえば、ラットにレバー押しを条件づける際、目的とするオペラント反応(レバー押し)により近い反応を順次条件づけていく。図1の例では、まずレバーに近づく反応を強化する。するとラットはレバーに近づく反応を増やす。ここで強化を止めると、ラットは他のさまざまな反応を示すため、それらの反応のうちからよりレバー押しに近い反応(立ち上がる)を選びしばらく強化する。するとラットは盛んに立ち上がるようになるが、やはりここで強化を止めると、他のさまざまな反応が生じるため、その中からレバー押し反応を選び強化する。この逐次接近法を用いることで、簡単なオペラント反応であれば数分で条件づけることも可能である。映像1は、ラットのノーズポーク反応(壁にあいた穴に鼻先を入れる反応)の行動形成のプロセスを示しているが、ほぼ5分ほどでオペラント条件づけが成立している。


[[file:Sakurai_movie_1.mp4|thumb|'''映像1.行動形成(shaping)の実際例<'''<br>壁の中央下部分に報酬(ペレット)が放出され、同時にホロホロ音が鳴る。やや見えにくいが、ラットから向かって右のやや上方に穴が空いており、その穴に鼻先を入れるオペラント反応(ノーズポーク)を形成している。はじめはノーズポークに近い反応を強化し、次第にノーズポーク自体を強化している。数分間でshapingできたことがわかる。(データ:櫻井芳雄)]]


== 関連項目 ==
執筆者:櫻井芳雄、高橋晋  担当編集委員:藤田一郎
 
*[[パブロフ型条件づけ]]
*[[古典的条件づけ]]
 
== 参考文献 ==
 
<references/>

2012年6月18日 (月) 19:02時点における版

英:operant conditioning


例えばラットやサルがレバーを押す反応は、生得的に備わった行動ではないため、新たに学習させなければなない。そこで、それら動物がたまたまレバーを押した時に餌を与えるという訓練が必要となり、その訓練を続けることで動物は頻繁にレバーを押すようなる。このように、動物が自発した反応の直後に特定の刺激を与えることで、その反応がその後生起する頻度を変化させる手続きをオペラント条件づけと呼ぶ。アメリカの心理学者スキナー(B.F. Skinner)が考案した条件づけであり、動物にさまざまな行動課題を訓練する方法として広く活用されている。


1.基本的方法
オペラント条件づけは、スキナー箱またはオペラント箱と呼ばれる装置を使うことが多く(図1)、実験の目的によりさまざまに作ることが可能である。その装置内で条件づける自発反応をオペラント反応またはオペラント行動、その直後に与える報酬などの刺激を強化子(reinforcer)、強化子を与える操作を強化(reinforcment)と呼ぶ。オペラント条件づけの基本は、オペラント反応-強化子の関係(強化随伴性contingency of reinforcement)を設定し操作することである。報酬のように、与えることでオペラント反応の生起頻度を増大させる強化子を正の強化子(positive reinforcer)と呼び、逆に与えないことで生起頻度を増大させる強化子を負の強化子(negative reinforcer)と呼ぶ。例えばラットのレバー押し訓練は、レバー押しというオペラント反応を強化する手続きであり、与える餌が正の強化子である。なお、オペラント反応の直後に与えることでその生起頻度を減少させる刺激は、強化子ではなく罰(punishment)と呼ばれる。レバー押しの直後に罰として電気ショックを与えると、当然ラットはその後レバーを押さなくなる。


2.強化スケジュール
オペラント反応を1回ごとに強化する手続きを連続強化(continuous reinforcement)と呼び、反応の回数や時間間隔ごとに強化する手続きを部分強化(partial reinforcement)という。条件づけの後、強化をやめてしまうと反応は次第に生じなくなり消去(extinction)するが、あらかじめ部分強化で条件づけすると、強化をやめても反応はなかなか消去せず持続することがわかっている。この持続性を消去抵抗(resistance to extinctin)と呼ぶ。
 部分強化の方式を強化スケジュール(schedule of reinforcement)と呼び、大きく、定率(fixed ratio FR)、変率(variable ratio VR)、定間隔(fixed interval FI)、変間隔(variable interval VI)の4つの基本スケジュール分けることができる。その違いにより、オペラント反応が生起する頻度やパターンが異なる。FRスケジュールは、一定の反応数が生起したとき強化する方式であり、例えばレバーを3回押したら強化する(FR3)などである。この方式ではオペラント反応がコンスタントに生起し続けるが、日常生活では出来高払いの給与などが例となる。VRスケジュールは、何回目の反応で強化するかはその都度ランダムに変動するが、平均してある反応数が生起したとき強化する方式である。例えばレバーを1~5回押したら(平均3回)強化する(VR3)などである。反応が常に高頻度で生起するという特徴があり、消去抵抗がもっとも高い。ほとんどのギャンブルがVRで強化されている。FIスケジュールは、一定時間が経過した後の反応を強化する方式であり、たとえば先の強化から10秒経った後の反応を強化する(FI10秒)などである。設定された時間が近づくにつれ徐々に反応の生起頻度が上がるというパターンを生み、実社会では、時間給、週給、月給などが相当する。VIスケジュールは、いつ反応を強化するかはその都度ランダムに変動するが、平均してある時間が経過した後に生起した反応を強化する方式である。先の強化から5~15秒(平均10秒)経った後の反応を強化する(VI10秒)などである。反応の生起頻度は低いが安定して生じ続けるという特徴があり、釣りなどがその例とされている。


3.刺激統制(stimulus control)
オペラント条件づけはあくまでも自発する反応を強化する手続きであるため、反応を強制的に引き起こすことは出来ない。しかし特定の刺激を提示することでオペラント反応をより高頻度に自発させことは可能であり、その手続きを刺激統制(stimulus control)と呼ぶ。例えば、ある音を提示しているときだけレバー押しを強化し、音が提示されていない時は強化しないという手続きを繰り返すことで、その音を提示することでレバー押しを生起させることができる。この音のように、動物から見てオペラント反応を増減させる手掛かりとなる刺激を弁別刺激(discriminative stimulus)と呼び、実験ではさまざまな聴覚刺激や視覚刺激などが用いられる。動物に課題を訓練する際には、何らかの弁別刺激を用いることが多いことから、弁別刺激-オペラント反応-強化子の関係を示す三項随伴性(three-term contingency)の設定と操作が、オペラント条件づけの手続きとしてもっとも重要となる。


4.行動形成(shaping)
オペラント条件づけでは、動物にとって随意的で身体的に可能な反応であれば、どのような反応も条件づけることが出来る。その際、まず条件づけるオペラント反応を選び、その反応のみを強化しなければならないが、そこに至るまでの訓練を行動形成と呼び、具体的な手続きを逐次接近法(progressive apporoach method)と呼ぶ。たとえば、ラットにレバー押しを条件づける際、目的とするオペラント反応(レバー押し)により近い反応を順次条件づけていく。図2の例では、まずレバーに近づく反応を強化する。するとラットはレバーに近づく反応を増やす。ここで強化を止めると、ラットは他のさまざまな反応を示すため、それらの反応のうちよりレバー押しに近い反応(立ち上がる)を選びしばらく強化する。するとラットは盛んに立ち上がるようになるが、やはりここで強化を止めると、他のさまざまな反応が生じため、その中からレバー押しを選び強化する。この逐次接近法を用いることで、簡単なオペラント反応であれば数分で条件づけることも可能である。映像1は、ラットのノーズポーク反応(壁にあいた穴に鼻先を入れる反応)の行動形成を示しているが、ほぼ5分ほどでオペラント条件づけが成立している。

道具的条件付け


執筆者:櫻井芳雄、高橋晋  担当編集委員:藤田一郎