「オペラント条件づけ」の版間の差分

オペラント条件づけ (ソースを閲覧)

2012年6月20日 (水) 17:18時点における版

281 バイト追加、 2012年6月20日 (水)

細

編集の要約なし

Yoshiosakurai

5

回編集

@@ 1行目: / 1行目: @@
 英：operant conditioning
+動物（人間を含む）が自発した反応の直後に報酬など特定の刺激を与えることで、その反応が生起する頻度を変化させる手続きであり、アメリカの心理学者スキナー（B.F. Skinner）が考案した条件づけの手法である。<ref>’’’Reynolds’’’<br>A Primer of Operant Conditioning<br>’’Scott, Freeman and Comparny, Glenview’’:1975（浅野俊夫訳、オペラント心理学入門、サイエンス社（東京）、1978</ref>。動物にさまざまな課題を訓練するための方法として広く活用されている。
+１．基本的な用語と手続き
+条件づけの対象とする自発反応をオペラント反応またはオペラント行動、その直後に与える報酬などの刺激を強化子（reinforcer）、強化子を与える操作を強化（reinforcment）と呼ぶ。オペラント条件づけの基本は、オペラント反応－強化子の関係（強化随伴性contingency of reinforcement）を設定し操作することである。報酬のように、与えることで反応の生起頻度を増大させる強化子を正の強化子（positive reinforcer）、嫌悪性の刺激（嫌な匂いや暗闇など）のように、それを取り去ることで反応の生起頻度を増大させる強化子を負の強化子（negative reinforcer）と呼ぶ。例えばラットにレバー押し反応を行わせるためには、レバー押しというオペラント反応と餌という正の強化子の間に強化随伴性を形成し訓練することになる。訓練を効率的に進める上でもっとも肝心な手続きは、オペラント反応の直後に強化子を与えること（即時強化 immediacy of reinforcement）である。
+　なお、オペラント反応の直後に与えることでその生起頻度を減少させる刺激は、強化子ではなく罰（punishment）と呼ばれる。レバー押しの後に罰として電気ショックを与えると、当然ラットはその後レバーを押さなくなる。罰を用いると、動物は実験事態そのものを嫌悪するようになり訓練が進まなくなることも多いため、特別な目的がない限り用いない方が望ましい。
-例えばラットやサルがレバーを押す反応は、生得的に備わった行動ではないため、新たに学習させなければなない。そこで、それら動物がたまたまレバーを押した時に餌を与えるという訓練が必要となり、その訓練を続けることで動物は頻繁にレバーを押すようなる。このように、動物が自発した反応の直後に特定の刺激を与えることで、その反応がその後生起する頻度を変化させる手続きをオペラント条件づけと呼ぶ。アメリカの心理学者スキナー（B.F. Skinner）が考案した条件づけであり、動物にさまざまな行動課題を訓練する方法として広く活用されている。
+２．強化スケジュール
+オペラント反応を1回ごとに強化する手続きを連続強化（continuous reinforcement）、反応の回数や時間間隔ごとに強化する手続きを部分強化（partial reinforcement）と呼ぶ。条件づけの後、強化をやめてしまうと反応は次第に生じなくなり消去（extinction）するが、あらかじめ部分強化で条件づけすると、強化をやめても反応はなかなか消去せず持続することがわかっている。この持続性を消去抵抗（resistance to extinctin）と呼ぶ。
+　部分強化の方式を強化スケジュール（schedule of reinforcement）と呼び、大きく、定率（fixed ratio FR）、変率（variable ratio VR）、定間隔（fixed interval FI）、変間隔（variable interval VI）の4つの基本スケジュール分けることができる。その違いにより、オペラント反応が生起する頻度やパターンが異なる。FRスケジュールは、一定の反応数が生起したとき強化する方式であり、例えばレバーを３回押したら強化する（FR3）などである。この方式ではオペラント反応がコンスタントに生起し続ける。日常生活では出来高払いの給与などが例となる。VRスケジュールは、何回目の反応で強化するかはその都度ランダムに変動するが、平均してある反応数が生起したとき強化する方式である。例えばレバーを１～５回押したら（平均３回）強化する（VR3）などである。反応が常に高頻度で生起するという特徴があり、消去抵抗がもっとも高い。ほとんどのギャンブルがVRで強化されている。FIスケジュールは、一定時間が経過した後の反応を強化する方式であり、たとえば先の強化から10秒経った後の反応を強化する（FI10秒）などである。設定された時間が近づくにつれ徐々に反応の生起頻度が上がるというパターンを生む。実社会では、時間給、週給、月給などが相当する。VIスケジュールは、いつ反応を強化するかはその都度ランダムに変動するが、平均してある時間が経過した後に生起した反応を強化する方式である。先の強化から5～15秒（平均10秒）経った後の反応を強化する（VI10秒）などである。反応の生起頻度は低いが安定して生じ続けるという特徴がある。釣りなどがその例とされている。
+３．刺激統制（stimulus control）
+オペラント条件づけはあくまでも自発する反応を強化する手続きであるため、反応を強制的に引き起こすことは出来ない。しかし特定の刺激を提示することでオペラント反応をより高頻度に自発させことは可能であり、その手続きを刺激統制（stimulus control）と呼ぶ。例えば、ある音を提示しているときだけレバー押しを強化し、音が提示されていない時は強化しないという手続きを繰り返すことで、その音を提示することでレバー押しを生起させることができる。この音のように、動物から見てオペラント反応を増減させる手掛かりとなる刺激を弁別刺激（discriminative stimulus）と呼び、実験ではさまざまな聴覚刺激や視覚刺激などが用いられる。動物に課題を訓練する際には、何らかの弁別刺激を用いることが多いことから、弁別刺激－オペラント反応－強化子の関係を示す三項随伴性（three-term contingency）の設定と操作が、オペラント条件づけの手続きとしてもっとも重要となる。
+４．行動形成（shaping）
+オペラント条件づけでは、動物にとって随意的で身体的に可能な反応であれば、どのような反応も条件づけることが出来る。その際、まず条件づけるオペラント反応を選び、その反応のみを強化しなければならないが、そこに至るまでの訓練を行動形成と呼び、具体的な手続きを逐次接近法（successive approximation method）と呼ぶ。たとえば、ラットにレバー押しを条件づける際、目的とするオペラント反応（レバー押し）により近い反応を順次条件づけていく。図１（Sakurai fig 1）の例では、まずレバーに近づく反応を強化する。するとラットはレバーに近づく反応を増やす。ここで強化を止めると、ラットは他のさまざまな反応を示すため、それらの反応のうちからよりレバー押しに近い反応（立ち上がる）を選びしばらく強化する。するとラットは盛んに立ち上がるようになるが、やはりここで強化を止めると、他のさまざまな反応が生じるため、その中からレバー押し反応を選び強化する。この逐次接近法を用いることで、簡単なオペラント反応であれば数分で条件づけることも可能である。映像１(Sakurai movie 1）は、ラットのノーズポーク反応（壁にあいた穴に鼻先を入れる反応）の行動形成のプロセスを示しているが、ほぼ５分ほどでオペラント条件づけが成立している。
-１．基本的方法<br>オペラント条件づけは、スキナー箱またはオペラント箱と呼ばれる装置を使うことが多く（図１）、実験の目的によりさまざまに作ることが可能である。その装置内で条件づける自発反応をオペラント反応またはオペラント行動、その直後に与える報酬などの刺激を強化子（reinforcer）、強化子を与える操作を強化（reinforcment）と呼ぶ。オペラント条件づけの基本は、オペラント反応－強化子の関係（強化随伴性contingency of reinforcement）を設定し操作することである。報酬のように、与えることでオペラント反応の生起頻度を増大させる強化子を正の強化子（positive reinforcer）と呼び、逆に与えないことで生起頻度を増大させる強化子を負の強化子（negative reinforcer）と呼ぶ。例えばラットのレバー押し訓練は、レバー押しというオペラント反応を強化する手続きであり、与える餌が正の強化子である。なお、オペラント反応の直後に与えることでその生起頻度を減少させる刺激は、強化子ではなく罰（punishment）と呼ばれる。レバー押しの直後に罰として電気ショックを与えると、当然ラットはその後レバーを押さなくなる。
+<references/s>
+同義語：道具的条件づけ
+重要な関連後：パブロフ型条件づけ、古典的条件づけ
-２．強化スケジュール<br>オペラント反応を1回ごとに強化する手続きを連続強化（continuous reinforcement）と呼び、反応の回数や時間間隔ごとに強化する手続きを部分強化（partial reinforcement）という。条件づけの後、強化をやめてしまうと反応は次第に生じなくなり消去（extinction）するが、あらかじめ部分強化で条件づけすると、強化をやめても反応はなかなか消去せず持続することがわかっている。この持続性を消去抵抗（resistance to extinctin）と呼ぶ。<br>　部分強化の方式を強化スケジュール（schedule of reinforcement）と呼び、大きく、定率（fixed ratio FR）、変率（variable ratio VR）、定間隔（fixed interval FI）、変間隔（variable interval VI）の4つの基本スケジュール分けることができる。その違いにより、オペラント反応が生起する頻度やパターンが異なる。FRスケジュールは、一定の反応数が生起したとき強化する方式であり、例えばレバーを３回押したら強化する（FR3）などである。この方式ではオペラント反応がコンスタントに生起し続けるが、日常生活では出来高払いの給与などが例となる。VRスケジュールは、何回目の反応で強化するかはその都度ランダムに変動するが、平均してある反応数が生起したとき強化する方式である。例えばレバーを１～５回押したら（平均３回）強化する（VR3）などである。反応が常に高頻度で生起するという特徴があり、消去抵抗がもっとも高い。ほとんどのギャンブルがVRで強化されている。FIスケジュールは、一定時間が経過した後の反応を強化する方式であり、たとえば先の強化から10秒経った後の反応を強化する（FI10秒）などである。設定された時間が近づくにつれ徐々に反応の生起頻度が上がるというパターンを生み、実社会では、時間給、週給、月給などが相当する。VIスケジュールは、いつ反応を強化するかはその都度ランダムに変動するが、平均してある時間が経過した後に生起した反応を強化する方式である。先の強化から5～15秒（平均10秒）経った後の反応を強化する（VI10秒）などである。反応の生起頻度は低いが安定して生じ続けるという特徴があり、釣りなどがその例とされている。
+（執筆者：櫻井芳雄、高橋晋　　担当編集委員：藤田一郎）
-３．刺激統制（stimulus control）<br>オペラント条件づけはあくまでも自発する反応を強化する手続きであるため、反応を強制的に引き起こすことは出来ない。しかし特定の刺激を提示することでオペラント反応をより高頻度に自発させことは可能であり、その手続きを刺激統制（stimulus control）と呼ぶ。例えば、ある音を提示しているときだけレバー押しを強化し、音が提示されていない時は強化しないという手続きを繰り返すことで、その音を提示することでレバー押しを生起させることができる。この音のように、動物から見てオペラント反応を増減させる手掛かりとなる刺激を弁別刺激（discriminative stimulus）と呼び、実験ではさまざまな聴覚刺激や視覚刺激などが用いられる。動物に課題を訓練する際には、何らかの弁別刺激を用いることが多いことから、弁別刺激－オペラント反応－強化子の関係を示す三項随伴性（three-term contingency）の設定と操作が、オペラント条件づけの手続きとしてもっとも重要となる。
-４．行動形成（shaping）<br>オペラント条件づけでは、動物にとって随意的で身体的に可能な反応であれば、どのような反応も条件づけることが出来る。その際、まず条件づけるオペラント反応を選び、その反応のみを強化しなければならないが、そこに至るまでの訓練を行動形成と呼び、具体的な手続きを逐次接近法（progressive apporoach method）と呼ぶ。たとえば、ラットにレバー押しを条件づける際、目的とするオペラント反応（レバー押し）により近い反応を順次条件づけていく。図２の例では、まずレバーに近づく反応を強化する。するとラットはレバーに近づく反応を増やす。ここで強化を止めると、ラットは他のさまざまな反応を示すため、それらの反応のうちよりレバー押しに近い反応（立ち上がる）を選びしばらく強化する。するとラットは盛んに立ち上がるようになるが、やはりここで強化を止めると、他のさまざまな反応が生じため、その中からレバー押しを選び強化する。この逐次接近法を用いることで、簡単なオペラント反応であれば数分で条件づけることも可能である。映像１は、ラットのノーズポーク反応（壁にあいた穴に鼻先を入れる反応）の行動形成を示しているが、ほぼ５分ほどでオペラント条件づけが成立している。<br>
-道具的条件付け
-執筆者：櫻井芳雄、高橋晋　　担当編集委員：藤田一郎