14
回編集
Yutakasakai (トーク | 投稿記録) 細編集の要約なし |
Yutakasakai (トーク | 投稿記録) 細編集の要約なし |
||
8行目: | 8行目: | ||
動物が行った行動に応じて報酬や罰が与えられるオペラント条件付けにおいて、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような様々な行動学習モデルが提案されており、その中には神経シナプスで実現する一般則も提案されている。また工学的に開発されてきた強化学習アルゴリズムの一部がマッチング法則に至ることも示されており、マッチングを目指す学習戦略の生物学的意義も提唱されている。 | 動物が行った行動に応じて報酬や罰が与えられるオペラント条件付けにおいて、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような様々な行動学習モデルが提案されており、その中には神経シナプスで実現する一般則も提案されている。また工学的に開発されてきた強化学習アルゴリズムの一部がマッチング法則に至ることも示されており、マッチングを目指す学習戦略の生物学的意義も提唱されている。 | ||
== 定義 | == 定義 == | ||
動物が選択できる反応を <math>a=1,2, \cdots, n</math> とする。動物が行った反応パターンに応じて報酬を与えるルール(強化スケジュール)を一定にした上で、動物に十分学習をさせた後、長時間、行動を観測し、各反応 <math>a</math> を行った回数を <math>N_a</math> とし、反応 <math>a</math> を行った直後に得られた報酬の総量を <math>I_a</math> とする。マッチング法則<ref><pubmed> 13713775 </pubmed></ref>とは、反応回数の割合と得られた報酬の割合が一致することである。 | |||
<math>\frac{N_a}{\ | <math>\frac{N_a}{N_1 + N_2 + \cdots + N_n}=\frac{I_a}{I_1 + I_2 + \cdots + I_n}</math> | ||
マッチング法則を示す一連の行動をマッチング行動と呼ぶ。 | |||
全く行っていない反応を除けば、 | |||
<math>\frac{I_a}{N_a}=\frac{I_1 + I_2 + \cdots + I_n}{N_1 + N_2 + \cdots + N_n}</math> | |||
と変形でき、右辺は反応 <math>a</math> に依存しない値であるため、「各反応一回当たりに得られる平均報酬(強化率)は、全く行っていない反応を除いて等しい」という法則とみなすことができる。 | |||
== マッチングと報酬最大化 == | |||
1961年に Herrnstein は、Variable Interval (VI) スケジュールという強化スケジュールを2択の反応にそれぞれ割り当てた並立VI-VIスケジュールでハトを訓練し、マッチング法則を見出した<ref><pubmed> 13713775 </pubmed></ref>。 | |||
VIスケジュールは、反応の頻度によらず、平均的にほぼ一定の間隔で報酬が得られるような確率的強化スケジュールである。したがって反応頻度が上がると、一回の反応に対して報酬を与える確率が下がるようになっており、報酬確率が過去の行動に依存する強化スケジュールの典型例である。一方、報酬確率が過去の行動に依存しない強化スケジュールは、Variable Ratio (VR) スケジュールと呼ばれ、一回の反応に対して一定の確率で報酬を与えるスケジュールである。 | |||
並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。 | |||
一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 </pubmed><pubmed> 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。 | |||
その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル「逐次改良法(melioration)」の予測と、動物の行動が一致することが示されている。 | |||
こうして、報酬最大化ではなくマッチングであることは様々な実験で示されているが、それぞれ、様々な批判もある。特に重要な批判は Change-over-delay(COD) と呼ばれる、反応の切り替えに対するペナルティを課していることにある。マッチング法則を示してきた強化スケジュールの多くは、2択の反応を交互に行うと高い確率で報酬を得られるようになっており、そのような交互反応にならないようにCODが導入されている。この操作が、最適行動を取れている動物を無理やりマッチング行動に押し込めているかのような印象を与えている。 | |||
これに対し、CODが必要なく交互反応が得にはならないようなスケジュールも考案されている<ref><pubmed> 9802995 </pubmed></ref>。Vaughanのスケジュールをより単純化し、過去一定期間の反応頻度によって次の反応に対する報酬確率を決定するスケジュールである。報酬確率を決める関数形によって、報酬最大化とマッチング、および交互反応の結果、得られる平均報酬を自由に設計でき、さらに反応の選択順序に依存せず、反応頻度だけに依存するスケジュールであるため、反応頻度に関する法則を観測するのに適している。Eglemanらがヒトを対象にして、このスケジュールで実験した結果、多数の被験者がマッチング行動を示した<ref><pubmed> 9802995 </pubmed></ref>。 | |||
== マッチングの行動学習モデル == | |||
== マッチングの生物学的意義 == | |||
== 確率マッチングとの対比 == | |||
== 参考文献 == | == 参考文献 == | ||
<references /> | <references /> |
回編集