「マッチング法則」の版間の差分

ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
編集の要約なし
48行目: 48行目:
== マッチングと報酬最大化 ==
== マッチングと報酬最大化 ==


 Herrnstein は、Variable Interval (VI) スケジュールという強化スケジュールを2択の反応にそれぞれ割り当てた並立VI-VIスケジュールでハトを訓練し、マッチング法則を見出した。VIスケジュールは、反応の頻度によらず、平均的にほぼ一定の間隔で報酬が得られるような確率的強化スケジュールである。したがって反応頻度が上がると、一回の反応に対して報酬を与える確率が下がるようになっており、報酬確率が過去の行動に依存する強化スケジュールの典型例である。一方、報酬確率が過去の行動に依存しない強化スケジュールは、Variable Ratio (VR) スケジュールと呼ばれ、一回の反応に対して一定の確率で報酬を与えるスケジュールである。
 Herrnstein は、Variable Interval (VI) スケジュールという強化スケジュールを2択の反応にそれぞれ割り当てた並立VI-VIスケジュールでハトを訓練し、マッチング法則を見出した。<span id="VI">VIスケジュール</span>は、反応の頻度によらず、平均的にほぼ一定の間隔で報酬が得られるような確率的強化スケジュールである。したがって反応頻度が上がると、一回の反応に対して報酬を与える確率が下がるようになっており、報酬確率が過去の行動に依存する強化スケジュールの典型例である。一方、報酬確率が過去の行動に依存しない強化スケジュールは、Variable Ratio (VR) スケジュールと呼ばれ、一回の反応に対して一定の確率で報酬を与えるスケジュールである。


 並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。
 並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。


 その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル「[[逐次改良法]]([[melioration]])」の予測と、動物の行動が一致することが示されている。
 その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル「[[#Mel|逐次改良法(melioration)]]」の予測と、動物の行動が一致することが示されている。


 こうして、報酬最大化ではなくマッチングであることは様々な実験で示されているが、それぞれ、様々な批判もある。特に重要な批判は Change-over-delay(COD) と呼ばれる、反応の切り替えに対するペナルティを課していることにある。マッチング法則を示してきた強化スケジュールの多くは、2択の反応を交互に行うと高い確率で報酬を得られるようになっており、そのような交互反応にならないように切替のペナルティが導入されている。この操作が、最適行動を取れている動物を無理やりマッチング行動に押し込めているかのような印象を与えている。
 こうして、報酬最大化ではなくマッチングであることは様々な実験で示されているが、それぞれ、様々な批判もある。特に重要な批判は Change-over-delay(COD) と呼ばれる、反応の切り替えに対するペナルティを課していることにある。マッチング法則を示してきた強化スケジュールの多くは、2択の反応を交互に行うと高い確率で報酬を得られるようになっており、そのような交互反応にならないように切替のペナルティが導入されている。この操作が、最適行動を取れている動物を無理やりマッチング行動に押し込めているかのような印象を与えている。


 これに対し、切替のペナルティを導入する必要がない強化スケジュールもEglemanらによって考案されている<ref><pubmed> 9802995 </pubmed></ref>。Vaughanのスケジュールをより単純化したものになっており、過去一定期間の反応頻度によって次の反応に対する報酬確率を決定するスケジュールである。報酬確率を決める関数形によって、報酬最大化とマッチング、および交互反応の結果、得られる平均報酬を自由に設計でき、さらに反応の選択順序に依存せず、反応頻度だけに依存するスケジュールであるため、反応頻度に関する法則を観測するのに適している。Eglemanらはヒトを対象にして、マッチング行動を示す被験者が多数であることを示した。
 これに対し、切替のペナルティを導入する必要がない強化スケジュールも<span id="Egleman">Eglemanらによって考案</span>されている<ref><pubmed> 9802995 </pubmed></ref>。Vaughanのスケジュールをより単純化したものになっており、過去一定期間の反応頻度によって次の反応に対する報酬確率を決定するスケジュールである。報酬確率を決める関数形によって、報酬最大化とマッチング、および交互反応の結果、得られる平均報酬を自由に設計でき、さらに反応の選択順序に依存せず、反応頻度だけに依存するスケジュールであるため、反応頻度に関する法則を観測するのに適している。Eglemanらはヒトを対象にして、マッチング行動を示す被験者が多数であることを示した。


== マッチング法則からのずれ ==
== マッチング法則からのずれ ==
138行目: 138行目:


 こうして、状態変数の取り方によって、報酬最大化に失敗する要因は2段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。
 こうして、状態変数の取り方によって、報酬最大化に失敗する要因は2段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。
 例えば[[#VI|VIスケジュール]]を用いた課題では、片方の選択肢を選択し続けている時間を現在の状態を表す変数として用いて、選択持続時間の状態価値に関するTD学習を行い、選択持続時間に応じた反応を行うことが、真の最大報酬を得るために必要となる。[[#Egleman|Eglemanらの課題]]


 真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したが、自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないか、と解釈できる。
 真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したが、自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないか、と解釈できる。
14

回編集

案内メニュー