「マッチング法則」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
7行目: 7行目:
異義語:確率マッチング (probability matching)
異義語:確率マッチング (probability matching)


 動物が行った行動に応じて報酬や罰が与えられる[[オペラント条件付け]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような[[#Model|様々な行動学習モデル]]が提案されており、その中には[[#Cov|神経シナプスで実現する一般則]]も提案されている。また工学的に開発されてきた[[#Cov|強化学習アルゴリズムの一部がマッチング法則に至る]]ことも示されており、マッチングを目指す学習戦略の[[#Sig|意義]]も提唱されている。
 動物が行った行動に応じて報酬や罰が与えられる[[オペラント条件付け]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような様々な行動学習モデルが提案されており、その中には神経シナプスで実現する一般則も提案されている。また工学的に開発されてきた強化学習アルゴリズムの一部がマッチング法則に至ることも示されており、マッチングを目指す学習戦略の意義も提唱されている。


== 定義 ==
== 定義 ==
42行目: 42行目:
 また、確率マッチングは、マッチング法則に比べると、観測される条件は次のように限定的である。
 また、確率マッチングは、マッチング法則に比べると、観測される条件は次のように限定的である。


* ヒトを対象にした実験で、実際には金銭的報酬を与えない場合には、確率マッチングとなるが、実際に与えるとより最適行動に近づく<ref><b>N Vulkan</b><br>An Economist's Perspective on Probability Matching.<br><i>Journal of Economic Surveys</i> 2000, 14(1);101-118</ref>。
* [[wikipedia:ja:ヒト|ヒト]]を対象にした実験で、実際には金銭的報酬を与えない場合には、確率マッチングとなるが、実際に与えるとより最適行動に近づく<ref><b>N Vulkan</b><br>An Economist's Perspective on Probability Matching.<br><i>Journal of Economic Surveys</i> 2000, 14(1);101-118</ref>。
* 同じ条件で十分試行を繰り返すと(1000回以上)、確率マッチングから最適行動に近づく<ref><b>D R Shanks, R J Tunney, J D McCarthy</b><br>A Re-examination of Probability Matching and Rational Choice.<br><i>J. Behav. Dec. Making</i> 2002, 15(3):233-250</ref>。
* 同じ条件で十分試行を繰り返すと(1000回以上)、確率マッチングから最適行動に近づく<ref><b>D R Shanks, R J Tunney, J D McCarthy</b><br>A Re-examination of Probability Matching and Rational Choice.<br><i>J. Behav. Dec. Making</i> 2002, 15(3):233-250</ref>。
* ハトで十分学習させるとほぼ最適行動が観測される<ref><pubmed>16811858</pubmed></ref>。
* [[wikipedia:ja:ハト|ハト]]で十分学習させるとほぼ最適行動が観測される<ref><pubmed>16811858</pubmed></ref>。


== マッチングと報酬最大化 ==
== マッチングと報酬最大化 ==
52行目: 52行目:
 並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。
 並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。


 その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル[[#Mel|「逐次改良法(melioration)」]]の予測と、動物の行動が一致することが示されている。
 その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル「[[逐次改良法]]([[melioration]])」の予測と、動物の行動が一致することが示されている。


 こうして、報酬最大化ではなくマッチングであることは様々な実験で示されているが、それぞれ、様々な批判もある。特に重要な批判は Change-over-delay(COD) と呼ばれる、反応の切り替えに対するペナルティを課していることにある。マッチング法則を示してきた強化スケジュールの多くは、2択の反応を交互に行うと高い確率で報酬を得られるようになっており、そのような交互反応にならないように切替のペナルティが導入されている。この操作が、最適行動を取れている動物を無理やりマッチング行動に押し込めているかのような印象を与えている。
 こうして、報酬最大化ではなくマッチングであることは様々な実験で示されているが、それぞれ、様々な批判もある。特に重要な批判は Change-over-delay(COD) と呼ばれる、反応の切り替えに対するペナルティを課していることにある。マッチング法則を示してきた強化スケジュールの多くは、2択の反応を交互に行うと高い確率で報酬を得られるようになっており、そのような交互反応にならないように切替のペナルティが導入されている。この操作が、最適行動を取れている動物を無理やりマッチング行動に押し込めているかのような印象を与えている。
85行目: 85行目:
 LoewensteinとSeungは、神経系における[[シナプス可塑性]]に共分散則というルールを適用すると、行動上でマッチング法則が顕れることを証明した<ref><pubmed>17008410</pubmed></ref>。彼らの仮定は次の2つのみである。
 LoewensteinとSeungは、神経系における[[シナプス可塑性]]に共分散則というルールを適用すると、行動上でマッチング法則が顕れることを証明した<ref><pubmed>17008410</pubmed></ref>。彼らの仮定は次の2つのみである。


* 行動上の各反応<math>a</math>に影響を及ぼすシナプス群が存在し、その伝達強度<math>\{w_{a1},w_{a2},\cdots \}</math>と反応<math>a</math>の頻度はそれぞれ単調な関係がある。
* 行動上の各反応<math>a</math>に影響を及ぼす[[シナプス]]群が存在し、その伝達強度<math>\{w_{a1},w_{a2},\cdots \}</math>と反応<math>a</math>の頻度はそれぞれ単調な関係がある。
* 反応<math>a</math>を行うかどうかと相関のある神経活動<math>\{x_{a1},x_{a2},\cdots\}</math>があり、その結果得られる報酬 <math>r</math> とは、行った反応を通してのみしか相関を持たない。
* 反応<math>a</math>を行うかどうかと相関のある神経活動<math>\{x_{a1},x_{a2},\cdots\}</math>があり、その結果得られる報酬 <math>r</math> とは、行った反応を通してのみしか相関を持たない。


 この仮定の元で、神経活動<math>x</math>と報酬<math>r</math>との共分散に比例してシナプス強度が変化するルールを導入すると、定常状態で一般にマッチング法則が成り立つ。次の3つのタイプの具体的なルールは全て平均的に神経活動と報酬との共分散に比例する。
 この仮定の元で、神経活動<math>x</math>と報酬<math>r</math>との共分散に比例してシナプス強度が変化するルールを導入すると、定常状態で一般にマッチング法則が成り立つ。次の3つのタイプの具体的なルールは全て平均的に神経活動と報酬との共分散に比例する。


#<math> \Delta w_{ak} = \alpha (r - \bar{r}) x_{ak}  </math>
#<math> \Delta w_{ak} = \alpha (r - \bar{r}) x_{ak}  </math>
100行目: 100行目:
<span id="RL"></span>
<span id="RL"></span>
=== マッチング法則を示す強化学習アルゴリズム ===
=== マッチング法則を示す強化学習アルゴリズム ===
 [[強化学習]]は、与えられた入力(感覚刺激)に応じて出力(反応)し、一連の出力の結果、得られる成果(報酬)を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、方策勾配法 (policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、
 [[強化学習]]は、与えられた入力(感覚刺激)に応じて出力(反応)し、一連の出力の結果、得られる成果(報酬)を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、[[方策勾配法]] ([[policy gradient]]) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に [[Temporal Difference (TD) 学習]]と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、[[アクタークリティック法]]と[[ダイレクトアクター法]]が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、


アクタークリティック法:
アクタークリティック法:
108行目: 108行目:
<math> \Delta w_a = \alpha r (\delta_{aa_t}- p_a)</math>
<math> \Delta w_a = \alpha r (\delta_{aa_t}- p_a)</math>


と表せる。ここで <math> a_t </math> は <math>t</math> 回目の反応で選ばれた反応を表し、<math> \delta_{aa_t} </math> は、クローネッカーの<math> \delta </math>記号で、<math> a_t=a </math>のとき 1、そうでないときには 0 を取る。<math> \delta_{aa_t} </math>を反応<math>a</math>に相関する神経活動<math>x_a=\delta_{aa_t} </math>とみなせば、アクタークリティック法は、[[#Cov|共分散則]]のタイプ1に、ダイレクトアクター法は、タイプ2に属する。
と表せる。ここで <math> a_t </math> は <math>t</math> 回目の反応で選ばれた反応を表し、<math> \delta_{aa_t} </math> は、クローネッカーの<math> \delta </math>記号で、<math> a_t=a </math>のとき 1、そうでないときには 0 を取る。<math> \delta_{aa_t} </math>を反応<math>a</math>に相関する神経活動<math>x_a=\delta_{aa_t} </math>とみなせば、アクタークリティック法は、共分散則のタイプ1に、ダイレクトアクター法は、タイプ2に属する。


<span id="Sig"></span>
<span id="Sig"></span>