「マッチング法則」の版間の差分

編集の要約なし
編集の要約なし
編集の要約なし
2行目: 2行目:


同義語:オペラントマッチング (operant matching)
同義語:オペラントマッチング (operant matching)
類義語:マッチング行動 (matching behavior)
類義語:マッチング行動 (matching behavior)


異義語:確率マッチング (probability matching)
異義語:確率マッチング (probability matching)


動物が行った行動に応じて報酬や罰が与えられる[[オペラント条件付け]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような[[#Model|様々な行動学習モデル]]が提案されており、その中には[[#Cov|神経シナプスで実現する一般則]]も提案されている。また工学的に開発されてきた[[#Cov|強化学習アルゴリズムの一部がマッチング法則に至る]]ことも示されており、マッチングを目指す学習戦略の[[#Sig|意義]]も提唱されている。
 動物が行った行動に応じて報酬や罰が与えられる[[オペラント条件付け]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような[[#Model|様々な行動学習モデル]]が提案されており、その中には[[#Cov|神経シナプスで実現する一般則]]も提案されている。また工学的に開発されてきた[[#Cov|強化学習アルゴリズムの一部がマッチング法則に至る]]ことも示されており、マッチングを目指す学習戦略の[[#Sig|意義]]も提唱されている。


== 定義 ==
== 定義 ==


動物が選択できる反応を <math>a=1,2, \cdots, n</math> とする。動物が行った反応パターンに応じて報酬を与えるルール(強化スケジュール)を一定にした上で、動物に十分学習をさせた後、長時間、行動を観測し、各反応 <math>a</math> を行った回数を <math>N_a</math> とし、反応 <math>a</math> を行った直後に得られた報酬の総量を <math>I_a</math> とする。マッチング法則<ref><pubmed> 13713775 </pubmed></ref>とは、反応回数の割合と得られた報酬の割合が一致することである。
 動物が選択できる反応を <math>a=1,2, \cdots, n</math> とする。動物が行った反応パターンに応じて報酬を与えるルール(強化スケジュール)を一定にした上で、動物に十分学習をさせた後、長時間、行動を観測し、各反応 <math>a</math> を行った回数を <math>N_a</math> とし、反応 <math>a</math> を行った直後に得られた報酬の総量を <math>I_a</math> とする。マッチング法則<ref><pubmed> 13713775 </pubmed></ref>とは、反応回数の割合と得られた報酬の割合が一致することである。


<math>\frac{N_a}{N_1 + N_2 + \cdots + N_n}=\frac{I_a}{I_1 + I_2 + \cdots + I_n}</math>
<math>\frac{N_a}{N_1 + N_2 + \cdots + N_n}=\frac{I_a}{I_1 + I_2 + \cdots + I_n}</math>


マッチング法則を示す一連の行動をマッチング行動と呼ぶ。
 マッチング法則を示す一連の行動をマッチング行動と呼ぶ。


全く行っていない反応を除けば、
 全く行っていない反応を除けば、


<math>\frac{I_a}{N_a}=\frac{I_1 + I_2 + \cdots + I_n}{N_1 + N_2 + \cdots + N_n}</math>
<math>\frac{I_a}{N_a}=\frac{I_1 + I_2 + \cdots + I_n}{N_1 + N_2 + \cdots + N_n}</math>
23行目: 24行目:


=== 確率マッチングとの対比 ===
=== 確率マッチングとの対比 ===
マッチング法則と同様に、得られる成果を最大化していない行動にみられる法則の一つとして「確率マッチング(probability matching)」というものも知られている<ref><pubmed>14016794</pubmed></ref>。用語も定義も似ているが全く異なる法則であるため、注意が必要である。
 マッチング法則と同様に、得られる成果を最大化していない行動にみられる法則の一つとして「確率マッチング(probability matching)」というものも知られている<ref><pubmed>14016794</pubmed></ref>。用語も定義も似ているが全く異なる法則であるため、注意が必要である。


確率マッチング(probability matching)の定義:
 確率マッチング(probability matching)の定義:


<math>\frac{N_1}{N_1 + N_2}=\frac{I_1/N_1}{I_1/N_1 + I_2/N_2}</math>
<math>\frac{N_1}{N_1 + N_2}=\frac{I_1/N_1}{I_1/N_1 + I_2/N_2}</math>


マッチング法則は、離散的な試行の繰り返しでも連続的に自由なタイミングで反応できる場合にも観測されており、様々な強化スケジュールで確認されているが、確率マッチングが調べられているのは限定的で次の条件を満たす場合に限られる。
 マッチング法則は、離散的な試行の繰り返しでも連続的に自由なタイミングで反応できる場合にも観測されており、様々な強化スケジュールで確認されているが、確率マッチングが調べられているのは限定的で次の条件を満たす場合に限られる。


* 離散的な試行の繰り返しである。
* 離散的な試行の繰り返しである。
37行目: 38行目:
* 各反応の報酬確率の和は1である。
* 各反応の報酬確率の和は1である。


この条件では、報酬確率が高い方の反応を選択し続ける行動が最適であり、片方の反応を全く選択していないので、自明にマッチング法則を満たす。一方、確率マッチングを満たす行動では、明らかに報酬を最大化できない。
 この条件では、報酬確率が高い方の反応を選択し続ける行動が最適であり、片方の反応を全く選択していないので、自明にマッチング法則を満たす。一方、確率マッチングを満たす行動では、明らかに報酬を最大化できない。


また、確率マッチングは、マッチング法則に比べると、観測される条件は次のように限定的である。
 また、確率マッチングは、マッチング法則に比べると、観測される条件は次のように限定的である。


* ヒトを対象にした実験で、実際には金銭的報酬を与えない場合には、確率マッチングとなるが、実際に与えるとより最適行動に近づく<ref><b>N Vulkan</b><br>An Economist's Perspective on Probability Matching.<br><i>Journal of Economic Surveys</i> 2000, 14(1);101-118</ref>。
* ヒトを対象にした実験で、実際には金銭的報酬を与えない場合には、確率マッチングとなるが、実際に与えるとより最適行動に近づく<ref><b>N Vulkan</b><br>An Economist's Perspective on Probability Matching.<br><i>Journal of Economic Surveys</i> 2000, 14(1);101-118</ref>。
47行目: 48行目:
== マッチングと報酬最大化 ==
== マッチングと報酬最大化 ==


Herrnstein は、Variable Interval (VI) スケジュールという強化スケジュールを2択の反応にそれぞれ割り当てた並立VI-VIスケジュールでハトを訓練し、マッチング法則を見出した。VIスケジュールは、反応の頻度によらず、平均的にほぼ一定の間隔で報酬が得られるような確率的強化スケジュールである。したがって反応頻度が上がると、一回の反応に対して報酬を与える確率が下がるようになっており、報酬確率が過去の行動に依存する強化スケジュールの典型例である。一方、報酬確率が過去の行動に依存しない強化スケジュールは、Variable Ratio (VR) スケジュールと呼ばれ、一回の反応に対して一定の確率で報酬を与えるスケジュールである。
 Herrnstein は、Variable Interval (VI) スケジュールという強化スケジュールを2択の反応にそれぞれ割り当てた並立VI-VIスケジュールでハトを訓練し、マッチング法則を見出した。VIスケジュールは、反応の頻度によらず、平均的にほぼ一定の間隔で報酬が得られるような確率的強化スケジュールである。したがって反応頻度が上がると、一回の反応に対して報酬を与える確率が下がるようになっており、報酬確率が過去の行動に依存する強化スケジュールの典型例である。一方、報酬確率が過去の行動に依存しない強化スケジュールは、Variable Ratio (VR) スケジュールと呼ばれ、一回の反応に対して一定の確率で報酬を与えるスケジュールである。


並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。
 並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。


その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル[[#Mel|「逐次改良法(melioration)」]]の予測と、動物の行動が一致することが示されている。
 その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル[[#Mel|「逐次改良法(melioration)」]]の予測と、動物の行動が一致することが示されている。


こうして、報酬最大化ではなくマッチングであることは様々な実験で示されているが、それぞれ、様々な批判もある。特に重要な批判は Change-over-delay(COD) と呼ばれる、反応の切り替えに対するペナルティを課していることにある。マッチング法則を示してきた強化スケジュールの多くは、2択の反応を交互に行うと高い確率で報酬を得られるようになっており、そのような交互反応にならないように切替のペナルティが導入されている。この操作が、最適行動を取れている動物を無理やりマッチング行動に押し込めているかのような印象を与えている。
 こうして、報酬最大化ではなくマッチングであることは様々な実験で示されているが、それぞれ、様々な批判もある。特に重要な批判は Change-over-delay(COD) と呼ばれる、反応の切り替えに対するペナルティを課していることにある。マッチング法則を示してきた強化スケジュールの多くは、2択の反応を交互に行うと高い確率で報酬を得られるようになっており、そのような交互反応にならないように切替のペナルティが導入されている。この操作が、最適行動を取れている動物を無理やりマッチング行動に押し込めているかのような印象を与えている。


これに対し、切替のペナルティを導入する必要がない強化スケジュールもEglemanらによって考案されている<ref><pubmed> 9802995 </pubmed></ref>。Vaughanのスケジュールをより単純化したものになっており、過去一定期間の反応頻度によって次の反応に対する報酬確率を決定するスケジュールである。報酬確率を決める関数形によって、報酬最大化とマッチング、および交互反応の結果、得られる平均報酬を自由に設計でき、さらに反応の選択順序に依存せず、反応頻度だけに依存するスケジュールであるため、反応頻度に関する法則を観測するのに適している。Eglemanらはヒトを対象にして、マッチング行動を示す被験者が多数であることを示した。
 これに対し、切替のペナルティを導入する必要がない強化スケジュールもEglemanらによって考案されている<ref><pubmed> 9802995 </pubmed></ref>。Vaughanのスケジュールをより単純化したものになっており、過去一定期間の反応頻度によって次の反応に対する報酬確率を決定するスケジュールである。報酬確率を決める関数形によって、報酬最大化とマッチング、および交互反応の結果、得られる平均報酬を自由に設計でき、さらに反応の選択順序に依存せず、反応頻度だけに依存するスケジュールであるため、反応頻度に関する法則を観測するのに適している。Eglemanらはヒトを対象にして、マッチング行動を示す被験者が多数であることを示した。


== マッチング法則からのずれ ==
== マッチング法則からのずれ ==
報酬最大化ではなくマッチング法則に近いことは示されてきたが、同時に微妙にマッチング法則からずれており、そのずれ方に傾向があることがわかってきた。Baumはこのずれを記述できるように、マッチング法則を一般化した<ref><pubmed>16811782</pubmed></ref>。まず、頻度が0ではない反応が2つ以上ある場合に、そのうちの2つの反応に注目して、それらの反応回数と獲得報酬総量をそれぞれ<math>N_1,N_2</math>と<math>I_1,I_2</math>とすれば、マッチング法則から
 報酬最大化ではなくマッチング法則に近いことは示されてきたが、同時に微妙にマッチング法則からずれており、そのずれ方に傾向があることがわかってきた。Baumはこのずれを記述できるように、マッチング法則を一般化した<ref><pubmed>16811782</pubmed></ref>。まず、頻度が0ではない反応が2つ以上ある場合に、そのうちの2つの反応に注目して、それらの反応回数と獲得報酬総量をそれぞれ<math>N_1,N_2</math>と<math>I_1,I_2</math>とすれば、マッチング法則から


<math>\frac{N_1}{N_2}=\frac{I_1}{I_2}</math>
<math>\frac{N_1}{N_2}=\frac{I_1}{I_2}</math>
67行目: 68行目:
<math>\frac{N_1}{N_2}=b \left(\frac{I_1}{I_2}\right)^a</math>
<math>\frac{N_1}{N_2}=b \left(\frac{I_1}{I_2}\right)^a</math>


パラメタ<math>b</math>は反応の偏り(bias)を表わす。指数<math>a > 1</math>の場合を過大マッチング(overmatching)、指数<math>a < 1</math>の場合を過小マッチング(undermatching)と呼ぶ。実際の行動では、過小マッチング(undermatching)が数多く観測されている。
 パラメタ<math>b</math>は反応の偏り(bias)を表わす。指数<math>a > 1</math>の場合を過大マッチング(overmatching)、指数<math>a < 1</math>の場合を過小マッチング(undermatching)と呼ぶ。実際の行動では、過小マッチング(undermatching)が数多く観測されている。


<span id="Model"></span>
<span id="Model"></span>
73行目: 74行目:
<span id="Mel"></span>
<span id="Mel"></span>
=== 逐次改良法 (melioration) ===
=== 逐次改良法 (melioration) ===
VaughanとHerrnsteinは、逐次改良法と呼ばれる行動学習モデルを提唱している。各反応の割合を変化させて行動学習を行っていると仮定し、各反応を行ったときに得られる平均報酬(強化率)を推定して、より強化率の高い反応の割合を上げる、というモデルである。マッチング法則が成り立つような状態になると、全ての反応の強化率が等しくなるので、反応割合の変化が起こらなくなり、定常状態に達する。
 VaughanとHerrnsteinは、逐次改良法と呼ばれる行動学習モデルを提唱している。各反応の割合を変化させて行動学習を行っていると仮定し、各反応を行ったときに得られる平均報酬(強化率)を推定して、より強化率の高い反応の割合を上げる、というモデルである。マッチング法則が成り立つような状態になると、全ての反応の強化率が等しくなるので、反応割合の変化が起こらなくなり、定常状態に達する。


=== 局所マッチング則 (local matching law) ===
=== 局所マッチング則 (local matching law) ===
Sugrueらは、局所マッチング則と呼ばれる行動学習モデルを提唱している<ref><pubmed>15205529</pubmed></ref>。各反応に対して得られた最近の累積報酬を推定し、その割合でこれから行う反応の割合を決める、というモデルである。
 Sugrueらは、局所マッチング則と呼ばれる行動学習モデルを提唱している<ref><pubmed>15205529</pubmed></ref>。各反応に対して得られた最近の累積報酬を推定し、その割合でこれから行う反応の割合を決める、というモデルである。
直接、マッチング法則を成立させるように構成したモデルである。このモデルをサルの行動にフィットさせたところ、長期間と短期間の累積報酬を両方反映しているという結果が得られている<ref><pubmed>16596981</pubmed></ref>。
 
 直接、マッチング法則を成立させるように構成したモデルである。このモデルをサルの行動にフィットさせたところ、長期間と短期間の累積報酬を両方反映しているという結果が得られている<ref><pubmed>16596981</pubmed></ref>。


<span id="Cov"></span>
<span id="Cov"></span>
=== 共分散則 (covariance rule) ===
=== 共分散則 (covariance rule) ===
LoewensteinとSeungは、神経系における[[シナプス可塑性]]に共分散則というルールを適用すると、行動上でマッチング法則が顕れることを証明した<ref><pubmed>17008410</pubmed></ref>。彼らの仮定は次の2つのみである。
 LoewensteinとSeungは、神経系における[[シナプス可塑性]]に共分散則というルールを適用すると、行動上でマッチング法則が顕れることを証明した<ref><pubmed>17008410</pubmed></ref>。彼らの仮定は次の2つのみである。


* 行動上の各反応<math>a</math>に影響を及ぼすシナプス群が存在し、その伝達強度<math>\{w_{a1},w_{a2},\cdots \}</math>と反応<math>a</math>の頻度はそれぞれ単調な関係がある。
* 行動上の各反応<math>a</math>に影響を及ぼすシナプス群が存在し、その伝達強度<math>\{w_{a1},w_{a2},\cdots \}</math>と反応<math>a</math>の頻度はそれぞれ単調な関係がある。
* 反応<math>a</math>を行うかどうかと相関のある神経活動<math>\{x_{a1},x_{a2},\cdots\}</math>があり、その結果得られる報酬 <math>r</math> とは、行った反応を通してのみしか相関を持たない。
* 反応<math>a</math>を行うかどうかと相関のある神経活動<math>\{x_{a1},x_{a2},\cdots\}</math>があり、その結果得られる報酬 <math>r</math> とは、行った反応を通してのみしか相関を持たない。


この仮定の元で、神経活動<math>x</math>と報酬<math>r</math>との共分散に比例してシナプス強度が変化するルールを導入すると、定常状態で一般にマッチング法則が成り立つ。次の3つのタイプの具体的なルールは全て平均的に神経活動と報酬との共分散に比例する。
 この仮定の元で、神経活動<math>x</math>と報酬<math>r</math>との共分散に比例してシナプス強度が変化するルールを導入すると、定常状態で一般にマッチング法則が成り立つ。次の3つのタイプの具体的なルールは全て平均的に神経活動と報酬との共分散に比例する。


#<math> \Delta w_{ak} = \alpha (r - \bar{r}) x_{ak}  </math>
#<math> \Delta w_{ak} = \alpha (r - \bar{r}) x_{ak}  </math>
92行目: 94行目:
#<math> \Delta w_{ak} = \alpha (r - \bar{r})( x_{ak} - \bar{x}_{ak} ) </math>
#<math> \Delta w_{ak} = \alpha (r - \bar{r})( x_{ak} - \bar{x}_{ak} ) </math>


ここで <math> \Delta w_{ak} </math> は、一回反応を行ったときに誘導されるシナプス可塑性で、シナプス伝達強度 <math> w_{ak} </math> の値は、<math> w_{ak} + \Delta w_{ak} </math> に置き換えられることを意味する。また、<math> \bar{x} </math> は変数<math>x</math>の長時間平均を表し、<math> \Delta \bar{x} = \beta (x - \bar{x})  </math> などのアルゴリズムで推定できる。
 ここで <math> \Delta w_{ak} </math> は、一回反応を行ったときに誘導されるシナプス可塑性で、シナプス伝達強度 <math> w_{ak} </math> の値は、<math> w_{ak} + \Delta w_{ak} </math> に置き換えられることを意味する。また、<math> \bar{x} </math> は変数<math>x</math>の長時間平均を表し、<math> \Delta \bar{x} = \beta (x - \bar{x})  </math> などのアルゴリズムで推定できる。


なお、これら神経系に相互作用があり、ある条件を満たす場合に、マッチング法則を満たす定常状態が不安定になることがあることが報告されている<ref><pubmed>22295982</pubmed></ref>。多体の神経系に適用する場合には注意が必要である。
 なお、これら神経系に相互作用があり、ある条件を満たす場合に、マッチング法則を満たす定常状態が不安定になることがあることが報告されている<ref><pubmed>22295982</pubmed></ref>。多体の神経系に適用する場合には注意が必要である。


<span id="RL"></span>
<span id="RL"></span>
=== マッチング法則を示す強化学習アルゴリズム ===
=== マッチング法則を示す強化学習アルゴリズム ===
[[強化学習]]は、与えられた入力(感覚刺激)に応じて出力(反応)し、一連の出力の結果、得られる成果(報酬)を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、方策勾配法 (policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、
 [[強化学習]]は、与えられた入力(感覚刺激)に応じて出力(反応)し、一連の出力の結果、得られる成果(報酬)を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、方策勾配法 (policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、


アクタークリティック法:
アクタークリティック法:
110行目: 112行目:
<span id="Sig"></span>
<span id="Sig"></span>
== マッチングの意義 ==
== マッチングの意義 ==
報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTD学習による近似である。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。
 報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTD学習による近似である。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。


<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|s_t=s\right]</math>
<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|s_t=s\right]</math>


各状態における状態価値を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。
 各状態における状態価値を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。


TD学習:<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|a_t=a\right]  
TD学習:<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big|a_t=a\right]  
121行目: 123行目:
</math>
</math>


状態価値<math>V(s)</math>の推定にもTD学習を用い、次のように置き換える。
 状態価値<math>V(s)</math>の推定にもTD学習を用い、次のように置き換える。


<math> V(s)\simeq E\Big[r_{t+1}-E[r]+V(s_{t+1})\Big|s_t=s\Big] </math>
<math> V(s)\simeq E\Big[r_{t+1}-E[r]+V(s_{t+1})\Big|s_t=s\Big] </math>


この置換には次の条件を用いている。
 この置換には次の条件を用いている。


<math> E\Big[r_{t+\tau}|s_{t+1}=s,a_{t}=a\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big], \  
<math> E\Big[r_{t+\tau}|s_{t+1}=s,a_{t}=a\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big], \  
131行目: 133行目:
</math>
</math>


これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。この条件が満たされなければ、TD学習は報酬最大化に失敗することになる。特に状態の区別をしていない場合にTD学習はマッチング法則を示すことがわかっている<ref><pubmed>19030101</pubmed></ref>。
 これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。この条件が満たされなければ、TD学習は報酬最大化に失敗することになる。特に状態の区別をしていない場合にTD学習はマッチング法則を示すことがわかっている<ref><pubmed>19030101</pubmed></ref>。


一方、一般に状況に応じて適切な反応を選択しなければ、得られる報酬を最大化することはできない。状況に応じた反応選択をするためにも現在の状況を表わす状態変数が必要である。状態変数の取り方を決めると反応の仕方は、あらゆる行動から限定されることになる。その範囲に真の最適行動が含まれていなければ、限定した範囲での報酬最大化しかできず、真の最大報酬を得ることはできない。
 一方、一般に状況に応じて適切な反応を選択しなければ、得られる報酬を最大化することはできない。状況に応じた反応選択をするためにも現在の状況を表わす状態変数が必要である。状態変数の取り方を決めると反応の仕方は、あらゆる行動から限定されることになる。その範囲に真の最適行動が含まれていなければ、限定した範囲での報酬最大化しかできず、真の最大報酬を得ることはできない。


こうして、状態変数の取り方によって、報酬最大化に失敗する要因は2段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。
 こうして、状態変数の取り方によって、報酬最大化に失敗する要因は2段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。


真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したが、自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないか、と解釈できる。
 真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したが、自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないか、と解釈できる。




144行目: 146行目:
<references />  
<references />  


(執筆者:酒井 裕、担当編集委員:入來篤史)
 
(執筆者:酒井裕 担当編集委員:入來篤史)