14
回編集
Yutakasakai (トーク | 投稿記録) 細編集の要約なし |
Yutakasakai (トーク | 投稿記録) 細編集の要約なし |
||
6行目: | 6行目: | ||
異義語:確率マッチング (probability matching) | 異義語:確率マッチング (probability matching) | ||
動物が行った行動に応じて報酬や罰が与えられる[[オペラント条件付け]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような[[#Model|様々な行動学習モデル]]が提案されており、その中には[[#Cov|神経シナプスで実現する一般則]]も提案されている。また工学的に開発されてきた[[#Cov|強化学習アルゴリズムの一部がマッチング法則に至る]]ことも示されており、マッチングを目指す学習戦略の[[#Sig| | 動物が行った行動に応じて報酬や罰が与えられる[[オペラント条件付け]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような[[#Model|様々な行動学習モデル]]が提案されており、その中には[[#Cov|神経シナプスで実現する一般則]]も提案されている。また工学的に開発されてきた[[#Cov|強化学習アルゴリズムの一部がマッチング法則に至る]]ことも示されており、マッチングを目指す学習戦略の[[#Sig|意義]]も提唱されている。 | ||
== 定義 == | == 定義 == | ||
58行目: | 58行目: | ||
== マッチング法則からのずれ == | == マッチング法則からのずれ == | ||
報酬最大化ではなくマッチング法則に近いことは示されてきたが、同時に微妙にマッチング法則からずれており、そのずれ方に傾向があることがわかってきた。Baumはこのずれを記述できるように、マッチング法則を一般化した<ref><pubmed></pubmed></ref>。まず、頻度が0ではない反応が2つ以上ある場合に、そのうちの2つの反応に注目して、それらの反応回数と獲得報酬総量をそれぞれ<math>N_1,N_2</math>と<math>I_1,I_2</math>とすれば、マッチング法則から | 報酬最大化ではなくマッチング法則に近いことは示されてきたが、同時に微妙にマッチング法則からずれており、そのずれ方に傾向があることがわかってきた。Baumはこのずれを記述できるように、マッチング法則を一般化した<ref><pubmed>16811782</pubmed></ref>。まず、頻度が0ではない反応が2つ以上ある場合に、そのうちの2つの反応に注目して、それらの反応回数と獲得報酬総量をそれぞれ<math>N_1,N_2</math>と<math>I_1,I_2</math>とすれば、マッチング法則から | ||
<math>\frac{N_1}{N_2}=\frac{I_1}{I_2}</math> | <math>\frac{N_1}{N_2}=\frac{I_1}{I_2}</math> | ||
98行目: | 98行目: | ||
<span id="RL"></span> | <span id="RL"></span> | ||
=== マッチング法則を示す強化学習アルゴリズム === | === マッチング法則を示す強化学習アルゴリズム === | ||
[[強化学習]]は、与えられた入力(感覚刺激)に応じて出力(反応)し、一連の出力の結果、得られる成果(報酬)を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 | [[強化学習]]は、与えられた入力(感覚刺激)に応じて出力(反応)し、一連の出力の結果、得られる成果(報酬)を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、方策勾配法 (policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、 | ||
アクタークリティック法: | アクタークリティック法: | ||
109行目: | 109行目: | ||
<span id="Sig"></span> | <span id="Sig"></span> | ||
== | == マッチングの意義 == | ||
報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTD学習による近似である。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。 | 報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTD学習による近似である。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。 | ||
129行目: | 129行目: | ||
<math> E\Big[r_{t+\tau}|s_{t+1}=s,a_{t}=a\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big], \ | <math> E\Big[r_{t+\tau}|s_{t+1}=s,a_{t}=a\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big], \ | ||
E\Big[r_{t+\tau}|s_{t+1}=s,s_{t}=s'\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big] | E\Big[r_{t+\tau}|s_{t+1}=s,s_{t}=s'\Big] = E\Big[r_{t+\tau}|s_{t+1}=s\Big] | ||
</math> | </math> | ||
これらの条件は、1ステップ先の状態<math>s_{t+1}</math>がそれ以降に得られる報酬に対して十分な情報をもっており、直前に行った反応や状態に依存しないことを意味する。この条件が満たされなければ、TD学習は報酬最大化に失敗することになる。特に状態の区別をしていない場合にTD学習はマッチング法則を示すことがわかっている<ref><pubmed>19030101</pubmed></ref>。 | |||
一方、一般に状況に応じて適切な反応を選択しなければ、得られる報酬を最大化することはできない。状況に応じた反応選択をするためにも現在の状況を表わす状態変数が必要である。状態変数の取り方を決めると反応の仕方は、あらゆる行動から限定されることになる。その範囲に真の最適行動が含まれていなければ、限定した範囲での報酬最大化しかできず、真の最大報酬を得ることはできない。 | |||
こうして、状態変数の取り方によって、報酬最大化に失敗する要因は2段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。 | |||
真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したが、自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないか、と解釈できる。 | |||
回編集