「マッチング法則」の版間の差分

ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
編集の要約なし
100行目: 100行目:
<span id="RL"></span>
<span id="RL"></span>
=== マッチング法則を示す強化学習アルゴリズム ===
=== マッチング法則を示す強化学習アルゴリズム ===
 [[強化学習]]は、与えられた入力(感覚刺激)に応じて出力(反応)し、一連の出力の結果、得られる成果(報酬)を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、[[方策勾配法]] ([[policy gradient]]) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に [[Temporal Difference (TD) 学習]]と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、[[アクタークリティック法]]と[[ダイレクトアクター法]]が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、
 [[強化学習]]は、与えられた入力(感覚刺激)に応じて出力(反応)し、一連の出力の結果、得られる成果(報酬)を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、方策勾配法(policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、


アクタークリティック法:
アクタークリティック法:
139行目: 139行目:
 こうして、状態変数の取り方によって、報酬最大化に失敗する要因は2段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。
 こうして、状態変数の取り方によって、報酬最大化に失敗する要因は2段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。


 例えば[[#VI|VIスケジュール]]を用いた課題では、片方の選択肢を選択し続けている時間を現在の状態を表す変数として用いて、選択持続時間の状態価値に関するTD学習を行い、選択持続時間に応じた反応を行うことが、真の最大報酬を得るために必要となる。[[#Egleman|Eglemanらの課題]]
 真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。例えば[[#VI|VIスケジュール]]を用いた課題では、片方の選択肢を選択し続けている時間を現在の状態を表す変数として用いて、選択持続時間の状態価値に関するTD学習を行い、選択持続時間に応じた反応を行うことが、真の最大報酬を得るために必要となる。[[#Egleman|Eglemanらの課題]]では、次の報酬確率を決めるのに使う過去一定期間の選択頻度を、被験者も現在の状態として用いることが必要となる。しかし何も知らされない被験者がそんな情報に注目するするのは、難しいことだろう。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したのではないか、と推察できる。


 真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したが、自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないか、と解釈できる。
 しかし、動物が慣れ親しんだ自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないだろうか。例えば[[#VI|VIスケジュール]]は自然環境での採餌を模擬していると言えるが、自然の中で採餌を営んでいる動物にとって、ある餌場に最近どのくらい探しに行っていないか、という情報に注目するのは、それほど困難ではないだろう。動物が生存のために直面する状況では、概ね適切な状態変数を見いだすことができ、適切な状態変数の元で効率的なTD学習を用いて、得られる報酬を最大化しているのではないだろうか。こうした動物の効率的な学習機能を人工環境で切り出した結果がマッチングであると解釈できる。




14

回編集

案内メニュー