マッチング法則 - 版の履歴

2014年11月4日 (火) 14:52にWikiSysopによる

2014-11-04T14:52:15Z

← 古い版		2014年11月4日 (火) 23:52時点における版
15行目:		15行目:

	{{box\|text=		{{box\|text=
	動物が行った行動に応じて報酬や罰が与えられる[[~~オペラント条件付け~~]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような様々な行動学習モデルが提案されており、その中には神経シナプスで実現する一般則も提案されている。また工学的に開発されてきた強化学習アルゴリズムの一部がマッチング法則に至ることも示されており、マッチングを目指す学習戦略の意義も提唱されている。		動物が行った行動に応じて報酬や罰が与えられる[[オペラント条件づけ]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような様々な行動学習モデルが提案されており、その中には神経シナプスで実現する一般則も提案されている。また工学的に開発されてきた強化学習アルゴリズムの一部がマッチング法則に至ることも示されており、マッチングを目指す学習戦略の意義も提唱されている。
	}}		}}

2014年6月17日 (火) 07:33にTfuruyaによる

2014-06-17T07:33:31Z

← 古い版		2014年6月17日 (火) 16:33時点における版
2行目:		2行目:
	<font size="+1">[http://researchmap.jp/yutakasakai 酒井裕]</font><br>		<font size="+1">[http://researchmap.jp/yutakasakai 酒井裕]</font><br>
	''玉川大学脳科学研究所''<br>		''玉川大学脳科学研究所''<br>
	~~DOI XXXX~~/~~XXXX　原稿受付日：2012年12月3日　原稿完成日：2013年2月15日~~<br>		DOI：<selfdoi />　原稿受付日：2012年12月3日　原稿完成日：2013年2月15日<br>
	担当編集委員：[http://researchmap.jp/atsushiiriki 入來篤史]（独立行政法人理化学研究所脳科学総合研究センター）<br>		担当編集委員：[http://researchmap.jp/atsushiiriki 入來篤史]（独立行政法人理化学研究所脳科学総合研究センター）<br>
	</div>		</div>

2013年6月25日 (火) 08:08にTfuruyaによる

2013-06-25T08:08:21Z

← 古い版		2013年6月25日 (火) 17:08時点における版
1行目:		1行目:
			<div align="right">
			<font size="+1">[http://researchmap.jp/yutakasakai 酒井裕]</font><br>
			''玉川大学脳科学研究所''<br>
			DOI XXXX/XXXX　原稿受付日：2012年12月3日　原稿完成日：2013年2月15日<br>
			担当編集委員：[http://researchmap.jp/atsushiiriki 入來篤史]（独立行政法人理化学研究所脳科学総合研究センター）<br>
			</div>

	英語名：matching law		英語名：matching law

7行目:		14行目:
	異義語：確率マッチング (probability matching)		異義語：確率マッチング (probability matching)

			{{box\|text=
	動物が行った行動に応じて報酬や罰が与えられる[[オペラント条件付け]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような様々な行動学習モデルが提案されており、その中には神経シナプスで実現する一般則も提案されている。また工学的に開発されてきた強化学習アルゴリズムの一部がマッチング法則に至ることも示されており、マッチングを目指す学習戦略の意義も提唱されている。		動物が行った行動に応じて報酬や罰が与えられる[[オペラント条件付け]]において、動物はしばしば得られる成果を最大にする選択行動に至らないことがある。その中には再現性の良い法則を見出すことができる場合があり、マッチング法則はその一例である。マッチング法則は、確率的に報酬が与えられ、その確率が過去の行動にも依存する場合に、典型的に観測される。マッチング法則に至るような様々な行動学習モデルが提案されており、その中には神経シナプスで実現する一般則も提案されている。また工学的に開発されてきた強化学習アルゴリズムの一部がマッチング法則に至ることも示されており、マッチングを目指す学習戦略の意義も提唱されている。
			}}

	== 定義 ==		== 定義 ==
149行目:		158行目:
	== 参考文献 ==		== 参考文献 ==

	<references />		<references />


	~~（執筆者：酒井裕　担当編集委員：入來篤史）~~

2013年2月13日 (水) 00:49にTfuruyaによる

2013-02-13T00:49:34Z

← 古い版		2013年2月13日 (水) 09:49時点における版
50行目:		50行目:
	Herrnstein は、Variable Interval (VI) スケジュールという強化スケジュールを2択の反応にそれぞれ割り当てた並立VI-VIスケジュールでハトを訓練し、マッチング法則を見出した。<span id="VI">VIスケジュール</span>は、反応の頻度によらず、平均的にほぼ一定の間隔で報酬が得られるような確率的強化スケジュールである。したがって反応頻度が上がると、一回の反応に対して報酬を与える確率が下がるようになっており、報酬確率が過去の行動に依存する強化スケジュールの典型例である。一方、報酬確率が過去の行動に依存しない強化スケジュールは、Variable Ratio (VR) スケジュールと呼ばれ、一回の反応に対して一定の確率で報酬を与えるスケジュールである。		Herrnstein は、Variable Interval (VI) スケジュールという強化スケジュールを2択の反応にそれぞれ割り当てた並立VI-VIスケジュールでハトを訓練し、マッチング法則を見出した。<span id="VI">VIスケジュール</span>は、反応の頻度によらず、平均的にほぼ一定の間隔で報酬が得られるような確率的強化スケジュールである。したがって反応頻度が上がると、一回の反応に対して報酬を与える確率が下がるようになっており、報酬確率が過去の行動に依存する強化スケジュールの典型例である。一方、報酬確率が過去の行動に依存しない強化スケジュールは、Variable Ratio (VR) スケジュールと呼ばれ、一回の反応に対して一定の確率で報酬を与えるスケジュールである。

	並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。		並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref><pubmed>16812255</pubmed></ref> <ref><pubmed>16812223</pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。

	その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル「[[#Mel\|逐次改良法(melioration)]]」の予測と、動物の行動が一致することが示されている。		その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル「[[#Mel\|逐次改良法(melioration)]]」の予測と、動物の行動が一致することが示されている。
104行目:		104行目:

	=== マッチング法則を示す強化学習アルゴリズム ===		=== マッチング法則を示す強化学習アルゴリズム ===
	[[強化学習]]は、与えられた入力（感覚刺激）に応じて出力（反応）し、一連の出力の結果、得られる成果（報酬）を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、方策勾配法(policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、		[[強化学習]]は、与えられた入力（感覚刺激）に応じて出力（反応）し、一連の出力の結果、得られる成果（報酬）を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856</pubmed></ref> <ref><pubmed>18045007</pubmed></ref>。共通な性質として、方策勾配法(policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、

	アクタークリティック法：		アクタークリティック法：

2013年2月13日 (水) 00:16にTfuruyaによる

2013-02-13T00:16:39Z

← 古い版		2013年2月13日 (水) 09:16時点における版
1行目:		1行目:
	~~英：matching~~ law		英語名：matching law

	同義語：オペラントマッチング (operant matching)		同義語：オペラントマッチング (operant matching)
33行目:		33行目:

	* 離散的な試行の繰り返しである。		* 離散的な試行の繰り返しである。
	* ~~２択である。~~		* 2択である。
	* 各反応を選択したときの報酬確率はそれぞれ一定である。		* 各反応を選択したときの報酬確率はそれぞれ一定である。
	* 報酬が得られるときの報酬量は一定である。		* 報酬が得られるときの報酬量は一定である。
71行目:		71行目:

	<span id="Model"></span>		<span id="Model"></span>

	== マッチングの行動学習モデル ==		== マッチングの行動学習モデル ==
	<span id="Mel"></span>		<span id="Mel"></span>

	=== 逐次改良法 (melioration) ===		=== 逐次改良法 (melioration) ===
	VaughanとHerrnsteinは、逐次改良法と呼ばれる行動学習モデルを提唱している。各反応の割合を変化させて行動学習を行っていると仮定し、各反応を行ったときに得られる平均報酬（強化率）を推定して、より強化率の高い反応の割合を上げる、というモデルである。マッチング法則が成り立つような状態になると、全ての反応の強化率が等しくなるので、反応割合の変化が起こらなくなり、定常状態に達する。		VaughanとHerrnsteinは、逐次改良法と呼ばれる行動学習モデルを提唱している。各反応の割合を変化させて行動学習を行っていると仮定し、各反応を行ったときに得られる平均報酬（強化率）を推定して、より強化率の高い反応の割合を上げる、というモデルである。マッチング法則が成り立つような状態になると、全ての反応の強化率が等しくなるので、反応割合の変化が起こらなくなり、定常状態に達する。
82行目:		84行目:

	<span id="Cov"></span>		<span id="Cov"></span>

	=== 共分散則 (covariance rule) ===		=== 共分散則 (covariance rule) ===
	LoewensteinとSeungは、神経系における[[シナプス可塑性]]に共分散則というルールを適用すると、行動上でマッチング法則が顕れることを証明した<ref><pubmed>17008410</pubmed></ref>。彼らの仮定は次の2つのみである。		LoewensteinとSeungは、神経系における[[シナプス可塑性]]に共分散則というルールを適用すると、行動上でマッチング法則が顕れることを証明した<ref><pubmed>17008410</pubmed></ref>。彼らの仮定は次の2つのみである。
99行目:		102行目:

	<span id="RL"></span>		<span id="RL"></span>

	=== マッチング法則を示す強化学習アルゴリズム ===		=== マッチング法則を示す強化学習アルゴリズム ===
	[[強化学習]]は、与えられた入力（感覚刺激）に応じて出力（反応）し、一連の出力の結果、得られる成果（報酬）を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、方策勾配法(policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、		[[強化学習]]は、与えられた入力（感覚刺激）に応じて出力（反応）し、一連の出力の結果、得られる成果（報酬）を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、方策勾配法(policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、
137行目:		141行目:
	一方、一般に状況に応じて適切な反応を選択しなければ、得られる報酬を最大化することはできない。状況に応じた反応選択をするためにも現在の状況を表わす状態変数が必要である。状態変数の取り方を決めると反応の仕方は、あらゆる行動から限定されることになる。その範囲に真の最適行動が含まれていなければ、限定した範囲での報酬最大化しかできず、真の最大報酬を得ることはできない。		一方、一般に状況に応じて適切な反応を選択しなければ、得られる報酬を最大化することはできない。状況に応じた反応選択をするためにも現在の状況を表わす状態変数が必要である。状態変数の取り方を決めると反応の仕方は、あらゆる行動から限定されることになる。その範囲に真の最適行動が含まれていなければ、限定した範囲での報酬最大化しかできず、真の最大報酬を得ることはできない。

	こうして、状態変数の取り方によって、報酬最大化に失敗する要因は２段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。		こうして、状態変数の取り方によって、報酬最大化に失敗する要因は2段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。

	真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。例えば[[#VI\|VIスケジュール]]を用いた課題では、片方の選択肢を選択し続けている時間を現在の状態を表す変数として用いて、選択持続時間の状態価値に関するTD学習を行い、選択持続時間に応じた反応を行うことが、真の最大報酬を得るために必要となる。[[#Egleman\|Eglemanらの課題]]では、次の報酬確率を決めるのに使う過去一定期間の選択頻度を、被験者も現在の状態として用いることが必要となる。しかし何も知らされない被験者がそんな情報に注目するするのは、難しいことだろう。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したのではないか、と推察できる。		真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。例えば[[#VI\|VIスケジュール]]を用いた課題では、片方の選択肢を選択し続けている時間を現在の状態を表す変数として用いて、選択持続時間の状態価値に関するTD学習を行い、選択持続時間に応じた反応を行うことが、真の最大報酬を得るために必要となる。[[#Egleman\|Eglemanらの課題]]では、次の報酬確率を決めるのに使う過去一定期間の選択頻度を、被験者も現在の状態として用いることが必要となる。しかし何も知らされない被験者がそんな情報に注目するするのは、難しいことだろう。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したのではないか、と推察できる。

	しかし、動物が慣れ親しんだ自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないだろうか。例えば[[#VI\|VIスケジュール]]は自然環境での採餌を模擬していると言えるが、自然の中で採餌を営んでいる動物にとって、ある餌場に最近どのくらい探しに行っていないか、という情報に注目するのは、それほど困難ではないだろう。動物が生存のために直面する状況では、概ね適切な状態変数を見いだすことができ、適切な状態変数の元で効率的なTD学習を用いて、得られる報酬を最大化しているのではないだろうか。こうした動物の効率的な学習機能を人工環境で切り出した結果がマッチングであると解釈できる。		しかし、動物が慣れ親しんだ自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないだろうか。例えば[[#VI\|VIスケジュール]]は自然環境での採餌を模擬していると言えるが、自然の中で採餌を営んでいる動物にとって、ある餌場に最近どのくらい探しに行っていないか、という情報に注目するのは、それほど困難ではないだろう。動物が生存のために直面する状況では、概ね適切な状態変数を見いだすことができ、適切な状態変数の元で効率的なTD学習を用いて、得られる報酬を最大化しているのではないだろうか。こうした動物の効率的な学習機能を人工環境で切り出した結果がマッチングであると解釈できる。


	== 参考文献 ==		== 参考文献 ==

2013年2月11日 (月) 03:57にYutakasakaiによる

2013-02-11T03:57:34Z

← 古い版		2013年2月11日 (月) 12:57時点における版
112行目:		112行目:
	<span id="Sig"></span>		<span id="Sig"></span>
	== マッチングの意義 ==		== マッチングの意義 ==
	報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTemporal Difference (TD) 学習による近似である。TD学習は多くの強化学習アルゴリズムで採用されている手法であり、その中で学習信号として用いられるTD予測誤差とよく似た振る舞いが中脳黒質のドーパミン投射細胞に見られることから、動物の脳においてもTD学習が用いられているのではないかと示唆されている。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。		報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTemporal Difference (TD) 学習による近似である。TD学習は多くの強化学習アルゴリズムで採用されている手法であり、その中で学習信号として用いられるTD予測誤差とよく似た振る舞いが中脳黒質のドーパミン投射細胞に見られることから<ref><pubmed>9054347</pubmed></ref>、動物の脳においてもTD学習が用いられているのではないかと示唆されている。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。

	<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|s_t=s\right]</math>		<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|s_t=s\right]</math>

2013年2月11日 (月) 03:20にYutakasakaiによる

2013-02-11T03:20:13Z

← 古い版		2013年2月11日 (月) 12:20時点における版
100行目:		100行目:
	<span id="RL"></span>		<span id="RL"></span>
	=== マッチング法則を示す強化学習アルゴリズム ===		=== マッチング法則を示す強化学習アルゴリズム ===
	[[強化学習]]は、与えられた入力（感覚刺激）に応じて出力（反応）し、一連の出力の結果、得られる成果（報酬）を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>~~。共通な性質として、[[方策勾配法]]~~ ([[policy gradient]]) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に [[Temporal Difference (TD) 学習]]と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、[[アクタークリティック法]]と[[ダイレクトアクター法]]が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、		[[強化学習]]は、与えられた入力（感覚刺激）に応じて出力（反応）し、一連の出力の結果、得られる成果（報酬）を最大にするような入出力関係を学習する枠組である。工学的に有用なアルゴリズムが多数開発されている。よく知られた強化学習アルゴリズムをマッチング行動が観測されているような強化スケジュールに適用し、反応するタイミングでは感覚刺激が一定であることから、入力を一定とすると、一部のアルゴリズムはマッチング行動に至ることが示されている<ref><pubmed>16942856 18045007</pubmed></ref>。共通な性質として、方策勾配法(policy gradient) と呼ばれる勾配法を使った報酬最大化アルゴリズムに属し、その際に Temporal Difference (TD) 学習と呼ばれる予測学習法を用いていることが挙げられる。よく知られたアルゴリズムの例として、アクタークリティック法とダイレクトアクター法が挙げられる。各反応の選択確率を<math>p_a=e^{w_a}/(e^{w_1}+e^{w_2}+\cdots+e^{w_n})</math>とし、変数<math>\{w_1,w_2,\cdots,w_n\}</math>を変化させて行動学習しているとすれば、

	アクタークリティック法：		アクタークリティック法：
139行目:		139行目:
	こうして、状態変数の取り方によって、報酬最大化に失敗する要因は２段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。		こうして、状態変数の取り方によって、報酬最大化に失敗する要因は２段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。

	~~例えば~~[[#VI\|VIスケジュール]]を用いた課題では、片方の選択肢を選択し続けている時間を現在の状態を表す変数として用いて、選択持続時間の状態価値に関するTD学習を行い、選択持続時間に応じた反応を行うことが、真の最大報酬を得るために必要となる。[[#Egleman\|Eglemanらの課題]]		真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。例えば[[#VI\|VIスケジュール]]を用いた課題では、片方の選択肢を選択し続けている時間を現在の状態を表す変数として用いて、選択持続時間の状態価値に関するTD学習を行い、選択持続時間に応じた反応を行うことが、真の最大報酬を得るために必要となる。[[#Egleman\|Eglemanらの課題]]では、次の報酬確率を決めるのに使う過去一定期間の選択頻度を、被験者も現在の状態として用いることが必要となる。しかし何も知らされない被験者がそんな情報に注目するするのは、難しいことだろう。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したのではないか、と推察できる。

	真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したが、自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないか、と解釈できる。		しかし、動物が慣れ親しんだ自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないだろうか。例えば[[#VI\|VIスケジュール]]は自然環境での採餌を模擬していると言えるが、自然の中で採餌を営んでいる動物にとって、ある餌場に最近どのくらい探しに行っていないか、という情報に注目するのは、それほど困難ではないだろう。動物が生存のために直面する状況では、概ね適切な状態変数を見いだすことができ、適切な状態変数の元で効率的なTD学習を用いて、得られる報酬を最大化しているのではないだろうか。こうした動物の効率的な学習機能を人工環境で切り出した結果がマッチングであると解釈できる。

2013年2月11日 (月) 02:44にYutakasakaiによる

2013-02-11T02:44:24Z

← 古い版		2013年2月11日 (月) 11:44時点における版
48行目:		48行目:
	== マッチングと報酬最大化 ==		== マッチングと報酬最大化 ==

	Herrnstein は、Variable Interval (VI) スケジュールという強化スケジュールを2択の反応にそれぞれ割り当てた並立VI-VIスケジュールでハトを訓練し、マッチング法則を見出した。VIスケジュールは、反応の頻度によらず、平均的にほぼ一定の間隔で報酬が得られるような確率的強化スケジュールである。したがって反応頻度が上がると、一回の反応に対して報酬を与える確率が下がるようになっており、報酬確率が過去の行動に依存する強化スケジュールの典型例である。一方、報酬確率が過去の行動に依存しない強化スケジュールは、Variable Ratio (VR) スケジュールと呼ばれ、一回の反応に対して一定の確率で報酬を与えるスケジュールである。		Herrnstein は、Variable Interval (VI) スケジュールという強化スケジュールを2択の反応にそれぞれ割り当てた並立VI-VIスケジュールでハトを訓練し、マッチング法則を見出した。<span id="VI">VIスケジュール</span>は、反応の頻度によらず、平均的にほぼ一定の間隔で報酬が得られるような確率的強化スケジュールである。したがって反応頻度が上がると、一回の反応に対して報酬を与える確率が下がるようになっており、報酬確率が過去の行動に依存する強化スケジュールの典型例である。一方、報酬確率が過去の行動に依存しない強化スケジュールは、Variable Ratio (VR) スケジュールと呼ばれ、一回の反応に対して一定の確率で報酬を与えるスケジュールである。

	並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。		並立VR-VRスケジュールでは、平均報酬が大きい方の反応をし続ける行動が最適であり、片方の反応を全く行っていないので、自明にマッチング法則を満たす。一方、並立VI-VIスケジュールでも、報酬量を最大にする反応の割合がほぼマッチング法則を満たすことがわかっている<ref> <pubmed> 16812255 16812223 </pubmed></ref>。したがって、この範囲では、マッチングの結果なのか、報酬最大化の結果なのか、区別できない。

	その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル「[[逐次改良法]]([[melioration]])」の予測と、動物の行動が一致することが示されている。		その後、マッチングと報酬最大化を区別できる強化スケジュールとして、より複雑な強化スケジュールが提案されてきた。VIスケジュールとVRスケジュールを2択の反応にそれぞれ割り当てた並立VI-VRスケジュール<ref><pubmed> 16812126 </pubmed></ref>や、VIスケジュールとVRスケジュールを2段階に組み合わせた Mazur のスケジュール<ref><pubmed> 7292017 </pubmed></ref>、過去一定期間の反応頻度に応じてVIスケジュールの平均報酬間隔を制御する Vaughan のスケジュール<ref><pubmed> 16812236 </pubmed></ref>など、いずれもマッチングと報酬最大化の結果が大きく異なるように設計でき、実験結果はマッチング法則の方を示してきた。特に Vaughan のスケジュールでは、マッチング法則を満たす複数の解を設計でき、彼らが提唱する行動学習モデル「[[#Mel\|逐次改良法(melioration)]]」の予測と、動物の行動が一致することが示されている。

	こうして、報酬最大化ではなくマッチングであることは様々な実験で示されているが、それぞれ、様々な批判もある。特に重要な批判は Change-over-delay(COD) と呼ばれる、反応の切り替えに対するペナルティを課していることにある。マッチング法則を示してきた強化スケジュールの多くは、2択の反応を交互に行うと高い確率で報酬を得られるようになっており、そのような交互反応にならないように切替のペナルティが導入されている。この操作が、最適行動を取れている動物を無理やりマッチング行動に押し込めているかのような印象を与えている。		こうして、報酬最大化ではなくマッチングであることは様々な実験で示されているが、それぞれ、様々な批判もある。特に重要な批判は Change-over-delay(COD) と呼ばれる、反応の切り替えに対するペナルティを課していることにある。マッチング法則を示してきた強化スケジュールの多くは、2択の反応を交互に行うと高い確率で報酬を得られるようになっており、そのような交互反応にならないように切替のペナルティが導入されている。この操作が、最適行動を取れている動物を無理やりマッチング行動に押し込めているかのような印象を与えている。

	~~これに対し、切替のペナルティを導入する必要がない強化スケジュールもEglemanらによって考案されている~~<ref><pubmed> 9802995 </pubmed></ref>。Vaughanのスケジュールをより単純化したものになっており、過去一定期間の反応頻度によって次の反応に対する報酬確率を決定するスケジュールである。報酬確率を決める関数形によって、報酬最大化とマッチング、および交互反応の結果、得られる平均報酬を自由に設計でき、さらに反応の選択順序に依存せず、反応頻度だけに依存するスケジュールであるため、反応頻度に関する法則を観測するのに適している。Eglemanらはヒトを対象にして、マッチング行動を示す被験者が多数であることを示した。		これに対し、切替のペナルティを導入する必要がない強化スケジュールも<span id="Egleman">Eglemanらによって考案</span>されている<ref><pubmed> 9802995 </pubmed></ref>。Vaughanのスケジュールをより単純化したものになっており、過去一定期間の反応頻度によって次の反応に対する報酬確率を決定するスケジュールである。報酬確率を決める関数形によって、報酬最大化とマッチング、および交互反応の結果、得られる平均報酬を自由に設計でき、さらに反応の選択順序に依存せず、反応頻度だけに依存するスケジュールであるため、反応頻度に関する法則を観測するのに適している。Eglemanらはヒトを対象にして、マッチング行動を示す被験者が多数であることを示した。

	== マッチング法則からのずれ ==		== マッチング法則からのずれ ==
138行目:		138行目:

	こうして、状態変数の取り方によって、報酬最大化に失敗する要因は２段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。		こうして、状態変数の取り方によって、報酬最大化に失敗する要因は２段階に存在する。反応の仕方が限定され真の最適行動に辿りつけないことと、TD学習の条件を満たさない状態変数を取ることによって限定された範囲での報酬最大化もできなくなることである。したがって状態変数の取り方は報酬最大化に重要である。

			例えば[[#VI\|VIスケジュール]]を用いた課題では、片方の選択肢を選択し続けている時間を現在の状態を表す変数として用いて、選択持続時間の状態価値に関するTD学習を行い、選択持続時間に応じた反応を行うことが、真の最大報酬を得るために必要となる。[[#Egleman\|Eglemanらの課題]]

	真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したが、自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないか、と解釈できる。		真の最適行動を含むような状態変数の取り方を一般化すると、TD学習の条件を満たすことがわかっている。つまり、真の最大報酬を得るために、適切な状態変数を取るためのメカニズムがあれば、TD学習を用いても真の最大報酬を得ることができる。マッチング法則が観測されている強化スケジュールは、適切な状態変数が何かわかりにくいスケジュールになっている。人工的な環境を設定することにより、適切な状態変数を見出すことができずに、状態の区別をしなかった結果、報酬最大化できずにマッチング法則を示したが、自然環境では適切な状態変数を見出すことができ、TD学習の条件を満たすため、問題が生じないのではないか、と解釈できる。

2013年2月11日 (月) 02:18にYutakasakaiによる

2013-02-11T02:18:17Z

← 古い版		2013年2月11日 (月) 11:18時点における版
112行目:		112行目:
	<span id="Sig"></span>		<span id="Sig"></span>
	== マッチングの意義 ==		== マッチングの意義 ==
	報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTemporal Difference (TD) 学習による近似である。TD学習は多くの強化学習アルゴリズムで採用されている手法であり、その中で使われる学習信号であるTD予測誤差とよく似た振る舞いが中脳黒質のドーパミン投射細胞に見られることから、動物の脳においてもTD学習が用いられているのではないかと示唆されている。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。		報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTemporal Difference (TD) 学習による近似である。TD学習は多くの強化学習アルゴリズムで採用されている手法であり、その中で学習信号として用いられるTD予測誤差とよく似た振る舞いが中脳黒質のドーパミン投射細胞に見られることから、動物の脳においてもTD学習が用いられているのではないかと示唆されている。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。

	<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|s_t=s\right]</math>		<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|s_t=s\right]</math>

	ここで、<math>E[X\|C]</math>は条件付期待値の記号で、条件<math>C</math>の下での<math>X</math>の値の平均値を表す。平均報酬<math>E[r]</math>からの相対値で定義するのは、状態価値<math>V(s)</math>~~が発散しないためであり、本質ではない。学習で用いるのは異なる状態間の状態価値の差~~<math>V(s)-V(s')</math>~~であり、各状態で共通の基準値からの相対値であれば問題ない。平均報酬~~<math>E[r]</math>はあらゆる時間に対する平均の意味も含み、定常な環境と行動選択の仕方の元では、任意の時刻<math>t</math>における期待値が平均報酬と等しくなる（<math>E[r_t]=E[r]</math>）。各状態における状態価値<math>V(s)</math>を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。		ここで、<math>E[X\|C]</math>は条件付期待値の記号で、条件<math>C</math>の下での<math>X</math>の値の平均値を表す。平均報酬<math>E[r]</math>からの相対値で定義するのは、状態価値<math>V(s)</math>が発散しないためであり、本質ではない（注：将来報酬価値に対する割引を考慮した定義の方が一般に広く知られており、割引があると相対値を取らなくても発散しないため、相対値は通常用いられない。しかしここでは割引価値最大化ではなく報酬最大化の枠組みに則っており、平均報酬からの相対値で定義するのが一般的である）。学習で用いるのは異なる状態間の状態価値の差<math>V(s)-V(s')</math>となり、各状態で共通の基準値からの相対値であれば平均報酬からでなくても問題ない。特定の時刻を明示しない変数<math>r</math>の期待値<math>E[r]</math>はあらゆる時間に対する平均の意味も含み、定常な環境と行動選択の仕方の元では、任意の時刻<math>t</math>における期待値が平均報酬と等しくなる（<math>E[r_t]=E[r]</math>）。各状態における状態価値<math>V(s)</math>を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。

	TD学習：<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|a_t=a\right]		TD学習：<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|a_t=a\right]

2013年2月11日 (月) 02:01にYutakasakaiによる

2013-02-11T02:01:19Z

← 古い版		2013年2月11日 (月) 11:01時点における版
112行目:		112行目:
	<span id="Sig"></span>		<span id="Sig"></span>
	== マッチングの意義 ==		== マッチングの意義 ==
	報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTD学習による近似である。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。		報酬最大化を目的とした強化学習アルゴリズムの一部がマッチングを示すことから、マッチングは報酬最大化を目指す学習戦略の一種であることが示唆される。しかし、実際に報酬最大化に失敗してマッチングを示すことから、条件によってはうまく働かない原因があると考えられる。それがTemporal Difference (TD) 学習による近似である。TD学習は多くの強化学習アルゴリズムで採用されている手法であり、その中で使われる学習信号であるTD予測誤差とよく似た振る舞いが中脳黒質のドーパミン投射細胞に見られることから、動物の脳においてもTD学習が用いられているのではないかと示唆されている。TD学習では、現在の状況を表わす状態変数<math>s</math>を用いる。ある状態にいた後、得られる期待報酬と平均報酬の差を将来にわたって累積したものをその状態の状態価値と呼び、<math>V(s)</math>と表記する。

	<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|s_t=s\right]</math>		<math> V(s) \equiv E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|s_t=s\right]</math>

	~~各状態における状態価値を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。~~		ここで、<math>E[X\|C]</math>は条件付期待値の記号で、条件<math>C</math>の下での<math>X</math>の値の平均値を表す。平均報酬<math>E[r]</math>からの相対値で定義するのは、状態価値<math>V(s)</math>が発散しないためであり、本質ではない。学習で用いるのは異なる状態間の状態価値の差<math>V(s)-V(s')</math>であり、各状態で共通の基準値からの相対値であれば問題ない。平均報酬<math>E[r]</math>はあらゆる時間に対する平均の意味も含み、定常な環境と行動選択の仕方の元では、任意の時刻<math>t</math>における期待値が平均報酬と等しくなる（<math>E[r_t]=E[r]</math>）。各状態における状態価値<math>V(s)</math>を推定し、ある反応をした後に得られる累積報酬を、1ステップ先の状態価値を用いて置き換えるのがTD学習である。

	TD学習：<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|a_t=a\right]		TD学習：<math> E\left[\sum_{\tau=1}^{\infty}(r_{t+\tau}-E[r])\Big\|a_t=a\right]