「模倣学習」の版間の差分

79行目: 79行目:


===敵対的生成模倣学習に基づく方法===
===敵対的生成模倣学習に基づく方法===
相対エントロピーを用いた方法はベースライン方策の選択が結果に重大な影響を及ぼす。学習前または初心者の方策をベースラインとして採用するのが一般的であるが、教示者の方策と大きく異なる場合にはうまく報酬が推定できない。そこで逆強化学習で推定された報酬をもとに方策を改善し新たなベースライン方策として用いる方法が開発され、GANとして解釈できることが報告された<ref name=Finn2016>Chelsea Finn, Paul Christiano, Pieter Abbeel, and Sergey Levine (2016).<br>A connection between gener- ative adversarial networks, inverse reinforcement learning, and energy-based models. In NIPS 2016 Workshop on Adversarial Training. </ref><ref name=Ho2016>Jonathan Ho and Stefano Ermon (2016). Generative adversarial imitation learning. In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems, Vol. 29. Curran Associates, Inc. </ref>[44], [45]。前述したように、逆強化学習は密度比推定の問題に帰着できるが、これは教示者が生成した状態行動対と学習者が生成した状態行動対を区別する二値分類の問題と等価で、GANの識別器に対応する。一方、推定された報酬から方策を改善する強化学習は、データを生成する分布を調整するGANの生成器に対応する。
 相対エントロピーを用いた方法はベースライン方策の選択が結果に重大な影響を及ぼす。学習前または初心者の方策をベースラインとして採用するのが一般的であるが、教示者の方策と大きく異なる場合にはうまく報酬が推定できない。そこで逆強化学習で推定された報酬をもとに方策を改善し新たなベースライン方策として用いる方法が開発され、GANとして解釈できることが報告された<ref name=Finn2016>'''Chelsea Finn, Paul Christiano, Pieter Abbeel, and Sergey Levine (2016).'''<br>A connection between gener- ative adversarial networks, inverse reinforcement learning, and energy-based models. In NIPS 2016 Workshop on Adversarial Training. </ref><ref name=Ho2016>'''Jonathan Ho and Stefano Ermon (2016).'''<br>Generative adversarial imitation learning. In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems, Vol. 29. Curran Associates, Inc.</ref>[44], [45]。前述したように、逆強化学習は密度比推定の問題に帰着できるが、これは教示者が生成した状態行動対と学習者が生成した状態行動対を区別する二値分類の問題と等価で、GANの識別器に対応する。一方、推定された報酬から方策を改善する強化学習は、データを生成する分布を調整するGANの生成器に対応する。


敵対的生成模倣学習と通常のGANの大きな違いの一つは識別器を構造化できる点にある。一般に最適な識別器は教示者と学習者のデータ生成分布の密度比によって表現できるが、工学的なシステムにおいては学習者のデータ生成分布は実験者が明示的に規定できる。この事実とエントロピー正則の導入によって、識別器は報酬、状態価値関数、および学習者の方策によって構造化できる<ref name=Uchibe2018></ref><ref name=Fu2018><pubmed>Justin Fu, Katie Luo, and Sergey Levine (2018).<br>Learning robust rewards with adversarial inverse reinforcement learning. In Proc. of the 6th International Conference on Learning Representations,.</pubmed></ref>[41], [46]。エントロピー正則のもとで導出された識別器は強化学習と行動のランダムさなどのハイパーパラメータを共有化できるため、学習の進捗に応じて識別器の性能を調整できるなどの利点がある<ref name=Uchibe2021><pubmed>34492548</pubmed></ref>[47]。
 敵対的生成模倣学習と通常のGANの大きな違いの一つは識別器を構造化できる点にある。一般に最適な識別器は教示者と学習者のデータ生成分布の密度比によって表現できるが、工学的なシステムにおいては学習者のデータ生成分布は実験者が明示的に規定できる。この事実とエントロピー正則の導入によって、識別器は報酬、状態価値関数、および学習者の方策によって構造化できる<ref name=Uchibe2018></ref><ref name=Fu2018>'''Justin Fu, Katie Luo, and Sergey Levine (2018).'''<br>Learning robust rewards with adversarial inverse reinforcement learning. In Proc. of the 6th International Conference on Learning Representations,.</ref>[41], [46]。エントロピー正則のもとで導出された識別器は強化学習と行動のランダムさなどのハイパーパラメータを共有化できるため、学習の進捗に応じて識別器の性能を調整できるなどの利点がある<ref name=Uchibe2021><pubmed>34492548</pubmed></ref>[47]。


おわりに
== おわりに ==
模倣学習について概観した。前半では、ヒトや動物における模倣学習の構造、ならびに人工システムによる模倣学習について説明した。特に後者では、工学的応用の観点から軌道の再生、行動表出に主眼が置かれた。後半では、深層学習の応用としての逆強化学習による模倣学習の定式化がなされた。これらは新たな視点からの模倣学習の再構築が試みられており、今後も期待したい反面、模倣主体の動機づけ、行動目的の理解と共有、さらには共感などの高次の認知機能との連携が望まれる。
 模倣学習について概観した。前半では、ヒトや動物における模倣学習の構造、ならびに人工システムによる模倣学習について説明した。特に後者では、工学的応用の観点から軌道の再生、行動表出に主眼が置かれた。後半では、深層学習の応用としての逆強化学習による模倣学習の定式化がなされた。これらは新たな視点からの模倣学習の再構築が試みられており、今後も期待したい反面、模倣主体の動機づけ、行動目的の理解と共有、さらには共感などの高次の認知機能との連携が望まれる。


付録
== 付録 ==
運動、行動、行為などの定義
=== 運動、行動、行為などの定義 ===
ここでは、文献<ref name=浅田稔2006><pubmed>浅田稔, 國吉康夫 (2006)<br>『ロボットインテリジェンス』. 岩波書店,.</pubmed></ref>[2] 10頁の囲み部分を引用する。「ロボットの動きに関わる言葉として、以下のように様々なものがある。その定義は、研究者の間でも必ずしも一致せず、研究分野によっても異なるが、一つの整理の仕方を挙げておく。多くの場合、あまり厳密に区別して使われないが、行為認識などの理論を検討するときには区別が重要になる。」
「ロボットの動きに関わる言葉として、以下のように様々なものがある<ref name=浅田稔2006></ref>。その定義は、研究者の間でも必ずしも一致せず、研究分野によっても異なるが、一つの整理の仕方を挙げておく。多くの場合、あまり厳密に区別して使われないが、行為認識などの理論を検討するときには区別が重要になる。」
主体(agent):「~を発生し司るもの」(~には動作、行為、行動などがはいる)。生物やロボットの総称と思えばよい。運動(movement):空間中における物体の連続的な位置姿勢変化や形状変化と振動。。物理学用語での運動と同じ。方向、速度、軌道、振幅、周波数などを持つ。
* 主体(agent):「~を発生し司るもの」(~には動作、行為、行動などがはいる)。生物やロボットの総称と思えばよい。運動(movement):空間中における物体の連続的な位置姿勢変化や形状変化と振動。。物理学用語での運動と同じ。方向、速度、軌道、振幅、周波数などを持つ。
動作(motion):主体が発生する運動で、関係性(何かに向かう/離れるなど)、定型性や周期性(同じ運動を繰り返すなど)などの観点で一貫した単位ごとに分節化(articulation / segmentation:区切ること) でき、ある単位から別の単位への変化があるもの(そこに主体性がある)。(一般には行為(action) と区別されずに使われることも多い。)
* 動作(motion):主体が発生する運動で、関係性(何かに向かう/離れるなど)、定型性や周期性(同じ運動を繰り返すなど)などの観点で一貫した単位ごとに分節化(articulation / segmentation:区切ること) でき、ある単位から別の単位への変化があるもの(そこに主体性がある)。(一般には行為(action) と区別されずに使われることも多い。)
行為(action):主体が意図する目的と、その達成にむけて発生する(一連の)動作とその結果、およびそれら(目的、動作、結果)を結ぶ因果関係からなる一まとまりの構造[3]。行為の主体を行為主体(actor / action agent)と呼ぶ。(英語のaction は、下記の行動の意味で使うことも多い)
* 行為(action):主体が意図する目的と、その達成にむけて発生する(一連の)動作とその結果、およびそれら(目的、動作、結果)を結ぶ因果関係からなる一まとまりの構造[3]。行為の主体を行為主体(actor / action agent)と呼ぶ。(英語のaction は、下記の行動の意味で使うことも多い)
行動(behavior):行為のうち、外部から観測可能な部分、すなわち、(一連の)動作とその結果。(結果を含めずに動作の部分だけを指すことも多い。また、日本語ではaction の訳として「行動」を使うことも多い。観測者の視点からは行為と行動の区別はない。)「行動する主体」を行動主体または行動体(behavior agent) というが、この呼び方においては、主体の意図や判断などの内部状態や内部機構を特定しない。
* 行動(behavior):行為のうち、外部から観測可能な部分、すなわち、(一連の)動作とその結果。(結果を含めずに動作の部分だけを指すことも多い。また、日本語ではaction の訳として「行動」を使うことも多い。観測者の視点からは行為と行動の区別はない。)「行動する主体」を行動主体または行動体(behavior agent) というが、この呼び方においては、主体の意図や判断などの内部状態や内部機構を特定しない。
振舞い(behavior):一定の環境・状況のもとで同一の主体が発生する(一連の)行動。環境、状況、主体のどれかが変われば別の振舞いとなる。「行動」より時空間的に広がりがあるが、「行動」と同義に使うことも多い。
* 振舞い(behavior):一定の環境・状況のもとで同一の主体が発生する(一連の)行動。環境、状況、主体のどれかが変われば別の振舞いとなる。「行動」より時空間的に広がりがあるが、「行動」と同義に使うことも多い。
 
==参考文献==
<references />