「模倣学習」の版間の差分

94行目: 94行目:
 現在の逆強化学習で最も基礎となる手法は[[最大エントロピー原理]]に基づく方法<ref name=Ziebart2008>'''B D Ziebart, A Maas, J A Bagnell, and A K Dey (2008).'''<br>Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 1433-1438</ref>であり、これは強化学習の目的を単なる積算報酬最大化ではなく、方策の[[エントロピー]]を付与した報酬を最大化することに等しい。この方法は深層学習との統合も容易で、大規模なナビゲーション課題に適用された例<ref name=Wulfmeier2017>'''Markus Wulfmeier, Dushyant Rao, Dominic Zeng Wang, Peter Ondruska, and Ingmar Posner (2017).'''<br>Large-scale cost function learning for path planning using deep inverse reinforcement learning. International Journal of Robotics Research, 36:1073-87.</ref>もある。しかし最大エントロピー原理に基づく方法は環境の状態遷移確率が既知であると仮定していること、強化学習による方策最適化を繰り返し説くため計算効率が悪いことなどの問題点がある。
 現在の逆強化学習で最も基礎となる手法は[[最大エントロピー原理]]に基づく方法<ref name=Ziebart2008>'''B D Ziebart, A Maas, J A Bagnell, and A K Dey (2008).'''<br>Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 1433-1438</ref>であり、これは強化学習の目的を単なる積算報酬最大化ではなく、方策の[[エントロピー]]を付与した報酬を最大化することに等しい。この方法は深層学習との統合も容易で、大規模なナビゲーション課題に適用された例<ref name=Wulfmeier2017>'''Markus Wulfmeier, Dushyant Rao, Dominic Zeng Wang, Peter Ondruska, and Ingmar Posner (2017).'''<br>Large-scale cost function learning for path planning using deep inverse reinforcement learning. International Journal of Robotics Research, 36:1073-87.</ref>もある。しかし最大エントロピー原理に基づく方法は環境の状態遷移確率が既知であると仮定していること、強化学習による方策最適化を繰り返し説くため計算効率が悪いことなどの問題点がある。


 計算効率を大幅に改善した方法として、方策のエントロピーではなく、ベースライン方策の学習方策の[[相対エントロピー]]を用いた正則化に基づく方法が提案されている。特に[[線形可解マルコフ決定過程]]のもとでの逆強化学習法OptV<ref name=Dvijotham2010>'''Krishnamurthy Dvijotham and Emanuel Todorov (2010).'''<br>Proc. of the 27th international conference on machine learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 335-42. </ref>は[[状態価値関数]]の推定を経ることで逆強化学習の困難さが大幅に緩和できることを示した。またOptVを密度比推定の問題として定式化することで、状態遷移確率を明示的に必要としないモデルフリー逆強化学習法<ref name=Uchibe2018>'''Eiji Uchibe (2018).'''<br>Model-free deep inverse reinforcement learning by logistic regression. Neural Processing Letters, 47:891-905. </ref>も開発された。Yamaguchi et al. <ref name=Yamaguchi2018><pubmed>29718905</pubmed></ref>は[[線虫]](C''aenorhabditis elegans''; ''C. elegans'')の[[温度走性行動]]をOptimize Value function (OptV)によって解析し、餌が十分ある状態で育った線虫は絶対温度と温度の時間微分に、飢餓状態で育った線虫は絶対温度のみに依存した報酬を感じていることを明らかにした。またAshida et al. <ref name=Ashida2019><pubmed>31082452</pubmed></ref>[43]は線虫の領域制限探索行動において[[ドーパミン]]が速度変化に影響を与えていることを示した。
 計算効率を大幅に改善した方法として、方策のエントロピーではなく、ベースライン方策の学習方策の[[相対エントロピー]]を用いた正則化に基づく方法が提案されている。特に[[線形可解マルコフ決定過程]]のもとでの逆強化学習法Optimize Value function<ref name=Dvijotham2010>'''Krishnamurthy Dvijotham and Emanuel Todorov (2010).'''<br>Proc. of the 27th international conference on machine learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 335-42. </ref>は[[状態価値関数]]の推定を経ることで逆強化学習の困難さが大幅に緩和できることを示した。またOptimize Value functionを密度比推定の問題として定式化することで、状態遷移確率を明示的に必要としないモデルフリー逆強化学習法<ref name=Uchibe2018>'''Eiji Uchibe (2018).'''<br>Model-free deep inverse reinforcement learning by logistic regression. Neural Processing Letters, 47:891-905. </ref>も開発された。Yamaguchi et al. <ref name=Yamaguchi2018><pubmed>29718905</pubmed></ref>は[[線虫]](''Caenorhabditis elegans''; ''C. elegans'')の[[温度走性行動]]をOptimize Value functionによって解析し、餌が十分ある状態で育った線虫は絶対温度と温度の時間微分に、飢餓状態で育った線虫は絶対温度のみに依存した報酬を感じていることを明らかにした。またAshida et al. <ref name=Ashida2019><pubmed>31082452</pubmed></ref>[43]は線虫の領域制限探索行動において[[ドーパミン]]が速度変化に影響を与えていることを示した。


===敵対的生成模倣学習に基づく方法===
===敵対的生成模倣学習に基づく方法===