「模倣学習」の版間の差分

(同じ利用者による、間の2版が非表示)
59行目: 59行目:
#観察した行動から模倣行動をどのようにマップするか?(対応付け問題)
#観察した行動から模倣行動をどのようにマップするか?(対応付け問題)
#模倣の試みの成否をどのように評価するか?(成功の度合い)
#模倣の試みの成否をどのように評価するか?(成功の度合い)
 人工物による模倣学習では、これらの課題のほとんどを事前決定しているケースが多い。[[w:Louis Herman|Herman]]<ref name=Herman2002>'''Louis M. Herman (2002).'''<br>Vocal, social, and self imitation by bottlenosed dolphins. In Kerstin Dautenhahn and Chrystopher L. Nehaniv, editors, Imitation in Animals and Artifacts, p. Chapter 3. The MIT Press. </ref>は、[[wj:ハンドウイルカ|ハンドウイルカ]]の興味ある模倣行動について報告している。視覚や聴覚を始めとする多様なモダリティや形態の模倣行動、トレーナーのジェスチャーによる模倣行動制御、そして自己模倣などが含まれる。彼らは、即時に同時に相互模倣すること、さらに人間のジェスチャーを模倣する際、異なる身体部位を使うが、模倣自体は的確に表現されている。ハンドウイルカは上記の5つの課題を巧妙に解いているように見える(後半で述べる計算論的な枠組みでは、これらの課題に直接結びつくアプローチも提案されており、後で触れる)。
 人工物による模倣学習では、これらの課題のほとんどを事前決定しているケースが多い。Herman<ref name=Herman2002>'''[[w:Louis Herman|Louis M. Herman]] (2002).'''<br>Vocal, social, and self imitation by bottlenosed dolphins. In Kerstin Dautenhahn and Chrystopher L. Nehaniv, editors, Imitation in Animals and Artifacts, p. Chapter 3. The MIT Press. </ref>は、[[wj:ハンドウイルカ|ハンドウイルカ]]の興味ある模倣行動について報告している。視覚や聴覚を始めとする多様なモダリティや形態の模倣行動、トレーナーのジェスチャーによる模倣行動制御、そして自己模倣などが含まれる。彼らは、即時に同時に相互模倣すること、さらに人間のジェスチャーを模倣する際、異なる身体部位を使うが、模倣自体は的確に表現されている。ハンドウイルカは上記の5つの課題を巧妙に解いているように見える(後半で述べる計算論的な枠組みでは、これらの課題に直接結びつくアプローチも提案されており、後で触れる)。


 これらは、特別のメカニズムによるのか、他者を含む環境との相互作用による創発行動なのかの議論がある。[[新生児模倣]]<ref name=Meltzoff1977><pubmed>897687</pubmed></ref>は、模倣の生得性を謳ったが、その後、多くの観察から、感覚運動学習の可能性が高くなっている(例えば、<ref name=Ray2011><pubmed>21159091</pubmed></ref>)。そして、'''図1'''でもすでに示されているように、模倣の進化の連続性の観点からは、共通のメカニズムとして、ミラーニューロンシステム<ref name=リゾラッティ2009>'''ジャコモ ・リゾラッティ&コラド・シニガリア, 柴田裕之 (訳), 茂木健一郎 (監修) (2009).'''<br>『ミラーニューロン』. 紀伊国屋書店. </ref>が重要な役割を果たしているように見える。ミラーニューロンは[[マカクザル]]の[[下前頭回]]([[F5領域]])と[[下頭頂葉]]で発見され、運動の観測と実行を司るニューロンと称されてきた。そして、先に示した共感やメンタライジング、さらには、ヒトの[[ブローカ野]]に近いこともあり、言語能力にも関連しているとさえ言われてきた<ref name=Rizzolatti1998><pubmed> 9610880 </pubmed></ref>。これらは、過渡の期待であり、多くの懸念を示す研究者もいる<ref name=Hickok2009><pubmed>19199415</pubmed></ref>。行為理解に無関係ではないが、そのような高次の機能を担っていないとも言われている<ref name=Hickok2013><pubmed>23147121</pubmed></ref>。ミラーニューロンシステムの定義自体にもよるが、ヒトのミラーニューロンシステムの解析では、Oosterhof et al. <ref name=Oosterhof2013><pubmed>23746574</pubmed></ref>は、multivariate pattern analysis (MVPA) <ref name=Mahmoudi2012><pubmed>23401720</pubmed></ref>を用いて、以下を示した('''図2'''も参照)。
 これらは、特別のメカニズムによるのか、他者を含む環境との相互作用による創発行動なのかの議論がある。[[新生児模倣]]<ref name=Meltzoff1977><pubmed>897687</pubmed></ref>は、模倣の生得性を謳ったが、その後、多くの観察から、感覚運動学習の可能性が高くなっている(例えば、<ref name=Ray2011><pubmed>21159091</pubmed></ref>)。そして、'''図1'''でもすでに示されているように、模倣の進化の連続性の観点からは、共通のメカニズムとして、ミラーニューロンシステム<ref name=リゾラッティ2009>'''ジャコモ ・リゾラッティ&コラド・シニガリア, 柴田裕之 (訳), 茂木健一郎 (監修) (2009).'''<br>『ミラーニューロン』. 紀伊国屋書店. </ref>が重要な役割を果たしているように見える。ミラーニューロンは[[マカクザル]]の[[下前頭回]]([[F5領域]])と[[下頭頂葉]]で発見され、運動の観測と実行を司るニューロンと称されてきた。そして、先に示した共感やメンタライジング、さらには、ヒトの[[ブローカ野]]に近いこともあり、言語能力にも関連しているとさえ言われてきた<ref name=Rizzolatti1998><pubmed> 9610880 </pubmed></ref>。これらは、過渡の期待であり、多くの懸念を示す研究者もいる<ref name=Hickok2009><pubmed>19199415</pubmed></ref>。行為理解に無関係ではないが、そのような高次の機能を担っていないとも言われている<ref name=Hickok2013><pubmed>23147121</pubmed></ref>。ミラーニューロンシステムの定義自体にもよるが、ヒトのミラーニューロンシステムの解析では、Oosterhof et al. <ref name=Oosterhof2013><pubmed>23746574</pubmed></ref>は、multivariate pattern analysis (MVPA) <ref name=Mahmoudi2012><pubmed>23401720</pubmed></ref>を用いて、以下を示した('''図2'''も参照)。
67行目: 67行目:
*[[腹側運動前野]]([[PMv]])は、視覚運動表現において、第三者視点よりも本人の視点からの応答が強かった。マカクザルでは、この該当領域([[F5]])において、自己他者の視点の違いによらない行動認識とされていたことと異なる。
*[[腹側運動前野]]([[PMv]])は、視覚運動表現において、第三者視点よりも本人の視点からの応答が強かった。マカクザルでは、この該当領域([[F5]])において、自己他者の視点の違いによらない行動認識とされていたことと異なる。
*[[前頭頂間溝]]([[aIPS]])は、[[視覚]]、[[運動]]、および[[心象]]のモダリティ全体を一般化することに関して、最も一貫した行動のコーディングを示した。このことは、ヒトミラーニューロンシステムの基本的なハブの可能性が高い。
*[[前頭頂間溝]]([[aIPS]])は、[[視覚]]、[[運動]]、および[[心象]]のモダリティ全体を一般化することに関して、最も一貫した行動のコーディングを示した。このことは、ヒトミラーニューロンシステムの基本的なハブの可能性が高い。
*[[外側後頭側頭皮質]]([[OT]])の領域は、クロスモーダルでアクション固有、視点に依存しない行動表現を示している。伝統的にはこの領域は視覚の一部で、視覚運動、身体部位、物体形状などの隣接表現に関与してきたが、最近の多くの研究では、ハプティクス、運動行動、道具使用等の汎用領域であることを示唆する。よってこの外側後頭側頭皮質領域は、ヒトミラーニューロンシステムの候補部分である。
*[[外側後頭側頭皮質]]([[OT]])の領域は、クロスモーダルでアクション固有、視点に依存しない行動表現を示している。伝統的にはこの領域は視覚の一部で、視覚運動、身体部位、物体形状などの隣接表現に関与してきたが、最近の多くの研究では、ハプティクス、運動行動、道具使用等の汎用領域であることを示唆する。よってこのOT領域は、ヒトミラーニューロンシステムの候補部分である。
*ミラーニューロンが(前)[[運動野]]で発見されたことで、[[前頭葉|前頭]][[頭頂葉|頭頂]]ヒトミラーニューロンシステムの直接マッピング機構仮説が唱えられたが、ヒトの運動野以外のクロスモーダルでアクション固有の表現が、上記の外側後頭側頭皮質や海馬にもあることが発見され、この仮説が不完全であることが明らかになった。
*ミラーニューロンが(前)[[運動野]]で発見されたことで、[[前頭葉|前頭]][[頭頂葉|頭頂]]ヒトミラーニューロンシステムの直接マッピング機構仮説が唱えられたが、ヒトの運動野以外のクロスモーダルでアクション固有の表現が、上記の外側後頭側頭皮質や海馬にもあることが発見され、この仮説が不完全であることが明らかになった。


94行目: 94行目:
 現在の逆強化学習で最も基礎となる手法は[[最大エントロピー原理]]に基づく方法<ref name=Ziebart2008>'''B D Ziebart, A Maas, J A Bagnell, and A K Dey (2008).'''<br>Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 1433-1438</ref>であり、これは強化学習の目的を単なる積算報酬最大化ではなく、方策の[[エントロピー]]を付与した報酬を最大化することに等しい。この方法は深層学習との統合も容易で、大規模なナビゲーション課題に適用された例<ref name=Wulfmeier2017>'''Markus Wulfmeier, Dushyant Rao, Dominic Zeng Wang, Peter Ondruska, and Ingmar Posner (2017).'''<br>Large-scale cost function learning for path planning using deep inverse reinforcement learning. International Journal of Robotics Research, 36:1073-87.</ref>もある。しかし最大エントロピー原理に基づく方法は環境の状態遷移確率が既知であると仮定していること、強化学習による方策最適化を繰り返し説くため計算効率が悪いことなどの問題点がある。
 現在の逆強化学習で最も基礎となる手法は[[最大エントロピー原理]]に基づく方法<ref name=Ziebart2008>'''B D Ziebart, A Maas, J A Bagnell, and A K Dey (2008).'''<br>Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 1433-1438</ref>であり、これは強化学習の目的を単なる積算報酬最大化ではなく、方策の[[エントロピー]]を付与した報酬を最大化することに等しい。この方法は深層学習との統合も容易で、大規模なナビゲーション課題に適用された例<ref name=Wulfmeier2017>'''Markus Wulfmeier, Dushyant Rao, Dominic Zeng Wang, Peter Ondruska, and Ingmar Posner (2017).'''<br>Large-scale cost function learning for path planning using deep inverse reinforcement learning. International Journal of Robotics Research, 36:1073-87.</ref>もある。しかし最大エントロピー原理に基づく方法は環境の状態遷移確率が既知であると仮定していること、強化学習による方策最適化を繰り返し説くため計算効率が悪いことなどの問題点がある。


 計算効率を大幅に改善した方法として、方策のエントロピーではなく、ベースライン方策の学習方策の[[相対エントロピー]]を用いた正則化に基づく方法が提案されている。特に[[線形可解マルコフ決定過程]]のもとでの逆強化学習法Optimize Value function<ref name=Dvijotham2010>'''Krishnamurthy Dvijotham and Emanuel Todorov (2010).'''<br>Proc. of the 27th international conference on machine learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 335-42. </ref>は[[状態価値関数]]の推定を経ることで逆強化学習の困難さが大幅に緩和できることを示した。またOptimize Value functionを密度比推定の問題として定式化することで、状態遷移確率を明示的に必要としないモデルフリー逆強化学習法<ref name=Uchibe2018>'''Eiji Uchibe (2018).'''<br>Model-free deep inverse reinforcement learning by logistic regression. Neural Processing Letters, 47:891-905. </ref>も開発された。Yamaguchi et al. <ref name=Yamaguchi2018><pubmed>29718905</pubmed></ref>は[[線虫]](''Caenorhabditis elegans''; ''C. elegans'')の[[温度走性行動]]をOptimize Value functionによって解析し、餌が十分ある状態で育った線虫は絶対温度と温度の時間微分に、飢餓状態で育った線虫は絶対温度のみに依存した報酬を感じていることを明らかにした。またAshida et al. <ref name=Ashida2019><pubmed>31082452</pubmed></ref>[43]は線虫の領域制限探索行動において[[ドーパミン]]が速度変化に影響を与えていることを示した。
 計算効率を大幅に改善した方法として、方策のエントロピーではなく、ベースライン方策の学習方策の[[相対エントロピー]]を用いた正則化に基づく方法が提案されている。特に[[線形可解マルコフ決定過程]]のもとでの逆強化学習法OptV<ref name=Dvijotham2010>'''Krishnamurthy Dvijotham and Emanuel Todorov (2010).'''<br>Proc. of the 27th international conference on machine learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 335-42. </ref>は[[状態価値関数]]の推定を経ることで逆強化学習の困難さが大幅に緩和できることを示した。またOptVを密度比推定の問題として定式化することで、状態遷移確率を明示的に必要としないモデルフリー逆強化学習法<ref name=Uchibe2018>'''Eiji Uchibe (2018).'''<br>Model-free deep inverse reinforcement learning by logistic regression. Neural Processing Letters, 47:891-905. </ref>も開発された。Yamaguchi et al. <ref name=Yamaguchi2018><pubmed>29718905</pubmed></ref>は[[線虫]](C''aenorhabditis elegans''; ''C. elegans'')の[[温度走性行動]]をOptimize Value function (OptV)によって解析し、餌が十分ある状態で育った線虫は絶対温度と温度の時間微分に、飢餓状態で育った線虫は絶対温度のみに依存した報酬を感じていることを明らかにした。またAshida et al. <ref name=Ashida2019><pubmed>31082452</pubmed></ref>[43]は線虫の領域制限探索行動において[[ドーパミン]]が速度変化に影響を与えていることを示した。


===敵対的生成模倣学習に基づく方法===
===敵対的生成模倣学習に基づく方法===