「模倣学習」の版間の差分

編集の要約なし
編集の要約なし
10行目: 10行目:
{{box|text= 模倣学習とは、「模倣を学習すること」の意味と学習の一形態としての「模倣学習」が考えられる。前者では、模倣することの前提知識や条件が完全に与えられれば、学習する必要はなく、ブラインドコピーすることで終わる。これらの前提知識や条件が不備であるとき、それらを埋めるべき操作としての学習過程が必要となる。後者は、教師あり学習、教師なし学習、強化学習などの代表的な学習のアプローチの中で、従来、教師あり学習の一形態として模倣学習が位置づけられてきたが、近年、強化学習の報酬関数の推定の観点から逆強化学習が注目され、さらに深層学習の各種法の適用により、計算論的観点から模倣学習が見直され、拡張されている。}}
{{box|text= 模倣学習とは、「模倣を学習すること」の意味と学習の一形態としての「模倣学習」が考えられる。前者では、模倣することの前提知識や条件が完全に与えられれば、学習する必要はなく、ブラインドコピーすることで終わる。これらの前提知識や条件が不備であるとき、それらを埋めるべき操作としての学習過程が必要となる。後者は、教師あり学習、教師なし学習、強化学習などの代表的な学習のアプローチの中で、従来、教師あり学習の一形態として模倣学習が位置づけられてきたが、近年、強化学習の報酬関数の推定の観点から逆強化学習が注目され、さらに深層学習の各種法の適用により、計算論的観点から模倣学習が見直され、拡張されている。}}
==はじめに==
==はじめに==
 本辞典の項目「模倣」でも示されているように、その定義や課題は、環境、タスク、(被)模倣エージェントの仕様や能力(ハードとソフト)により多様かつ深淵であり、認知心理学や神経科学の観点はもとより、知的人工物設計の観点からも興味深い。後者の構成的手法(文献<ref name=Asada2009>Minoru Asada, Koh Hosoda, Yasuo Ku- niyoshi, Hiroshi Ishiguro, Toshio Inui, Yuichiro Yoshikawa, Masaki Ogino, and Chisato Yoshida (2009).<br>Cognitive developmental robotics: a survey. IEEE Transactions on Autonomous Mental Development, 1:12-34. </ref>[1]など参照)により、前者の仮説検証も期待される。本項目では、前半に構成的手法の視点から模倣学習を可能な限り幅広く捉え、模倣学習を概観する。切り口として、文献<ref name=浅田稔2006>浅田稔、國吉康夫 (2006).<br>『ロボットインテリジェンス』. 岩波書店</ref>[2]の第6章からの模倣の機能構成を示し、そこで定義されている真の模倣と疑似模倣の関係を明らかにし、人工物としての模倣の意味や意義、可能性を論じる。特に行為理解に関わるミラーニューロンやミラーニューロンシステムについて、イメージング研究からその役割を検討する。
 本辞典の項目「模倣」でも示されているように、その定義や課題は、環境、タスク、(被)模倣エージェントの仕様や能力(ハードとソフト)により多様かつ深淵であり、認知心理学や神経科学の観点はもとより、知的人工物設計の観点からも興味深い。後者の構成的手法(文献<ref name=Asada2009>'''Minoru Asada, Koh Hosoda, Yasuo Kuniyoshi, Hiroshi Ishiguro, Toshio Inui, Yuichiro Yoshikawa, Masaki Ogino, and Chisato Yoshida (2009).'''<br>Cognitive developmental robotics: a survey. IEEE Transactions on Autonomous Mental Development, 1:12-34. </ref>[1]など参照)により、前者の仮説検証も期待される。本項目では、前半に構成的手法の視点から模倣学習を可能な限り幅広く捉え、模倣学習を概観する。切り口として、文献<ref name=浅田稔2006>'''浅田稔、國吉康夫 (2006).'''<br>『ロボットインテリジェンス』. 岩波書店</ref>[2]の第6章からの模倣の機能構成を示し、そこで定義されている真の模倣と疑似模倣の関係を明らかにし、人工物としての模倣の意味や意義、可能性を論じる。特に行為理解に関わるミラーニューロンやミラーニューロンシステムについて、イメージング研究からその役割を検討する。


 後半では、学習の一手法としての観点から「模倣学習」を見直す。銅谷<ref name=銅谷賢治2007>銅谷賢治 (2007).<br>計算神経科学への招待 : 脳の学習機構 の理解を目指して. サイエンス社</ref>[3]が示しているように、小脳、大脳基底核、大脳の脳の各部位に対応して、教師あり学習、強化学習、教師なし学習の分類がなされており、従来、模倣学習は被模倣者からの提示が、意図的かどうかに関わらず、教示と捉えられ、教師あり学習の一つとみなされてきた。しかし、教示から報酬予測する逆強化学習の手法が、近年の深層学習の興隆も相まって、注目されている。そこで、計算論的視点から、逆強化学習とその周辺の動向を探り、模倣学習としての可能性について論じる。特に、前者の模倣学習の課題をどこまで解決可能で、これからの課題が何であるを示す。
 後半では、学習の一手法としての観点から「模倣学習」を見直す。銅谷<ref name=銅谷賢治2007>'''銅谷賢治 (2007).'''<br>計算神経科学への招待 : 脳の学習機構 の理解を目指して. サイエンス社</ref>[3]が示しているように、小脳、大脳基底核、大脳の脳の各部位に対応して、教師あり学習、強化学習、教師なし学習の分類がなされており、従来、模倣学習は被模倣者からの提示が、意図的かどうかに関わらず、教示と捉えられ、教師あり学習の一つとみなされてきた。しかし、教示から報酬予測する逆強化学習の手法が、近年の深層学習の興隆も相まって、注目されている。そこで、計算論的視点から、逆強化学習とその周辺の動向を探り、模倣学習としての可能性について論じる。特に、前者の模倣学習の課題をどこまで解決可能で、これからの課題が何であるを示す。
 
表1 文献<ref name=浅田稔2006 />[2]による
   
   
== 模倣の構造 ==
== 模倣の構造 ==
23行目: 21行目:
* 専門家による再プログラミングなしに、新たな行動技能を獲得できる。独自に膨大な試行錯誤学習をするよりはるかに効率的で実用的、
* 専門家による再プログラミングなしに、新たな行動技能を獲得できる。独自に膨大な試行錯誤学習をするよりはるかに効率的で実用的、


とされ、それを支える機能として、運動認識、動作認識、行動認識、身体と物体の理解、目的や意図の推定、行為認識、予測が挙げられ、自己との対応付けなどを経て行為理解に至る。これらは、知能の根源に関わる重要かつ、一般に実現が困難な機能ばかりである 。
とされ、それを支える機能として、運動認識、動作認識、行動認識、身体と物体の理解、目的や意図の推定、行為認識、予測が挙げられ、自己との対応付けなどを経て行為理解に至る。これらは、知能の根源に関わる重要かつ、一般に実現が困難な機能ばかりである。運動、動作、行為、行動などの定義については、[[#付録|付録]]参照。


=== 模倣の機能的な構成 ===
=== 模倣の機能的な構成 ===
 上で示した理解のレベルは、身体的模倣、行動単位模倣、目的行為模倣に別れ、階層構造をなし、以降の模倣構造のベースとなっている。最上位の目的行為模倣は、他者の行為の構造と意味の理解に基づく新奇行動の獲得を意味し、表面的に他者と同じ行動を見せても、新奇性がない場合や、行動認識が行動生成と直接因果関係をもたない場合は疑似模倣と称され、それは、反応促進、刺激強化、目的再現の三つがあり、それらの関係を表1にまとめた。
 上で示した理解のレベルは、身体的模倣、行動単位模倣、目的行為模倣に別れ、階層構造をなし、以降の模倣構造のベースとなっている。最上位の目的行為模倣は、他者の行為の構造と意味の理解に基づく新奇行動の獲得を意味し、表面的に他者と同じ行動を見せても、新奇性がない場合や、行動認識が行動生成と直接因果関係をもたない場合は疑似模倣と称され、それは、反応促進、刺激強化、目的再現の三つがあり、それらの関係を'''表1'''にまとめた。


* 刺激強化(stimulus enhancement or local enhancement):他者の行動を見て、その場所や対象物に注意を惹かれ、自分でもそれらに働きかけて、結果的に同様な行動をする場合で、意図的な教示者からすれば、観察者を特定の刺激にさらし、観察者が刺激とその結果の関係を学習するように導く。
* 刺激強化(stimulus enhancement or local enhancement):他者の行動を見て、その場所や対象物に注意を惹かれ、自分でもそれらに働きかけて、結果的に同様な行動をする場合で、意図的な教示者からすれば、観察者を特定の刺激にさらし、観察者が刺激とその結果の関係を学習するように導く。
33行目: 31行目:


{| class="wikitable"
{| class="wikitable"
|+表1. 疑似模倣の3つ、反応促進、刺激強化、目的再現の関係(文献<ref name=浅田稔2006 />[2])
! 真の模倣 !! 上位疑似模倣 !! 下位疑似模倣 !! 例 !! 病的症状 !! 関連機能 !! 獲得能力
! 真の模倣 !! 上位疑似模倣 !! 下位疑似模倣 !! 例 !! 病的症状 !! 関連機能 !! 獲得能力
|-
|-
46行目: 45行目:
|}
|}


 これらは、主に動物行動学の観点からの区分であり、de Waalによる共感のロシア人形モデル(<ref name=deWaal2008><pubmed>17550343</pubmed></ref>[4])では、刺激強化や反応促進などは、物まね(motor mimicry)や運動共鳴(motor resonance)などにつながる。また、目的再現は、真の模倣に近い「共有ゴール」に位置づけされ、これらの発達・進化の過程が共感及び自他認知の発達進化と並行することが唱えられている。Asada<ref name=Asada2015><pubmed>'''Minoru Asada (2015).'''<br>Towards artificial empathy. International Journal of Social Robotics. 7:19-33. </ref>[5]は、人工共感の発達モデルとして、これらを組み込んでいる(図1)。
 これらは、主に動物行動学の観点からの区分であり、de Waalによる共感のロシア人形モデル(<ref name=deWaal2008><pubmed>17550343</pubmed></ref>[4])では、刺激強化や反応促進などは、物まね(motor mimicry)や運動共鳴(motor resonance)などにつながる。また、目的再現は、真の模倣に近い「共有ゴール」に位置づけされ、これらの発達・進化の過程が共感及び自他認知の発達進化と並行することが唱えられている。Asada<ref name=Asada2015>'''Minoru Asada (2015).'''<br>Towards artificial empathy. International Journal of Social Robotics. 7:19-33.</ref>[5]は、人工共感の発達モデルとして、これらを組み込んでいる(図1)。


[[ファイル:Asada Imitation Learning Fig1.png|サムネイル|'''図1. 共感や自他認知と並行する模倣の発達・進化'''<br>文献<ref name=Asada2015 />[5]のFig. 6と先の文献[4]のFigure 2を組み合わせ改編し、文献<ref name=浅田稔2006 />[2]の図6.2の真/疑似模倣を加えた。]]
[[ファイル:Asada Imitation Learning Fig1.png|サムネイル|'''図1. 共感や自他認知と並行する模倣の発達・進化'''<br>文献<ref name=Asada2015 /></ref>[5]のFig. 6と文献<ref name=deWaal2008 />[4]のFigure 2を組み合わせ改編し、文献<ref name=浅田稔2006 />[2]の図6.2の真/疑似模倣を加えた。]]


===動物における模倣とミラーニューロンシステム===
===動物における模倣とミラーニューロンシステム===
Dautenhahn and Nehaniv <ref name=Dautenhahn2002>Kerstin Dautenhahn and Chrystopher L. Nehaniv (eds.). (2002).<br>Imitation in Animals and Artifacts. The MIT Press. </ref>[6]は、エージェントの観点から動物と人工物の模倣研究を束ねており、その第一章<ref name=Dautenhahn2002b>Kerstin Dautenhahn and Chrystopher L. Nehaniv. (2002)<br>The agent-based perspective on imitation. In Kerstin Dautenhahn and Chrystopher L. Nehaniv, editors, Imitation in Animals and Artifacts, Chapter 1. The MIT Press. </ref>[7]において、共通メカニズムに言及しており、社会的・文化的環境の影響の大きさを指摘している。野生ではあまり模倣行動を表出しない動物でも、人間と一緒に生活経験の長い動物は、模倣行動を表出しやすいことが観察されている。動物行動学の観点も含めて、人工物が模倣行動を学習するときの5つの大課題として、以下が挙げられている。
 Dautenhahn and Nehaniv <ref name=Dautenhahn2002>'''Kerstin Dautenhahn and Chrystopher L. Nehaniv (eds.). (2002).'''<br>Imitation in Animals and Artifacts. The MIT Press. </ref>[6]は、エージェントの観点から動物と人工物の模倣研究を束ねており、その第一章<ref name=Dautenhahn2002b>'''Kerstin Dautenhahn and Chrystopher L. Nehaniv (2002).'''<br>The agent-based perspective on imitation. In Kerstin Dautenhahn and Chrystopher L. Nehaniv, editors, Imitation in Animals and Artifacts, Chapter 1. The MIT Press. </ref>[7]において、共通メカニズムに言及しており、社会的・文化的環境の影響の大きさを指摘している。野生ではあまり模倣行動を表出しない動物でも、人間と一緒に生活経験の長い動物は、模倣行動を表出しやすいことが観察されている。動物行動学の観点も含めて、人工物が模倣行動を学習するときの5つの大課題として、以下が挙げられている。
#誰を模倣するか?(誰がいい教師か?学習者が教師になれるか?)
#誰を模倣するか?(誰がいい教師か?学習者が教師になれるか?)
#いつ模倣するか?(遊びのコンテキスト、教示、探索など)
#いつ模倣するか?(遊びのコンテキスト、教示、探索など)
57行目: 56行目:
#観察した行動から模倣行動をどのようにマップするか?(対応付け問題)
#観察した行動から模倣行動をどのようにマップするか?(対応付け問題)
#模倣の試みの成否をどのように評価するか?(成功の度合い)
#模倣の試みの成否をどのように評価するか?(成功の度合い)
 人工物による模倣学習では、これらの課題のほとんどを事前決定しているケースが多い。Herman <ref name=Herman2002>Louis M. Herman (2002). <br>Vocal, social, and self imitation by bottlenosed dolphins. In Kerstin Dautenhahn and Chrystopher L. Nehaniv, editors, Imitation in Animals and Artifacts, p. Chapter 3. The MIT Press. </ref>[8]は、ハンドウイルカの興味ある模倣行動について報告している。視覚や聴覚を始めとする多様なモダリティや形態の模倣行動、トレーナーのジェスチャーによる模倣行動制御、そして自己模倣などが含まれる。彼らは、即時に同時に相互模倣すること、さらに人間のジェスチャーを模倣する際、異なる身体部位を使うが、模倣自体は的確に表現されている。ハンドウイルカは上記の5つの課題を巧妙に解いているように見える。
 人工物による模倣学習では、これらの課題のほとんどを事前決定しているケースが多い。Herman <ref name=Herman2002>'''Louis M. Herman (2002).'''<br>Vocal, social, and self imitation by bottlenosed dolphins. In Kerstin Dautenhahn and Chrystopher L. Nehaniv, editors, Imitation in Animals and Artifacts, p. Chapter 3. The MIT Press. </ref>[8]は、ハンドウイルカの興味ある模倣行動について報告している。視覚や聴覚を始めとする多様なモダリティや形態の模倣行動、トレーナーのジェスチャーによる模倣行動制御、そして自己模倣などが含まれる。彼らは、即時に同時に相互模倣すること、さらに人間のジェスチャーを模倣する際、異なる身体部位を使うが、模倣自体は的確に表現されている。ハンドウイルカは上記の5つの課題を巧妙に解いているように見える(後半で述べる計算論的な枠組みでは、これらの課題に直接結びつくアプローチも提案されており、後で触れる)。


 これらは、特別のメカニズムによるのか、他者を含む環境との相互作用による創発行動なのかの議論がある。新生児模倣<ref name=Meltzoff1977><pubmed>897687</pubmed></ref>[9]は、模倣の生得性を謳ったが、その後、多くの観察から、感覚運動学習の可能性が高くなっている(例えば、<ref name=Ray2011><pubmed>21159091</pubmed></ref>[10])。そして、'''図1'''でもすでに示されているように、模倣の進化の連続性の観点からは、共通のメカニズムとして、ミラーニューロンシステム(以降、MNSと略記)<ref name=リゾラッティ2009>ジャコモ ・リゾラッティ&コラド・シニガリア, 柴田裕之 (訳), 茂木健一郎 (監修) (2009). <br>『ミラーニューロ ン』. 紀伊国屋書店. </ref>[11]が重要な役割を果たしているように見える。ミラーニューロンはマカクザルの下前頭回(F5領域)と下頭頂葉で発見され、運動の観測と実行を司るニューロンと称されてきた。そして、先に示した共感やメンタライジング、さらには、ヒトのブローカ野に近いこともあり、言語能力にも関連しているとさえ言われてきた<ref name=Rizzolatti1998>9610880</ref>[12]。これらは、過渡の期待であり、多くの懸念を示す研究者もいる<ref name=Hickok2009><pubmed>19199415</pubmed></ref>[13]。行為理解に無関係ではないが、そのような高次の機能を担っていないとも言われている<ref name=Hickok2013><pubmed>23147121</pubmed></ref>[14]。MNSの定義自体にもよるが、ヒトのMNSの解析では、Oosterhof et al. <ref name=Oosterhof2013><pubmed>23746574</pubmed></ref>[15]は、multivariate pattern analysis (MVPA) <ref name=Mahmoudi2012><pubmed>23401720</pubmed></ref>[16]を用いて、以下を示した('''図2'''も参照)。
 これらは、特別のメカニズムによるのか、他者を含む環境との相互作用による創発行動なのかの議論がある。新生児模倣<ref name=Meltzoff1977><pubmed>897687</pubmed></ref>[9]は、模倣の生得性を謳ったが、その後、多くの観察から、感覚運動学習の可能性が高くなっている(例えば、<ref name=Ray2011><pubmed>21159091</pubmed></ref>[10])。そして、'''図1'''でもすでに示されているように、模倣の進化の連続性の観点からは、共通のメカニズムとして、ミラーニューロンシステム(以降、MNSと略記)<ref name=リゾラッティ2009>'''ジャコモ ・リゾラッティ&コラド・シニガリア, 柴田裕之 (訳), 茂木健一郎 (監修) (2009).'''<br>『ミラーニューロン』. 紀伊国屋書店. </ref>[11]が重要な役割を果たしているように見える。ミラーニューロンはマカクザルの下前頭回(F5領域)と下頭頂葉で発見され、運動の観測と実行を司るニューロンと称されてきた。そして、先に示した共感やメンタライジング、さらには、ヒトのブローカ野に近いこともあり、言語能力にも関連しているとさえ言われてきた<ref name=Rizzolatti1998><pubmed> 9610880 </pubmed></ref>[12]。これらは、過渡の期待であり、多くの懸念を示す研究者もいる<ref name=Hickok2009><pubmed>19199415</pubmed></ref>[13]。行為理解に無関係ではないが、そのような高次の機能を担っていないとも言われている<ref name=Hickok2013><pubmed>23147121</pubmed></ref>[14]。MNSの定義自体にもよるが、ヒトのMNSの解析では、Oosterhof et al. <ref name=Oosterhof2013><pubmed>23746574</pubmed></ref>[15]は、multivariate pattern analysis (MVPA) <ref name=Mahmoudi2012><pubmed>23401720</pubmed></ref>[16]を用いて、以下を示した('''図2'''も参照)。


[[ファイル:Asada Imitation Learning Fig1.png|サムネイル|'''図2 ヒトにおけるクロスモーダルでアクション固有の活動の本人/第三者視点の違いを示すスコア'''(文献<ref name=Oosterhof2013><pubmed>23746574</pubmed></ref>[15]より改編)]]
'''図2 ヒトにおけるクロスモーダルでアクション固有の活動の本人/第三者視点の違いを示すスコア'''(文献<ref name=Oosterhof2013><pubmed>23746574</pubmed></ref>[15]より改編)


*腹側運動前野(PMv)は、視覚運動表現において、第三者視点よりも本人の視点からの応答が強かった。マカクザルでは、この該当領域(F5)において、自己他者の視点の違いによらない行動認識とされていたことと異なる。
*腹側運動前野(PMv)は、視覚運動表現において、第三者視点よりも本人の視点からの応答が強かった。マカクザルでは、この該当領域(F5)において、自己他者の視点の違いによらない行動認識とされていたことと異なる。
77行目: 75行目:


=== 人工システムによる模倣学習 ===
=== 人工システムによる模倣学習 ===
 反応促進や刺激強化は自動模倣(automatic imitation) と呼ばれ、無意識的行動として捉えられる。生得的か生後の感覚運動学習かの区別を明に付ける必要はないが、人工システムとしては、反射的な運動のライブラリを埋め込み、それをもとに環境内で体験から再帰的に構築していくことが考えられる。模倣ではないが、関連する研究として、周期的音刺激に神経振動子による引き込みで現象を利用(同調)してドラムを叩くロボットの例<ref name=琴坂信哉2001>琴坂信哉, S. Schaal (2001).<br>神経振動子を用いたロボッ トのリズミックな運動生成. 日本ロボット学会誌, 19:116-123. </ref>[21]がある。より一般的には、行動レパートリを用意し、自発的に行動が発現する方式をニューラルネットワークでモデル化した例もある<ref name=Tani2004><pubmed>15555866</pubmed></ref>[22]。また、Dynamic Movement Primitives (DMP) によるアプローチもある<ref name=Ijspeert2002>A. J. Ijspeert, J. Nakanishi, and S. Schaal (2002).<br>Learning rhythmic movements by demonstration using nonlinear oscillators. In Proc. of IEEE/RSJ International Conference on Intelligent Robots and Systems 2002 (IROS '02), pp. 958-963.</ref><ref name=Matsubara2010>Takamitsu Matsubara, Sang-Ho Hyon, and Jun Morimoto (2010).<br>Learning stylistic dynamic movement primitives from multiple demonstrations. In 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 1277-1283</ref>[23], [24]。
 反応促進や刺激強化は自動模倣(automatic imitation) と呼ばれ、無意識的行動として捉えられる。生得的か生後の感覚運動学習かの区別を明に付ける必要はないが、人工システムとしては、反射的な運動のライブラリを埋め込み、それをもとに環境内で体験から再帰的に構築していくことが考えられる。模倣ではないが、関連する研究として、周期的音刺激に神経振動子による引き込みで現象を利用(同調)してドラムを叩くロボットの例<ref name=琴坂信哉2001>'''琴坂信哉、S. Schaal (2001).'''<br>神経振動子を用いたロボッ トのリズミックな運動生成. 日本ロボット学会誌, 19:116-123. </ref>[21]がある。より一般的には、行動レパートリを用意し、自発的に行動が発現する方式をニューラルネットワークでモデル化した例もある<ref name=Tani2004><pubmed>15555866</pubmed></ref>[22]。また、Dynamic Movement Primitives (DMP) によるアプローチもある<ref name=Ijspeert2002>'''A. J. Ijspeert, J. Nakanishi, and S. Schaal (2002).'''<br>Learning rhythmic movements by demonstration using nonlinear oscillators. In Proc. of IEEE/RSJ International Conference on Intelligent Robots and Systems 2002 (IROS '02), pp. 958-963.</ref><ref name=Matsubara2010>'''Takamitsu Matsubara, Sang-Ho Hyon, and Jun Morimoto (2010).'''<br>Learning stylistic dynamic movement primitives from multiple demonstrations. In 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 1277-1283</ref>[23], [24]。
 
 刺激強化は物体や環境がトリガーとして働いて行動が生成される原理と考えられる。ものを見るとその操作行動を連想する機構は、我々人間に備わっているが、それはアフォーダンスがキーとなっている。ミラーニューロンシステムの計算論的神経科学の観点からモデル化を狙ったのは、Oztop and Arbib <ref name=Oztop2002><pubmed>12181587</pubmed></ref>[25, p. 2002]で、アフォーダンスの機構が中心的な役割を果たしており、興味深い。アフォーダンスを学習するロボット研究としては、一定方向の回転する物体に対する研究がある<ref name=Fitzpatrick2003>'''Paul Fitzpatrick, Giorgio Metta, Lorenzo Natale, Sajit Rao, and Giulio Sandini (2003).'''<br>Learning about objects through action - initial steps towards artificial cognition. In Proc. of IEEE Int. Conf. on Robotics and Automation, pp. 3140-3145, 2003. </ref>[26]。また、身体表現の獲得と統合する試みもある<ref name=Kuniyoshi2004>'''Y. Kuniyoshi, Y. Yorozu, Y. Ohmura, K. Terada, T. Otani, A. Nagakubo, and T. Yamamoto (2004).'''<br>From humanoid embodiment to theory of mind. In F. Iida, R. Pfeifer, L. Steels, and Y. Kuniyoshi, editors, Embodied Artificial Intelligence, pp. 202- 218. Springer, Lecture Note in Artificial Intelligence 3139 (Berlin). </ref>[27]。


 刺激強化は物体や環境がトリガーとして働いて行動が生成される原理と考えられる。ものを見るとその操作行動を連想する機構は、我々人間に備わっているが、それはアフォーダンスがキーとなっている。ミラーニューロンシステムの計算論的神経科学の観点からモデル化を狙ったのは、Oztop and Arbib <ref name=Oztop2002><pubmed>12181587</pubmed></ref>[25, p. 2002]で、アフォーダンスの機構が中心的な役割を果たしており、興味深い。アフォーダンスを学習するロボット研究としては、一定方向の回転する物体に対する研究がある<ref name=Fitzpatrick2003>Paul Fitzpatrick, Giorgio Metta, Lorenzo Natale, Sajit Rao, and Giulio Sandini (2003).<br>Learning about objects through action - initial steps towards artificial cognition. In Proc. of IEEE Int. Conf. on Robotics and Automation, pp. 3140-3145, 2003. </ref>[26]。また、身体表現の獲得と統合する試みもある<ref name=Kuniyoshi2004>Y. Kuniyoshi, Y. Yorozu, Y. Ohmura, K. Terada, T. Otani, A. Nagakubo, and T. Yamamoto (2004).<br>From humanoid embodiment to theory of mind. In F. Iida, R. Pfeifer, L. Steels, and Y. Kuniyoshi, editors, Embodied Artificial Intelligence, pp. 202- 218. Springer, Lecture Note in Artificial Intelligence 3139 (Berlin). </ref>[27]
 工学的応用の視点も含めた初期のパイオニア的研究としては、Kuniyoshi et al. <ref name=Kuniyoshi1994>'''Y. Kuniyoshi, M. Inaba, and H. Inoue (1994).'''<br>Learning by watching. IEEE Trans. on R&A, 10:799-822. </ref>[28]が挙げられ、組み立てタスクを例に人工システムの模倣学習の構造を明らかにした。これが、前節の模倣構造の原点となっている。ヒトを始めとする動物の模倣学習や発達における動作主体、目的共有、行為理解などの高次の認知機能や概念は設計者がロボットに与え、ロボットは軌道を追従したり、動作プリミティブの再生などのレベルに留まっているものが多い(例えば、<ref name=Kawato1996><pubmed>12662536</pubmed></ref><ref name=Schaal2003><pubmed>12689379</pubmed></ref><ref name=Schaal2003><pubmed>12689379</pubmed></ref>[29], [30]など)。Billard et al. <ref name=Billard2008>'''A. Billard, S. Calinon, R. Dillmann, and S. Schaal (2008).'''<br>Survey: Robot programming by demonstration. Springer Handbook of Robotics, pp. 1371-1394. Book winner of 2 PROSE awards (Award for Excellence in Physical Sciences &amp; Mathematics, Award for Engineering & Technology).</ref>[31]は、Learning from Demonstration (LfD)と呼び、工学的観点から模倣学習を概観している。確率ロボティクスの観点から模倣学習へのアプローチに関しては、杉浦の解説<ref name=杉浦孔明2016>'''杉浦孔明 (2016).'''<br>模倣学習における確率ロボティクスの新展開. システム/制御/情報, 60:521- 527. </ref>[32]が参考になる。強化学習の観点から、模倣学習の定式化を狙ったのは。Argall et al. <ref name=Argall2009>'''Brenna D. Argall, Sonia Chernova, Manuela Veloso, and Brett Browning (2009).'''<br>A survey of robot learning from demonstration. Robotics and Autonomous Systems, 57:469-483. </ref>[33]で、Programming by Demonstration (PbD)と呼び、教示例からの方策獲得過程としてまとめている。近年の深層学習の興隆により、強化学習の枠組みにおける報酬予測の観点から、逆強化学習が注目されている。


工学的応用の視点も含めた初期のパイオニア的研究としては、Kuniyoshi et al. <ref name=Kuniyoshi1994>Y. Kuniyoshi, M. Inaba, and H. Inoue (1994).<br>Learning by watching. IEEE Trans. on R&A, 10:799-822. </ref>[28]が挙げられ、組み立てタスクを例に人工システムの模倣学習の構造を明らかにした。これが、前節の模倣構造の原点となっている。ヒトを始めとする動物の模倣学習や発達における動作主体、目的共有、行為理解などの高次の認知機能や概念は設計者がロボットに与え、ロボットは軌道を追従したり、動作プリミティブの再生などのレベルに留まっているものが多い(例えば、<ref name=Kawato1996><pubmed>12662536</pubmed></ref><ref name=Schaal2003><pubmed>12689379</pubmed></ref>[29], [30]など)。Billard et al. <ref name=Billard2008>A. Billard, S. Calinon, R. Dillmann, and S. Schaal (2008).<br>Survey: Robot programming by demonstration. Springer Handbook of Robotics, pp. 1371-1394. Book winner of 2 PROSE awards (Award for Excellence in Physical Sciences &amp; Mathematics, Award for Engineering & Technology).</ref>[31]は、Learning from Demonstration (LfD)と呼び、工学的観点から模倣学習を概観している。確率ロボティクスの観点から模倣学習へのアプローチに関しては、杉浦の解説<ref name=杉浦孔明2016>杉浦孔明 (2016).<br>模倣学習における確率ロボティクスの新展開. システム/制御/情報, 60:521- 527. </ref>[32]が参考になる。強化学習の観点から、模倣学習の定式化を狙ったのは。Argall et al. <ref name=Argall2009>Brenna D. Argall, Sonia Chernova, Manuela Veloso, and Brett Browning (2009).<br>A survey of robot learning from demonstration. Robotics and Autonomous Systems, 57:469-483. </ref>[33]で、Programming by Demonstration (PbD)と呼び、教示例からの方策獲得過程としてまとめている。近年の深層学習の興隆により、強化学習の枠組みにおける報酬予測の観点から、逆強化学習が注目されている。
 逆強化学習の枠組みでは、最大エントロピー原理に基づく手法や、さらに効率的にサンプリングや計算する手法が提案されており、解説<ref name=長井隆行2020>'''長井隆行、堀井隆斗 (2020).'''<br>強化学習とロボティクス. 電子情報通信学会誌,  103:1239-1247</ref><ref name=AbAza2020>'''N. Ab Aza, A. Shahmansoorian, and M. Davoudi (2020).'''<br>From inverse optimal control to inverse reinforcement learning: A historical review. Annual Reviews in Control, 50:119-138.</ref><ref name=Arora2021>'''S. Arora and P. Doshi (2021).'''<br>A survey of inverse reinforcement learning: Challenges, methods and progress. Artificial Intelligence.</ref>[34]–[36]で紹介されている。特に、敵対的生成モデル(GAN)の定式化を用いて、教示者と学習者の状態行動対を分類する識別器とそれを騙そうとする生成器の駆け引きとして強化学習と逆強化学習を組み合わせる手法は、深層学習が強化学習に深く入り込んで、深層学習が様々な学習に単なるツールとしてだけではなく、新たな枠組みを提案しているように捉えられる。さらに、逆強化学習で必要とされる教示者の状態行動列を必要とせず、ゴール状態のみを提示することで、報酬を推定する手法もある<ref name=Fu2018>'''Justin Fu, Avi Singh, Dibya Ghosh, Larry Yang, and Sergey Levine (2018).'''<br>Variational inverse control with events: a general framework for data-driven reward definition. In Neural Information Processing Systems (NIPS), 2018, pp. 8547-8556</ref>[37]。次節では、これらを含めた計算論的枠組について説明する。
逆強化学習の枠組みでは、最大エントロピー原理に基づく手法や、さらに効率的にサンプリングや計算する手法が提案されており、解説<ref name=長井隆行2020>長井隆行, 堀井隆斗 (2020).<br>強化学習とロボティクス. 電子 情報通信学会誌,  103:1239-1247</ref><ref name=AbAza2020>N. Ab Aza, A. Shahmansoorian, and M. Davoudi (2020).<br>From inverse optimal control to inverse reinforcement learning: A historical review. Annual Reviews in Control, 50:119-138. </ref><ref name=Arora2021>S. Arora and P. Doshi (2021).<br>A survey of inverse reinforcement learning: Challenges, methods and progress. Artificial Intelligence.</ref>[34]–[36]で紹介されている。特に、敵対的生成モデル(GAN)の定式化を用いて、教示者と学習者の状態行動対を分類する識別器とそれを騙そうとする生成器の駆け引きとして強化学習と逆強化学習を組み合わせる手法は、深層学習が強化学習に深く入り込んで、深層学習が様々な学習に単なるツールとしてだけではなく、新たな枠組みを提案しているように捉えられる。さらに、逆強化学習で必要とされる教示者の状態行動列を必要とせず、ゴール状態のみを提示することで、報酬を推定する手法もある<ref name=Fu2018>Justin Fu, Avi Singh, Dibya Ghosh, Larry Yang, and Sergey Levine (2018).<br>Variational inverse control with events: a general framework for data-driven reward definition. In Neural Information Processing Systems (NIPS), 2018, pp. 8547-8556</ref>[37]。次節では、これらを含めた計算論的枠組について説明する。


==逆強化学習による模倣学習の定式化==
==逆強化学習による模倣学習の定式化==
===最大エントロピー原理に基づく方法===
===最大エントロピー原理に基づく方法===
逆強化学習は教示者の方策または教示者が環境と相互作用することによって得られる状態行動対の集合から、教示者の方策を最もうまく説明する報酬を推定する枠組みである。逆強化学習は不良設定問題であり、一般には唯一解をもたない。そのため様々な正則化法が提案されている。
 逆強化学習は教示者の方策または教示者が環境と相互作用することによって得られる状態行動対の集合から、教示者の方策を最もうまく説明する報酬を推定する枠組みである。逆強化学習は不良設定問題であり、一般には唯一解をもたない。そのため様々な正則化法が提案されている。


現在の逆強化学習で最も基礎となる手法は最大エントロピー原理に基づく方法<ref name=Ziebart2008>B D Ziebart, A Maas, J A Bagnell, and A K Dey (2008).<br>Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 1433-1438</ref>[38]であり、これは強化学習の目的を単なる積算報酬最大化ではなく、方策のエントロピーを付与した報酬を最大化することに等しい。この方法は深層学習との統合も容易で、大規模なナビゲーション課題に適用された例<ref name=Wulfmeier2017><pubmed>Markus Wulfmeier, Dushyant Rao, Dominic Zeng Wang, Peter Ondruska, and Ingmar Posner (2017).<br>Large-scale cost function learning for path planning using deep inverse reinforcement learning. International Journal of Robotics Research, 36:1073-87.</pubmed></ref>[39]もある。しかし最大エントロピー原理に基づく方法は環境の状態遷移確率が既知であると仮定していること、強化学習による方策最適化を繰り返し説くため計算効率が悪いことなどの問題点がある。
 現在の逆強化学習で最も基礎となる手法は最大エントロピー原理に基づく方法<ref name=Ziebart2008>'''B D Ziebart, A Maas, J A Bagnell, and A K Dey (2008).'''<br>Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 1433-1438</ref>[38]であり、これは強化学習の目的を単なる積算報酬最大化ではなく、方策のエントロピーを付与した報酬を最大化することに等しい。この方法は深層学習との統合も容易で、大規模なナビゲーション課題に適用された例<ref name=Wulfmeier2017>'''Markus Wulfmeier, Dushyant Rao, Dominic Zeng Wang, Peter Ondruska, and Ingmar Posner (2017).'''<br>Large-scale cost function learning for path planning using deep inverse reinforcement learning. International Journal of Robotics Research, 36:1073-87.</ref>[39]もある。しかし最大エントロピー原理に基づく方法は環境の状態遷移確率が既知であると仮定していること、強化学習による方策最適化を繰り返し説くため計算効率が悪いことなどの問題点がある。


計算効率を大幅に改善した方法として、方策のエントロピーではなく、ベースライン方策の学習方策の相対エントロピーを用いた正則化に基づく方法が提案されている。特に線形可解マルコフ決定過程のもとでの逆強化学習法OptV<ref name=Dvijotham2010>Krishnamurthy Dvijotham and Emanuel Todorov (2010).<br>Proc. of the 27th international conference on machine learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 335-42. </ref>[40]は状態価値関数の推定を経ることで逆強化学習の困難さが大幅に緩和できることを示した。またOptVを密度比推定の問題として定式化することで、状態遷移確率を明示的に必要としないモデルフリー逆強化学習法<ref name=Uchibe2018>Eiji Uchibe (2018).<br>Model-free deep inverse reinforcement learning by logistic regression. Neural Processing Letters, 47:891-905. </ref>[41]も開発された。Yamaguchi et al. <ref name=Yamaguchi2018><pubmed>29718905</pubmed></ref>[42]は線虫(Caenorhabditis elegans; C。 elegans)の温度走性行動をOptVによって解析し、餌が十分ある状態で育った線虫は絶対温度と温度の時間微分に、飢餓状態で育った線虫は絶対温度のみに依存した報酬を感じていることを明らかにした。またAshida et al. <ref name=Ashida2019><pubmed>31082452</pubmed></ref>[43]は線虫の領域制限探索行動においてドーパミンが速度変化に影響を与えていることを示した。
 計算効率を大幅に改善した方法として、方策のエントロピーではなく、ベースライン方策の学習方策の相対エントロピーを用いた正則化に基づく方法が提案されている。特に線形可解マルコフ決定過程のもとでの逆強化学習法OptV<ref name=Dvijotham2010>'''Krishnamurthy Dvijotham and Emanuel Todorov (2010).'''<br>Proc. of the 27th international conference on machine learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, pp. 335-42. </ref>[40]は状態価値関数の推定を経ることで逆強化学習の困難さが大幅に緩和できることを示した。またOptVを密度比推定の問題として定式化することで、状態遷移確率を明示的に必要としないモデルフリー逆強化学習法<ref name=Uchibe2018>'''Eiji Uchibe (2018).'''<br>Model-free deep inverse reinforcement learning by logistic regression. Neural Processing Letters, 47:891-905. </ref>[41]も開発された。Yamaguchi et al. <ref name=Yamaguchi2018><pubmed>29718905</pubmed></ref>[42]は線虫(Caenorhabditis elegans; C。 elegans)の温度走性行動をOptVによって解析し、餌が十分ある状態で育った線虫は絶対温度と温度の時間微分に、飢餓状態で育った線虫は絶対温度のみに依存した報酬を感じていることを明らかにした。またAshida et al. <ref name=Ashida2019><pubmed>31082452</pubmed></ref>[43]は線虫の領域制限探索行動においてドーパミンが速度変化に影響を与えていることを示した。


===敵対的生成模倣学習に基づく方法===
===敵対的生成模倣学習に基づく方法===
 相対エントロピーを用いた方法はベースライン方策の選択が結果に重大な影響を及ぼす。学習前または初心者の方策をベースラインとして採用するのが一般的であるが、教示者の方策と大きく異なる場合にはうまく報酬が推定できない。そこで逆強化学習で推定された報酬をもとに方策を改善し新たなベースライン方策として用いる方法が開発され、GANとして解釈できることが報告された<ref name=Finn2016>'''Chelsea Finn, Paul Christiano, Pieter Abbeel, and Sergey Levine (2016).'''<br>A connection between gener- ative adversarial networks, inverse reinforcement learning, and energy-based models. In NIPS 2016 Workshop on Adversarial Training. </ref><ref name=Ho2016>'''Jonathan Ho and Stefano Ermon (2016).'''<br>Generative adversarial imitation learning. In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems, Vol. 29. Curran Associates, Inc.</ref>[44], [45]。前述したように、逆強化学習は密度比推定の問題に帰着できるが、これは教示者が生成した状態行動対と学習者が生成した状態行動対を区別する二値分類の問題と等価で、GANの識別器に対応する。一方、推定された報酬から方策を改善する強化学習は、データを生成する分布を調整するGANの生成器に対応する。
 相対エントロピーを用いた方法はベースライン方策の選択が結果に重大な影響を及ぼす。学習前または初心者の方策をベースラインとして採用するのが一般的であるが、教示者の方策と大きく異なる場合にはうまく報酬が推定できない。そこで逆強化学習で推定された報酬をもとに方策を改善し新たなベースライン方策として用いる方法が開発され、GANとして解釈できることが報告された<ref name=Finn2016>'''Chelsea Finn, Paul Christiano, Pieter Abbeel, and Sergey Levine (2016).'''<br>A connection between gener- ative adversarial networks, inverse reinforcement learning, and energy-based models. In NIPS 2016 Workshop on Adversarial Training. </ref><ref name=Ho2016>'''Jonathan Ho and Stefano Ermon (2016).'''<br>Generative adversarial imitation learning. In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems, Vol. 29. Curran Associates, Inc.</ref>[44], [45]。前述したように、逆強化学習は密度比推定の問題に帰着できるが、これは教示者が生成した状態行動対と学習者が生成した状態行動対を区別する二値分類の問題と等価で、GANの識別器に対応する。一方、推定された報酬から方策を改善する強化学習は、データを生成する分布を調整するGANの生成器に対応する。


 敵対的生成模倣学習と通常のGANの大きな違いの一つは識別器を構造化できる点にある。一般に最適な識別器は教示者と学習者のデータ生成分布の密度比によって表現できるが、工学的なシステムにおいては学習者のデータ生成分布は実験者が明示的に規定できる。この事実とエントロピー正則の導入によって、識別器は報酬、状態価値関数、および学習者の方策によって構造化できる<ref name=Uchibe2018></ref><ref name=Fu2018>'''Justin Fu, Katie Luo, and Sergey Levine (2018).'''<br>Learning robust rewards with adversarial inverse reinforcement learning. In Proc. of the 6th International Conference on Learning Representations,.</ref>[41], [46]。エントロピー正則のもとで導出された識別器は強化学習と行動のランダムさなどのハイパーパラメータを共有化できるため、学習の進捗に応じて識別器の性能を調整できるなどの利点がある<ref name=Uchibe2021><pubmed>34492548</pubmed></ref>[47]。
 敵対的生成模倣学習と通常のGANの大きな違いの一つは識別器を構造化できる点にある。一般に最適な識別器は教示者と学習者のデータ生成分布の密度比によって表現できるが、工学的なシステムにおいては学習者のデータ生成分布は実験者が明示的に規定できる。この事実とエントロピー正則の導入によって、識別器は報酬、状態価値関数、および学習者の方策によって構造化できる<ref name=Uchibe2018></ref><ref name=Fu2018b>'''Justin Fu, Katie Luo, and Sergey Levine (2018).'''<br>Learning robust rewards with adversarial inverse reinforcement learning. In Proc. of the 6th International Conference on Learning Representations.</ref>[41], [46]。エントロピー正則のもとで導出された識別器は強化学習と行動のランダムさなどのハイパーパラメータを共有化できるため、学習の進捗に応じて識別器の性能を調整できるなどの利点がある<ref name=Uchibe2021><pubmed>34492548</pubmed></ref>[47]。


== おわりに ==
== おわりに ==
108行目: 107行目:
* 行動(behavior):行為のうち、外部から観測可能な部分、すなわち、(一連の)動作とその結果。(結果を含めずに動作の部分だけを指すことも多い。また、日本語ではaction の訳として「行動」を使うことも多い。観測者の視点からは行為と行動の区別はない。)「行動する主体」を行動主体または行動体(behavior agent) というが、この呼び方においては、主体の意図や判断などの内部状態や内部機構を特定しない。
* 行動(behavior):行為のうち、外部から観測可能な部分、すなわち、(一連の)動作とその結果。(結果を含めずに動作の部分だけを指すことも多い。また、日本語ではaction の訳として「行動」を使うことも多い。観測者の視点からは行為と行動の区別はない。)「行動する主体」を行動主体または行動体(behavior agent) というが、この呼び方においては、主体の意図や判断などの内部状態や内部機構を特定しない。
* 振舞い(behavior):一定の環境・状況のもとで同一の主体が発生する(一連の)行動。環境、状況、主体のどれかが変われば別の振舞いとなる。「行動」より時空間的に広がりがあるが、「行動」と同義に使うことも多い。
* 振舞い(behavior):一定の環境・状況のもとで同一の主体が発生する(一連の)行動。環境、状況、主体のどれかが変われば別の振舞いとなる。「行動」より時空間的に広がりがあるが、「行動」と同義に使うことも多い。
==脚註==
<references group=footnote/>
==関連項目==
* [[模倣]]


==参考文献==
==参考文献==
<references />
<references />