16,040
回編集
細編集の要約なし |
細 (→はじめに) |
||
10行目: | 10行目: | ||
{{box|text= 模倣学習とは、「模倣を学習すること」の意味と学習の一形態としての「模倣学習」が考えられる。前者では、模倣することの前提知識や条件が完全に与えられれば、学習する必要はなく、ブラインドコピーすることで終わる。これらの前提知識や条件が不備であるとき、それらを埋めるべき操作としての学習過程が必要となる。後者は、教師あり学習、教師なし学習、強化学習などの代表的な学習のアプローチの中で、従来、教師あり学習の一形態として模倣学習が位置づけられてきたが、近年、強化学習の報酬関数の推定の観点から逆強化学習が注目され、さらに深層学習の各種法の適用により、計算論的観点から模倣学習が見直され、拡張されている。}} | {{box|text= 模倣学習とは、「模倣を学習すること」の意味と学習の一形態としての「模倣学習」が考えられる。前者では、模倣することの前提知識や条件が完全に与えられれば、学習する必要はなく、ブラインドコピーすることで終わる。これらの前提知識や条件が不備であるとき、それらを埋めるべき操作としての学習過程が必要となる。後者は、教師あり学習、教師なし学習、強化学習などの代表的な学習のアプローチの中で、従来、教師あり学習の一形態として模倣学習が位置づけられてきたが、近年、強化学習の報酬関数の推定の観点から逆強化学習が注目され、さらに深層学習の各種法の適用により、計算論的観点から模倣学習が見直され、拡張されている。}} | ||
==はじめに== | ==はじめに== | ||
本辞典の項目「模倣」でも示されているように、その定義や課題は、環境、タスク、(被)模倣エージェントの仕様や能力(ハードとソフト)により多様かつ深淵であり、認知心理学や神経科学の観点はもとより、知的人工物設計の観点からも興味深い。後者の構成的手法(文献<ref name=Asada2009>Minoru Asada, Koh Hosoda, Yasuo Ku- niyoshi, Hiroshi Ishiguro, Toshio Inui, Yuichiro Yoshikawa, Masaki Ogino, and Chisato Yoshida (2009).<br>Cognitive developmental robotics: a survey. IEEE Transactions on Autonomous Mental Development, 1:12-34. </ref>[1]など参照)により、前者の仮説検証も期待される。本項目では、前半に構成的手法の視点から模倣学習を可能な限り幅広く捉え、模倣学習を概観する。切り口として、文献<ref name=浅田稔2006>浅田稔、國吉康夫 (2006).<br>『ロボットインテリジェンス』. 岩波書店</ref>[2]の第6章からの模倣の機能構成を示し、そこで定義されている真の模倣と疑似模倣の関係を明らかにし、人工物としての模倣の意味や意義、可能性を論じる。特に行為理解に関わるミラーニューロンやミラーニューロンシステムについて、イメージング研究からその役割を検討する。 | |||
後半では、学習の一手法としての観点から「模倣学習」を見直す。銅谷<ref name=銅谷賢治2007>銅谷賢治 (2007).<br>計算神経科学への招待 : 脳の学習機構 の理解を目指して. サイエンス社</ref>[3]が示しているように、小脳、大脳基底核、大脳の脳の各部位に対応して、教師あり学習、強化学習、教師なし学習の分類がなされており、従来、模倣学習は被模倣者からの提示が、意図的かどうかに関わらず、教示と捉えられ、教師あり学習の一つとみなされてきた。しかし、教示から報酬予測する逆強化学習の手法が、近年の深層学習の興隆も相まって、注目されている。そこで、計算論的視点から、逆強化学習とその周辺の動向を探り、模倣学習としての可能性について論じる。特に、前者の模倣学習の課題をどこまで解決可能で、これからの課題が何であるを示す。 | |||
表1 文献<ref name=浅田稔2006 />[2]による | |||
模倣の構造 | == 模倣の構造 == | ||
文献<ref name=浅田稔2006 />[2] | 文献<ref name=浅田稔2006 />[2]から、模倣に関連する項目を抜き出してみる。模倣とは | ||
* 行動観察に基づく最も基本的な行動能力であり、他者の行動を認識し何らかの理解が出来ている証拠、 | |||
* 理解のレベルに応じて様々なレベル、 | |||
* 専門家による再プログラミングなしに、新たな行動技能を獲得できる。独自に膨大な試行錯誤学習をするよりはるかに効率的で実用的、 | |||
とされ、それを支える機能として、運動認識、動作認識、行動認識、身体と物体の理解、目的や意図の推定、行為認識、予測が挙げられ、自己との対応付けなどを経て行為理解に至る。これらは、知能の根源に関わる重要かつ、一般に実現が困難な機能ばかりである 。 | とされ、それを支える機能として、運動認識、動作認識、行動認識、身体と物体の理解、目的や意図の推定、行為認識、予測が挙げられ、自己との対応付けなどを経て行為理解に至る。これらは、知能の根源に関わる重要かつ、一般に実現が困難な機能ばかりである 。 | ||
模倣の機能的な構成 | === 模倣の機能的な構成 === | ||
上で示した理解のレベルは、身体的模倣、行動単位模倣、目的行為模倣に別れ、階層構造をなし、以降の模倣構造のベースとなっている。最上位の目的行為模倣は、他者の行為の構造と意味の理解に基づく新奇行動の獲得を意味し、表面的に他者と同じ行動を見せても、新奇性がない場合や、行動認識が行動生成と直接因果関係をもたない場合は疑似模倣と称され、それは、反応促進、刺激強化、目的再現の三つがあり、それらの関係を表1にまとめた。 | |||
刺激強化(stimulus enhancement or local enhancement):他者の行動を見て、その場所や対象物に注意を惹かれ、自分でもそれらに働きかけて、結果的に同様な行動をする場合で、意図的な教示者からすれば、観察者を特定の刺激にさらし、観察者が刺激とその結果の関係を学習するように導く。 | 刺激強化(stimulus enhancement or local enhancement):他者の行動を見て、その場所や対象物に注意を惹かれ、自分でもそれらに働きかけて、結果的に同様な行動をする場合で、意図的な教示者からすれば、観察者を特定の刺激にさらし、観察者が刺激とその結果の関係を学習するように導く。 | ||
目的再現(goal emulation):他者の行動を見て、その目的を共有し、試行錯誤学習で結果的に同じ行動をする場合 | 目的再現(goal emulation):他者の行動を見て、その目的を共有し、試行錯誤学習で結果的に同じ行動をする場合 | ||
反応促進(response facilitation):あくびに代表される、つられ行動で、他者の行動に直接呼応する行動でも、それが自己の既存の行動単位を活性化し、非意図的に、新奇でない同じ行動を引き起こす場合とされる。 | 反応促進(response facilitation):あくびに代表される、つられ行動で、他者の行動に直接呼応する行動でも、それが自己の既存の行動単位を活性化し、非意図的に、新奇でない同じ行動を引き起こす場合とされる。 | ||
これらは、主に動物行動学の観点からの区分であり、de Waalによる共感のロシア人形モデル(<ref name=deWaal2008><pubmed>17550343</pubmed></ref>[4])では、刺激強化や反応促進などは、物まね(motor mimicry)や運動共鳴(motor resonance)などにつながる。また、目的再現は、真の模倣に近い「共有ゴール」に位置づけされ、これらの発達・進化の過程が共感及び自他認知の発達進化と並行することが唱えられている。Asada<ref name=Asada2015><pubmed>Minoru Asada (2015).<br>Towards artificial empathy. International Journal of Social Robotics. 7:19-33. </ref>[5]は、人工共感の発達モデルとして、これらを組み込んでいる(図1)。 | |||
文献<ref name=Asada2015 />[5]のFig. 6と先の文献[4]のFigure 2を組み合わせ改編し、文献<ref name=浅田稔2006 />[2]の図6.2の真/疑似模倣を加えたものをに示す。 | '''図1. 共感や自他認知と並行する模倣の発達・進化'''<br>文献<ref name=Asada2015 />[5]のFig. 6と先の文献[4]のFigure 2を組み合わせ改編し、文献<ref name=浅田稔2006 />[2]の図6.2の真/疑似模倣を加えたものをに示す。 | ||
===動物における模倣とミラーニューロンシステム=== | ===動物における模倣とミラーニューロンシステム=== | ||
40行目: | 43行目: | ||
#観察した行動から模倣行動をどのようにマップするか?(対応付け問題) | #観察した行動から模倣行動をどのようにマップするか?(対応付け問題) | ||
#模倣の試みの成否をどのように評価するか?(成功の度合い) | #模倣の試みの成否をどのように評価するか?(成功の度合い) | ||
人工物による模倣学習では、これらの課題のほとんどを事前決定しているケースが多い。Herman <ref name=Herman2002>Louis M. Herman (2002). <br>Vocal, social, and self imitation by bottlenosed dolphins. In Kerstin Dautenhahn and Chrystopher L. Nehaniv, editors, Imitation in Animals and Artifacts, p. Chapter 3. The MIT Press. </ref>[8]は、ハンドウイルカの興味ある模倣行動について報告している。視覚や聴覚を始めとする多様なモダリティや形態の模倣行動、トレーナーのジェスチャーによる模倣行動制御、そして自己模倣などが含まれる。彼らは、即時に同時に相互模倣すること、さらに人間のジェスチャーを模倣する際、異なる身体部位を使うが、模倣自体は的確に表現されている。ハンドウイルカは上記の5つの課題を巧妙に解いているように見える。 | |||
これらは、特別のメカニズムによるのか、他者を含む環境との相互作用による創発行動なのかの議論がある。新生児模倣<ref name=Meltzoff1977><pubmed>897687</pubmed></ref>[9]は、模倣の生得性を謳ったが、その後、多くの観察から、感覚運動学習の可能性が高くなっている(例えば、<ref name=Ray2011><pubmed>21159091</pubmed></ref>[10])。そして、'''図1'''でもすでに示されているように、模倣の進化の連続性の観点からは、共通のメカニズムとして、ミラーニューロンシステム(以降、MNSと略記)<ref name=リゾラッティ2009>ジャコモ ・リゾラッティ&コラド・シニガリア, 柴田裕之 (訳), 茂木健一郎 (監修) (2009). <br>『ミラーニューロ ン』. 紀伊国屋書店. </ref>[11]が重要な役割を果たしているように見える。ミラーニューロンはマカクザルの下前頭回(F5領域)と下頭頂葉で発見され、運動の観測と実行を司るニューロンと称されてきた。そして、先に示した共感やメンタライジング、さらには、ヒトのブローカ野に近いこともあり、言語能力にも関連しているとさえ言われてきた<ref name=Rizzolatti1998>9610880</ref>[12]。これらは、過渡の期待であり、多くの懸念を示す研究者もいる<ref name=Hickok2009><pubmed>19199415</pubmed></ref>[13]。行為理解に無関係ではないが、そのような高次の機能を担っていないとも言われている<ref name=Hickok2013><pubmed>23147121</pubmed></ref>[14]。MNSの定義自体にもよるが、ヒトのMNSの解析では、Oosterhof et al. <ref name=Oosterhof2013><pubmed>23746574</pubmed></ref>[15]は、multivariate pattern analysis (MVPA) <ref name=Mahmoudi2012><pubmed>23401720</pubmed></ref>[16]を用いて、以下を示した('''図2'''も参照)。 | |||
'''図2 ヒトにおけるクロスモーダルでアクション固有の活動の本人/第三者視点の違いを示すスコア'''(文献<ref name=Oosterhof2013><pubmed>23746574</pubmed></ref>[15]より改編) | |||
*腹側運動前野(PMv)は、視覚運動表現において、第三者視点よりも本人の視点からの応答が強かった。マカクザルでは、この該当領域(F5)において、自己他者の視点の違いによらない行動認識とされていたことと異なる。 | *腹側運動前野(PMv)は、視覚運動表現において、第三者視点よりも本人の視点からの応答が強かった。マカクザルでは、この該当領域(F5)において、自己他者の視点の違いによらない行動認識とされていたことと異なる。 | ||
50行目: | 54行目: | ||
*外側後頭側頭皮質(OT)の領域は、クロスモーダルでアクション固有、視点に依存しない行動表現を示している。伝統的にはこの領域は視覚の一部で、視覚運動、身体部位、物体形状などの隣接表現に関与してきたが、最近の多くの研究では、ハプティクス、運動行動、道具使用等の汎用領域であることを示唆する。よってこのOT領域は、ヒトMNSの候補部分である。 | *外側後頭側頭皮質(OT)の領域は、クロスモーダルでアクション固有、視点に依存しない行動表現を示している。伝統的にはこの領域は視覚の一部で、視覚運動、身体部位、物体形状などの隣接表現に関与してきたが、最近の多くの研究では、ハプティクス、運動行動、道具使用等の汎用領域であることを示唆する。よってこのOT領域は、ヒトMNSの候補部分である。 | ||
*ミラーニューロンが(前)運動野で発見されたことで、前頭頭頂ヒトMNSの直接マッピング機構仮説が唱えられたが、ヒトの運動野以外のクロスモーダルでアクション固有の表現が、上記のOTや海馬にもあることが発見され、この仮説が不完全であることが明らかになった。 | *ミラーニューロンが(前)運動野で発見されたことで、前頭頭頂ヒトMNSの直接マッピング機構仮説が唱えられたが、ヒトの運動野以外のクロスモーダルでアクション固有の表現が、上記のOTや海馬にもあることが発見され、この仮説が不完全であることが明らかになった。 | ||
加えて、クロスモーダルでアクション固有に応答するニューロンは従来唱えられていたミラーニューロンのメインの領域である前頭頂ネットワーク以外にも多く存在する(文献<ref name=Oosterhof2013><pubmed>23746574</pubmed></ref>[15])。例えば、てんかん患者21人のある行動の観察や実行時に対して、観察と実行の両方に反応する細胞が観測されている領域として、補足運動野(SMA)、海馬傍回(PHG)、海馬(H)が挙げられ<ref name=Mukamel2010><pubmed>20381353</pubmed></ref>[17]、情動や記憶とも密接に関連していると察せられる。その他の多くの領域においても、先の三領域ほど強くないが、観測されており、これらの領域では、より抽象的な表現がコードされ、一般的な連想機構が想定される。これらのことから、ミラーニューロンが特別なニューロンではなく、クロスモーダル性を示す多様なニューロン群の一種であり、マカクザルの場合は、他動詞的動作だったものが、ヒトの場合、自動詞的動作も含めた、より一般的な模倣行動生成メカニズムを、これらの多様なニューロン群が連携して実現しているとみなせる。これが、狭義のミラーニューロンが行動理解を担っていないという主張<ref name=Hickok2013><pubmed>23147121</pubmed></ref>[14]と一致する。 | |||
ヒトの場合、広範なネットワーク構造により、疑似模倣から真の模倣に至る発達過程を通じて、文化的・社会的環境の下で多様な模倣行動を表出していると考えられる。 | |||
=== ミラーニューロン、逆強化学習の脳内実装 === | |||
Collette et al. <ref name=Collette2017><pubmed>29083301</pubmed></ref>[18]はヒトが単純な模倣戦略を行っているのか、それとも逆強化学習によって他者の意図を推定する抽象的なプロセスを通して模倣しているかを明らかにするための機能的磁気共鳴機能画像法 (functional magnetic resonance imaging、 fMRI)実験を実施した。その結果、左下頭頂葉後方(posterior inferior parietal lobe; temporo-parietal junction、 TPJ) /上側頭溝後部(posterior superior temporal sulcus、pSTS)と左背内側前頭前野(dorsomedial prefrontal cortex、 dmPFC)を含むメンタライジングネットワークと、前背側線条体と前補足運動野(presupplementary motor area、 pre-SMA)を含む目標指向学習に関与する脳領域のネットワークの二つが関与していることが示唆された。一方でNajar et al.は教示者の報酬を推定し、それを行動のバイアスとして使用する逆強化学習に基づく模倣ではなく、教示者の行動が学習者の価値関数に直接影響を与える価値形成が模倣の計算モデルとして尤もらしいと報告した<ref name=Najar2020><pubmed>33290387</pubmed></ref>[19]。Charpentier et al。は単純な模倣と目的再現に基づく模倣が共存し、それぞれのシステムの予測の相対的な不確実性に基づいて調停されていることを報告した<ref name=Charpentier2020><pubmed>32187528</pubmed></ref>[20]。 | |||
=== 人工システムによる模倣学習 === | |||
反応促進や刺激強化は自動模倣(automatic imitation) と呼ばれ、無意識的行動として捉えられる。生得的か生後の感覚運動学習かの区別を明に付ける必要はないが、人工システムとしては、反射的な運動のライブラリを埋め込み、それをもとに環境内で体験から再帰的に構築していくことが考えられる。模倣ではないが、関連する研究として、周期的音刺激に神経振動子による引き込みで現象を利用(同調)してドラムを叩くロボットの例<ref name=琴坂信哉2001>琴坂信哉, S. Schaal (2001).<br>神経振動子を用いたロボッ トのリズミックな運動生成. 日本ロボット学会誌, 19:116-123. </ref>[21]がある。より一般的には、行動レパートリを用意し、自発的に行動が発現する方式をニューラルネットワークでモデル化した例もある<ref name=Tani2004><pubmed>15555866</pubmed></ref>[22]。また、Dynamic Movement Primitives (DMP) によるアプローチもある<ref name=Ijspeert2002>A. J. Ijspeert, J. Nakanishi, and S. Schaal (2002).<br>Learning rhythmic movements by demonstration using nonlinear oscillators. In Proc. of IEEE/RSJ International Conference on Intelligent Robots and Systems 2002 (IROS '02), pp. 958-963.</ref><ref name=Matsubara2010>Takamitsu Matsubara, Sang-Ho Hyon, and Jun Morimoto (2010).<br>Learning stylistic dynamic movement primitives from multiple demonstrations. In 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 1277-1283</ref>[23], [24]。 | |||
刺激強化は物体や環境がトリガーとして働いて行動が生成される原理と考えられる。ものを見るとその操作行動を連想する機構は、我々人間に備わっているが、それはアフォーダンスがキーとなっている。ミラーニューロンシステムの計算論的神経科学の観点からモデル化を狙ったのは、Oztop and Arbib <ref name=Oztop2002><pubmed>12181587</pubmed></ref>[25, p. 2002]で、アフォーダンスの機構が中心的な役割を果たしており、興味深い。アフォーダンスを学習するロボット研究としては、一定方向の回転する物体に対する研究がある<ref name=Fitzpatrick2003>Paul Fitzpatrick, Giorgio Metta, Lorenzo Natale, Sajit Rao, and Giulio Sandini (2003).<br>Learning about objects through action - initial steps towards artificial cognition. In Proc. of IEEE Int. Conf. on Robotics and Automation, pp. 3140-3145, 2003. </ref>[26]。また、身体表現の獲得と統合する試みもある<ref name=Kuniyoshi2004>Y. Kuniyoshi, Y. Yorozu, Y. Ohmura, K. Terada, T. Otani, A. Nagakubo, and T. Yamamoto (2004).<br>From humanoid embodiment to theory of mind. In F. Iida, R. Pfeifer, L. Steels, and Y. Kuniyoshi, editors, Embodied Artificial Intelligence, pp. 202- 218. Springer, Lecture Note in Artificial Intelligence 3139 (Berlin). </ref>[27]。 | |||
工学的応用の視点も含めた初期のパイオニア的研究としては、Kuniyoshi et al. <ref name=Kuniyoshi1994>Y. Kuniyoshi, M. Inaba, and H. Inoue (1994).<br>Learning by watching. IEEE Trans. on R&A, 10:799-822. </ref>[28]が挙げられ、組み立てタスクを例に人工システムの模倣学習の構造を明らかにした。これが、前節の模倣構造の原点となっている。ヒトを始めとする動物の模倣学習や発達における動作主体、目的共有、行為理解などの高次の認知機能や概念は設計者がロボットに与え、ロボットは軌道を追従したり、動作プリミティブの再生などのレベルに留まっているものが多い(例えば、<ref name=Kawato1996><pubmed>12662536</pubmed></ref><ref name=Schaal2003><pubmed>12689379</pubmed></ref>[29], [30]など)。Billard et al. <ref name=Billard2008>A. Billard, S. Calinon, R. Dillmann, and S. Schaal (2008).<br>Survey: Robot programming by demonstration. Springer Handbook of Robotics, pp. 1371-1394. Book winner of 2 PROSE awards (Award for Excellence in Physical Sciences & Mathematics, Award for Engineering & Technology).</ref>[31]は、Learning from Demonstration (LfD)と呼び、工学的観点から模倣学習を概観している。確率ロボティクスの観点から模倣学習へのアプローチに関しては、杉浦の解説<ref name=杉浦孔明2016>杉浦孔明 (2016).<br>模倣学習における確率ロボティクスの新展開. システム/制御/情報, 60:521- 527. </ref>[32]が参考になる。強化学習の観点から、模倣学習の定式化を狙ったのは。Argall et al. <ref name=Argall2009>Brenna D. Argall, Sonia Chernova, Manuela Veloso, and Brett Browning (2009).<br>A survey of robot learning from demonstration. Robotics and Autonomous Systems, 57:469-483. </ref>[33]で、Programming by Demonstration (PbD)と呼び、教示例からの方策獲得過程としてまとめている。近年の深層学習の興隆により、強化学習の枠組みにおける報酬予測の観点から、逆強化学習が注目されている。 | 工学的応用の視点も含めた初期のパイオニア的研究としては、Kuniyoshi et al. <ref name=Kuniyoshi1994>Y. Kuniyoshi, M. Inaba, and H. Inoue (1994).<br>Learning by watching. IEEE Trans. on R&A, 10:799-822. </ref>[28]が挙げられ、組み立てタスクを例に人工システムの模倣学習の構造を明らかにした。これが、前節の模倣構造の原点となっている。ヒトを始めとする動物の模倣学習や発達における動作主体、目的共有、行為理解などの高次の認知機能や概念は設計者がロボットに与え、ロボットは軌道を追従したり、動作プリミティブの再生などのレベルに留まっているものが多い(例えば、<ref name=Kawato1996><pubmed>12662536</pubmed></ref><ref name=Schaal2003><pubmed>12689379</pubmed></ref>[29], [30]など)。Billard et al. <ref name=Billard2008>A. Billard, S. Calinon, R. Dillmann, and S. Schaal (2008).<br>Survey: Robot programming by demonstration. Springer Handbook of Robotics, pp. 1371-1394. Book winner of 2 PROSE awards (Award for Excellence in Physical Sciences & Mathematics, Award for Engineering & Technology).</ref>[31]は、Learning from Demonstration (LfD)と呼び、工学的観点から模倣学習を概観している。確率ロボティクスの観点から模倣学習へのアプローチに関しては、杉浦の解説<ref name=杉浦孔明2016>杉浦孔明 (2016).<br>模倣学習における確率ロボティクスの新展開. システム/制御/情報, 60:521- 527. </ref>[32]が参考になる。強化学習の観点から、模倣学習の定式化を狙ったのは。Argall et al. <ref name=Argall2009>Brenna D. Argall, Sonia Chernova, Manuela Veloso, and Brett Browning (2009).<br>A survey of robot learning from demonstration. Robotics and Autonomous Systems, 57:469-483. </ref>[33]で、Programming by Demonstration (PbD)と呼び、教示例からの方策獲得過程としてまとめている。近年の深層学習の興隆により、強化学習の枠組みにおける報酬予測の観点から、逆強化学習が注目されている。 | ||
逆強化学習の枠組みでは、最大エントロピー原理に基づく手法や、さらに効率的にサンプリングや計算する手法が提案されており、解説<ref name=長井隆行2020>長井隆行, 堀井隆斗 (2020).<br>強化学習とロボティクス. 電子 情報通信学会誌, 103:1239-1247</ref><ref name=AbAza2020>N. Ab Aza, A. Shahmansoorian, and M. Davoudi (2020).<br>From inverse optimal control to inverse reinforcement learning: A historical review. Annual Reviews in Control, 50:119-138. </ref><ref name=Arora2021>S. Arora and P. Doshi (2021).<br>A survey of inverse reinforcement learning: Challenges, methods and progress. Artificial Intelligence.</ref>[34]–[36]で紹介されている。特に、敵対的生成モデル(GAN)の定式化を用いて、教示者と学習者の状態行動対を分類する識別器とそれを騙そうとする生成器の駆け引きとして強化学習と逆強化学習を組み合わせる手法は、深層学習が強化学習に深く入り込んで、深層学習が様々な学習に単なるツールとしてだけではなく、新たな枠組みを提案しているように捉えられる。さらに、逆強化学習で必要とされる教示者の状態行動列を必要とせず、ゴール状態のみを提示することで、報酬を推定する手法もある<ref name=Fu2018>Justin Fu, Avi Singh, Dibya Ghosh, Larry Yang, and Sergey Levine (2018).<br>Variational inverse control with events: a general framework for data-driven reward definition. In Neural Information Processing Systems (NIPS), 2018, pp. 8547-8556</ref>[37]。次節では、これらを含めた計算論的枠組について説明する。 | 逆強化学習の枠組みでは、最大エントロピー原理に基づく手法や、さらに効率的にサンプリングや計算する手法が提案されており、解説<ref name=長井隆行2020>長井隆行, 堀井隆斗 (2020).<br>強化学習とロボティクス. 電子 情報通信学会誌, 103:1239-1247</ref><ref name=AbAza2020>N. Ab Aza, A. Shahmansoorian, and M. Davoudi (2020).<br>From inverse optimal control to inverse reinforcement learning: A historical review. Annual Reviews in Control, 50:119-138. </ref><ref name=Arora2021>S. Arora and P. Doshi (2021).<br>A survey of inverse reinforcement learning: Challenges, methods and progress. Artificial Intelligence.</ref>[34]–[36]で紹介されている。特に、敵対的生成モデル(GAN)の定式化を用いて、教示者と学習者の状態行動対を分類する識別器とそれを騙そうとする生成器の駆け引きとして強化学習と逆強化学習を組み合わせる手法は、深層学習が強化学習に深く入り込んで、深層学習が様々な学習に単なるツールとしてだけではなく、新たな枠組みを提案しているように捉えられる。さらに、逆強化学習で必要とされる教示者の状態行動列を必要とせず、ゴール状態のみを提示することで、報酬を推定する手法もある<ref name=Fu2018>Justin Fu, Avi Singh, Dibya Ghosh, Larry Yang, and Sergey Levine (2018).<br>Variational inverse control with events: a general framework for data-driven reward definition. In Neural Information Processing Systems (NIPS), 2018, pp. 8547-8556</ref>[37]。次節では、これらを含めた計算論的枠組について説明する。 |