検索結果

ナビゲーションに移動 検索に移動
  • …the 23rd AAAI Conference on Artificial Intelligence, pp. 335-42. </ref>は[[状態価値関数]]の推定を経ることで逆強化学習の困難さが大幅に緩和できることを示した。またOptimize Value functionを密度比推定の問題として定式化 …きるが、工学的なシステムにおいては学習者のデータ生成分布は実験者が明示的に規定できる。この事実と[[エントロピー正則]]の導入によって、識別器は報酬、状態価値関数、および学習者の方策によって構造化できる<ref name=Uchibe2018></ref><ref name=Fu2018b>'''Justin… …
    34キロバイト (1,136 語) - 2021年9月28日 (火) 21:27