「自由エネルギー原理」の版間の差分

提供:脳科学辞典
ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
(他の1人の利用者による、間の6版が非表示)
2行目: 2行目:
<font size="+1">[http://researchmap.jp/takuyaisomura 磯村 拓哉]</font><br>
<font size="+1">[http://researchmap.jp/takuyaisomura 磯村 拓哉]</font><br>
''理化学研究所脳神経科学研究センター''<br>
''理化学研究所脳神経科学研究センター''<br>
DOI:<selfdoi /> 原稿受付日:2022年1月31日 原稿完成日:2022年4月3日<br>
DOI:<selfdoi /> 原稿受付日:2022年1月31日 原稿完成日:2022年4月@@日<br>
担当編集委員:[https://researchmap.jp/kkitajo 北城 圭一](生理学研究所)<br>
担当編集委員:[https://researchmap.jp/kkitajo 北城 圭一](生理学研究所)<br>
</div>
</div>
英:free-energy principle 独:Prinzip der freien Energie 仏:principe de l'énergie libre
英:the free-energy principle
{{box|text= 自由エネルギー原理は、Karl J. Fristonが提唱している脳の情報理論である。生物の知覚や学習、行動は、変分自由エネルギーと呼ばれるコスト関数を最小化するように決まるとしている。その結果、生物は変分ベイズ推論と呼ばれる統計学的な推論を自己組織化に行うとされている。}}
{{box|text= 自由エネルギー原理は、Karl J. Fristonが提唱している脳の情報理論である。生物の知覚や学習、行動は、変分自由エネルギーと呼ばれるコスト関数を最小化するように決まるとしている。その結果、生物は変分ベイズ推論と呼ばれる統計学的な推論を自己組織化に行うとされている。}}


==背景==
==背景==
 [[生物]]の[[感覚]]入力に基づく適応的な行動は、何らかの[[自己組織化]](つまり[[適応]]、[[最適化]])によって特徴付けることができる。生物は、感覚入力を生成する外部環境のダイナミクスに関する[[内部表現]]([[内部モデル]])を自己組織化的に獲得することで環境の状態を認識する。さらに、環境に適応するために自分の行動を更新し、それによって生存と[[繁殖]]の確率を高めている。このような生物の自己組織化は、一般に何らかのコスト関数の最小化として定式化が可能であり、コスト関数の勾配(つまり微分)は[[神経]]活動や[[シナプス可塑性]]の方程式を導くことができる。これは神経科学の理論研究において広く共通する考え方である。
 生物の感覚入力に基づく適応的な行動は、何らかの自己組織化(つまり適応、最適化)によって特徴付けることができる。生物は、感覚入力を生成する外部環境のダイナミクスに関する内部表現(内部モデル)を自己組織化的に獲得することで環境の状態を認識する。さらに、環境に適応するために自分の行動を更新し、それによって生存と繁殖の確率を高めている。このような生物の自己組織化は、一般に何らかのコスト関数の最小化として定式化が可能であり、コスト関数の勾配(つまり微分)は神経活動やシナプス可塑性の方程式を導くことができる。これは神経科学の理論研究において広く共通する考え方である。


 19世紀の物理学者兼医師であった[[wj:ヘルマン・フォン・ヘルムホルツ|Hermann von Helmholtz]]は、[[ヒト]]の感覚入力は不完全であるため、[[脳]]は不十分な情報を補うために無意識に推論を行うことで知覚を支えているという無意識的推論の概念を提唱した<ref name=Helmholtz1925>'''Helmholtz, H. (1925).'''<br>Treatise on Physiological Optics (Vol. 3). Optical Society of America, Washington, DC.</ref>。つまり、脳は感覚入力の背後にある隠れた状態変数(隠れ状態)のダイナミクスを無意識に推論していると考えられる。ここでは、このように自律的に外界を推論する実体をエージェントと呼ぶこととする。Helmholtzの提唱した概念的な枠組みに加えて、無意識的推論は[[計算神経科学]]や[[機械学習]]の分野において[[統計学]]に基づき実装されてきた<ref name=Dayan1995><pubmed>7584891</pubmed></ref>。とりわけ予測符号化は、予測誤差というコスト関数を最小化することで外界の予測を行うための内部表現を自律的に獲得する理論的な枠組みであり、視覚野<ref name=Rao1999><pubmed>10195184</pubmed></ref>や他の脳領域における情報処理のモデルとして適用されてきた。このような最適化は[[ベイズ推論]]([[ベイズ推定]])と呼ばれる統計学的な推論として理解することができる。ベイズ推論とは、観測データに基づき事前確率(prior belief)を事後確率(posterior belief)に更新する過程のことであり、事前確率・事後確率とはそれぞれ観測の前・後におけるエージェントが持つ外部状態に関する信念を意味している。そこで、ベイズ推論の枠組みに基づき脳を理解しようとする、[[ベイズ脳仮説]]が提唱されてきた<ref name=Knill2004><pubmed>15541511</pubmed></ref><ref name=Doya2007>'''Doya, K., Ishii, S., Pouget, A., Rao, R.P. (Eds.) (2007).'''<br>Bayesian Brain: Probabilistic Approaches to Neural Coding. MIT Press, Cambridge, MA, USA.</ref>。以上のように脳の理論が発展してきた流れの中で、イギリスの神経科学者である[[w:Karl_J._Friston|Karl J. Friston]]は、ベイズ推論の枠組みの下で脳認知機能や神経・精神疾患、心理・生命現象を数理的かつ統一的に説明するための理論として、自由エネルギー原理を提唱した<ref name=Friston2006><pubmed>17097864</pubmed></ref><ref name=Friston2010><pubmed>20068583</pubmed></ref>。
 19世紀の物理学者兼医師であったHermann von Helmholtzは、ヒトの感覚入力は不完全であるため、脳は不十分な情報を補うために無意識に推論を行うことで知覚を支えているという無意識的推論の概念を提唱した<ref name=Helmholtz1925>'''Helmholtz, H. (1925).'''<br>Treatise on Physiological Optics (Vol. 3). Optical Society of America, Washington, DC.</ref>。つまり、脳は感覚入力の背後にある隠れた状態変数(隠れ状態)のダイナミクスを無意識に推論していると考えられる。ここでは、このように自律的に外界を推論する実体をエージェントと呼ぶこととする。Helmholtzの提唱した概念的な枠組みに加えて、無意識的推論は計算神経科学や機械学習の分野において統計学に基づき実装されてきた<ref name=Dayan1995><pubmed>7584891</pubmed></ref>。とりわけ予測符号化は、予測誤差というコスト関数を最小化することで外界の予測を行うための内部表現を自律的に獲得する理論的な枠組みであり、視覚野<ref name=Rao1999><pubmed>10195184</pubmed></ref>や他の脳領域における情報処理のモデルとして適用されてきた。このような最適化はベイズ推論と呼ばれる統計学的な推論として理解することができる。ベイズ推論とは、観測データに基づき事前確率(prior belief)を事後確率(posterior belief)に更新する過程のことであり、事前確率・事後確率とはそれぞれ観測の前・後におけるエージェントが持つ外部状態に関する信念を意味している。そこで、ベイズ推論の枠組みに基づき脳を理解しようとする、ベイズ脳仮説が提唱されてきた<ref name=Knill2004><pubmed>15541511</pubmed></ref><ref name=Doya2007>'''Doya, K., Ishii, S., Pouget, A., Rao, R.P. (Eds.) (2007).'''<br>Bayesian Brain: Probabilistic Approaches to Neural Coding. MIT Press, Cambridge, MA, USA.</ref>。以上のように脳の理論が発展してきた流れの中で、イギリスの神経科学者であるKarl J. Fristonは、ベイズ推論の枠組みの下で脳認知機能や神経・精神疾患、心理・生命現象を数理的かつ統一的に説明するための理論として、自由エネルギー原理を提唱した<ref name=Friston2006><pubmed>17097864</pubmed></ref><ref name=Friston2010><pubmed>20068583</pubmed></ref>。


==理論の概要==
==理論の概要==
[[ファイル:自由エネルギー原理の概念図。.jpg|サムネイル|'''図. 自由エネルギー原理の概念図。'''ここでは、外界(飼い主)は生成モデルに従い隠れた状態変数(隠れ状態)から感覚入力を生成すると考える。エージェント(イヌ)は、自由エネルギーを最小化するように隠れ状態やパラメータの期待値や行動を更新することで能動的な推論を行う。図は総説<ref name=Isomura2022a><pubmed>34968557</pubmed></ref>より改変。]]
 自由エネルギー原理は、簡単にいうと「生物の知覚や学習、行動は変分自由エネルギーと呼ばれるコスト関数を最小化するように決まり、その結果生物は外界に適応できる」という理論である。変分自由エネルギーの最小化というシンプルな法則に基づき、生物の知能をベイズ推論により統一的に記述し理解することを目的としている<ref name=Friston2006><pubmed>17097864</pubmed></ref><ref name=Friston2010><pubmed>20068583</pubmed></ref>。


 自由エネルギー原理は、簡単にいうと「生物の知覚や学習、行動は[[変分自由エネルギー]]と呼ばれる[[コスト関数]]を最小化するように決まり、その結果生物は外界に適応できる」という理論である。変分自由エネルギーの最小化というシンプルな法則に基づき、生物の知能をベイズ推論により統一的に記述し理解することを目的としている<ref name=Friston2006><pubmed>17097864</pubmed></ref><ref name=Friston2010><pubmed>20068583</pubmed></ref>。
 生物は、外界や身体のダイナミクスを表現する生成モデルを脳内に保持していると考えられている(内部モデル仮説を参照)。生成モデルとは、隠れた状態変数から感覚入力が生成される仕組みをメカニカルに表す数式のことであり、外部状態と感覚入力の同時確率分布として記述できる。この生成モデルに基づき、感覚入力のみからその背後にある生成過程を推論し、将来の感覚入力や隠れ状態を予測する。言い換えれば、生成モデルは、外部状態がどのように感覚入力を生成するかについてエージェントが持っている仮説を意味しており、知覚や学習は生成モデルを実際の生成過程と一致するように自己組織化的に最適化することであると解釈できる。それによって、エージェントの神経回路の活動は、外部の環境状態を正確に推測し、その後の感覚入力や隠れ状態を予測できるようになる([[予測符号化]]も参照)。


 生物は、外界や身体のダイナミクスを表現する[[生成モデル]]を脳内に保持していると考えられている([[内部モデル]]仮説を参照)。生成モデルとは、隠れた状態変数から感覚入力が生成される仕組みをメカニカルに表す数式のことであり、外部状態と感覚入力の同時確率分布として記述できる。この生成モデルに基づき、感覚入力のみからその背後にある生成過程を推論し、将来の感覚入力や隠れ状態を予測する。言い換えれば、生成モデルは、外部状態がどのように感覚入力を生成するかについてエージェントが持っている仮説を意味しており、[[知覚]]や[[学習]]は生成モデルを実際の生成過程と一致するように自己組織化的に最適化することであると解釈できる。それによって、エージェントの神経回路の活動は、外部の環境状態を正確に推測し、その後の感覚入力や隠れ状態を予測できるようになる([[予測符号化]]も参照)。
 生成モデルを構成する隠れ状態やパラメータはベイズ推論に基づき定義される予測誤差の指標である変分自由エネルギーを最小化することで最適化することができる。自由エネルギー原理は、生物の内部状態や行動は変分自由エネルギーを最小化するように更新されることを主張している。神経活動やシナプス結合は、変分自由エネルギーを最小化させる方向に変化し、その結果、神経回路は外界のベイズ推論を行うように自己組織化する。さらに自由エネルギー原理が特徴的なのは、推論の最適化の法則により、原因の推論や未来の入力の予測などの知覚のみならず、行動制御や意思決定の最適化についても説明可能な統一理論である点である。ベイズ推論に基づく行動制御・意思決定の最適化は能動的推論(active inference)と呼ばれ、生物学的に妥当で適応的な制御の理論として近年活発に研究されている(Friston et al., 2011; Friston et al., 2016; Friston et al., 2017)。


 生成モデルを構成する隠れ状態やパラメータはベイズ推論に基づき定義される予測誤差の指標である変分自由エネルギーを最小化することで最適化することができる。自由エネルギー原理は、生物の内部状態や行動は変分自由エネルギーを最小化するように更新されることを主張している。神経活動や[[シナプス結合]]は、変分自由エネルギーを最小化させる方向に変化し、その結果、神経回路は外界のベイズ推論を行うように自己組織化する。さらに自由エネルギー原理が特徴的なのは、推論の最適化の法則により、原因の推論や未来の入力の予測などの知覚のみならず、行動制御や意思決定の最適化についても説明可能な統一理論である点である。ベイズ推論に基づく行動制御・意思決定の最適化は能動的推論(active inference)と呼ばれ、生物学的に妥当で適応的な制御の理論として近年活発に研究されている<ref name=Friston2011><pubmed>21327826</pubmed></ref><ref name=Friston2016><pubmed>27375276</pubmed></ref><ref name=Friston2017><pubmed>27870614</pubmed></ref>。
 図1は、自由エネルギー原理の下で、能動的推論がどのように動作するかの例を示している。ここでは、外界(飼い主)が何か信号を生成すると、エージェント(イヌ)は直接観測できる感覚入力だけから背後の飼い主の状態(気持ち)を推論し、その事後確率(期待値)を脳内で表現する。このとき、自由エネルギーを最小化するように事後確率を更新することで、ベイズ推論を最適に行うことができる。さらに、将来期待される自由エネルギー(期待自由エネルギー)を最小化する行動を能動的に推論し選択することで、欲しい感覚入力(エサ)を得られる確率を最大化することができる。


 '''図'''は、自由エネルギー原理の下で、能動的推論がどのように動作するかの例を示している。ここでは、外界(飼い主)が何か信号を生成すると、エージェント(イヌ)は直接観測できる感覚入力だけから背後の飼い主の状態(気持ち)を推論し、その事後確率(期待値)を脳内で表現する。このとき、自由エネルギーを最小化するように事後確率を更新することで、ベイズ推論を最適に行うことができる。さらに、将来期待される自由エネルギー(期待自由エネルギー)を最小化する行動を能動的に推論し選択することで、欲しい感覚入力(エサ)を得られる確率を最大化することができる。
 また生成モデルは事前分布により特徴付けられることから、様々な精神障害の神経メカニズムを誤った生成モデルや事前分布に基づく推論・予測の破綻として理解することが提唱されている(Friston et al., 2014)。


 また生成モデルは事前分布により特徴付けられることから、様々な精神障害の神経メカニズムを誤った生成モデルや事前分布に基づくベイズ推論・予測の破綻として理解することが提唱されている<ref name=Fletcher2009><pubmed>19050712</pubmed></ref><ref name=Friston2014><pubmed>26360579</pubmed></ref>。
 以下では、変分ベイズ推論と能動的推論の概要について(Isomura, 2022)に記載した内容をもとに手短に紹介するが、より包括的な解説や議論に関しては他の総説論文(@)を参照されたい。
 
 以下では、変分ベイズ推論と能動的推論の概要について総説<ref name=Isomura2022a><pubmed>34968557</pubmed></ref>をもとに手短に紹介するが、より包括的な解説や議論に関しては他の優れた総説<ref name=Friston2010><pubmed>20068583</pubmed></ref><ref name=Buckley2017>'''Buckley, C. L., Kim, C. S., McGregor, S., & Seth, A. K. (2017).'''<br>The free energy principle for action and perception: A mathematical review. Journal of Mathematical Psychology, 81, 55-79.</ref><ref name=Bogacz2017><pubmed>28298703</pubmed></ref><ref name=DaCosta2020><pubmed>33343039</pubmed></ref><ref name=Friston2022>'''Friston, K. J., Da Costa, L., Sajid, N., Heins, C., Ueltzhöffer, K., Pavliotis, G. A., & Parr, T. (2022).'''<br>The free energy principle made simpler but not too simple. Preprint at arXiv 2201.06387.</ref>を参照していただきたい。


==変分ベイズ推論==
==変分ベイズ推論==
 自由エネルギー原理は、感覚入力(<math>o</math>)の起こりにくさの主観的な指標であるサプライズ(surprise)を最小化することが生物の普遍的な特性であると提唱している。サプライズは、感覚入力の負の対数尤度<math>-\log P_m(o_{1:t})</math>により定義される。ただしここでは、<math>o_{1:t}=\{o_1,\dots,o_t\}</math>は時刻1から<math>t</math>までの感覚入力のことである。また、確率分布<math>P_m(o_{1:t})</math>は、モデル構造<math>m</math>によって特徴付けられる<math>o</math>の統計モデルを意味しており、外界が<math>o</math>を生成する真の分布<math>P(o_{1:t})</math>とは必ずしも一致しない。サプライズは予期せぬ入力を受けたときに大きな値を取るため、サプライズの最小化は与えられた環境に対する適応度を高めることを意味する。ただし、このサプライズは統計的に定義された指標であり、驚きを感じるという意識的な経験とは概念的に異なることに注意する必要がある。
 自由エネルギー原理は、感覚入力(o)の起こりにくさの主観的な指標であるサプライズ(surprise)を最小化することが生物の普遍的な特性であると提唱している。サプライズは、感覚入力の負の対数尤度-log⁡〖P_m (o)〗に  より定義される。ここでは、確率分布P_m (o)は、モデル構造mによって特徴付けられるoの統計モデルを意味しているため、外界がoを生成する真の分布P(o)とは必ずしも一致しない。サプライズは予期せぬ入力を受けたときに大きな値を取るため、サプライズの最小化は与えられた環境に対する適応度を高めることを意味する。ただし、このサプライズは統計的に定義された指標であり、驚きを感じるという意識的な経験とは概念的に異なることに注意する必要がある。サプライズを直接計算するためには、対数の中にある周辺化尤度(つまり同時確率分布の積分)を計算する必要があるため、神経回路にとっては扱いが困難である。そのため神経回路は間接的にサプライズを計算するための扱いやすい代替方法として、変分自由エネルギーと呼ばれるサプライズの上限値を評価していると考えられている。自由エネルギー原理という名称は、この変分自由エネルギーに由来する。こうした自由エネルギーの概念は、統計物理学から導かれたものであり、機械学習の分野において広く用いられている(Friston et al., 2006)。この枠組みの下では、変分自由エネルギーを最小化するように神経活動やシナプス結合強度が更新され、行動が生成される。この性質は、熱力学や化学におけるルシャトリエの原理を彷彿とさせるものである。この原理に従い神経回路は自己組織化し、外部状態の変分ベイズ推論を行うことで、様々な脳機能を実現していると考えられている。


 サプライズを直接計算するためには、対数の中にある周辺化尤度(つまり同時確率分布の積分)を計算する必要があるため、神経回路にとっては扱いが困難である。そのため神経回路は間接的にサプライズを計算するための扱いやすい代替方法として、変分自由エネルギーと呼ばれるサプライズの上限値を評価していると考えられている。自由エネルギー原理という名称は、この変分自由エネルギーに由来する。こうした自由エネルギーの概念は、統計物理学から導かれたものであり、機械学習の分野において広く用いられている<ref name=Friston2006><pubmed>17097864</pubmed></ref>。この枠組みの下では、変分自由エネルギーを最小化するように神経活動やシナプス結合強度が更新され、行動が生成される。この性質は、熱力学や化学における[[wj:ルシャトリエの原理|ルシャトリエの原理]]を彷彿とさせるものである。この原理に従い神経回路は自己組織化し、外部状態の[[変分ベイズ推論]]を行うことで、様々な脳機能を実現していると考えられている。
 変分ベイズ推論は、一連の感覚入力(o)に基づいて、外部状態に関する事前分布P_m (ϑ)を対応する(近似)事後分布Q(ϑ)に更新する過程である。この推論は、外部状態がどのように感覚入力を生成するかをメカニカルに表現した(階層的)生成モデルP_m (o_(1:t),ϑ)に基づいている(Friston, 2008)。ここでは、外部状態(ϑ)は、隠れ状態(s)、エージェントの行動(δ)、システムパラメータ(θ)、ハイパーパラメータ(λ)の集合として定義し、ϑ={s,δ,θ,λ}と表す(ϑとθの違いに注意されたい)。一連の行動δに代わって方策πを使ってϑを構成してもよい。例えば、外部環境が離散状態空間である場合、部分観測マルコフ決定過程の形式で外部環境を表現することができる(Friston et al.,2017)。変分ベイズ推論の目的は、エージェントが外部状態に関して主観的に持っている信念の分布である(近似)事後分布をQ(ϑ)を最適化することであるため、そのコスト関数である変分自由エネルギー(F)はoとQ(ϑ)の関数(汎関数)として、次のように与えられる:


 変分ベイズ推論は、一連の感覚入力(<math>o</math>)に基づいて、外部状態に関する事前分布<math>P_m(\vartheta)</math>を対応する(近似)事後分布<math>Q(\vartheta)</math>に更新する過程である。この推論は、外部状態がどのように感覚入力を生成するかをメカニカルに表現した(階層的)生成モデル<math>P_m(o_{1:t},\vartheta)</math>に基づいている<ref name=Friston2008><pubmed>18989391</pubmed></ref>。ここでは、外部状態(<math>\vartheta</math>)は、隠れ状態(<math>s</math>)、エージェントの行動(<math>\delta</math>)、システムパラメータ(<math>\theta</math>)、ハイパーパラメータ(<math>\lambda</math>)の集合として定義し、<math>\vartheta=\{s_{1:t},\delta_{1:t},\theta,\lambda\}</math>と表す(<math>\vartheta</math>と<math>\theta</math>の違いに注意されたい)。一連の行動<math>\delta</math>に代わって方策<math>\pi</math>を使って<math>\vartheta</math>を構成してもよい。例えば、外部環境が離散状態空間である場合、[[部分観測マルコフ決定過程]]の形式で外部環境を表現することができる<ref name=Friston2017><pubmed>27870614</pubmed></ref>。
█(F(o,Q(ϑ))=E_Q(ϑ) [-log⁡〖P_m (o_(1:t),ϑ)〗+log⁡Q(ϑ) ]#(1) )


 変分ベイズ推論の目的は、エージェントが外部状態に関して主観的に持っている信念の分布である(近似)事後分布<math>Q(\vartheta)</math>を最適化することであるため、そのコスト関数である[[変分自由エネルギー]](<math>F</math>)は<math>o</math>と<math>Q(\vartheta)</math>の関数(汎関数)として、次のように与えられる:
ただし、E_Q(ϑ) []はQ(ϑ)についての期待値を表している。このFは常にサプライズ以上の値をとり、等号はQ(ϑ)とP_m (ϑ|o_(1:t) )が一致したときのみ成り立つ。したがって、Fを最小化することにより、間接的にサプライズを最小化することができる。  変分法という方法を用いると、Q(ϑ)を微小に変化させたときのFの変化の仕方に着目することで、Fを最小化するQ(ϑ)の解(つまり、微小に変化させると常にFが大きくなるようなQ(ϑ))を見つけることができる。


:<math>
 式1を式変形することにより、変分自由エネルギーは予測誤差(prediction error)と複雑さ(complexity)の和として表すことができる。予測誤差は、感覚入力や隠れ状態の予測値が実際の値とどの程度異なるかを測定するもので、背景ノイズをガウスとみなした場合、広く用いられている平均二乗誤差に還元される(Friston, 2008)。複雑さとは、事前分布と事後分布の差のことであり、通常、Kullback-Leibler divergenceを用いて評価される。この項は、事後分布が対応する事前分布から離れすぎないように正則化する役割を担っている。
F(o_{1:t},Q(\vartheta))=\mathrm{E}_{Q(\vartheta)}[-\log P_m(o_{1:t},\vartheta) + \log Q(\vartheta)]
多くの場合、事後期待値ϑ(すなわち、観測に基づくϑの推定値)は事後分布を近似的に表すのに十分である。このことから、Fのϑについての最小化問題を解くことで、元のFのQ(ϑ)についての最小化問題を解くことができる。したがって、勾配降下法を用いて、Fをϑの各成分について最小化することで、事後分布を最適化することができる:
</math>


ただし、<math>\mathrm{E}_{Q(\vartheta)}[\bullet]</math>は<math>Q(\vartheta)</math>についての期待値を表している。この<math>F</math>は常にサプライズ以上の値をとり、等号は<math>Q(\vartheta)</math>と<math>P_m(o_{1:t}|\vartheta)</math>が一致したときのみ成り立つ。したがって、<math>F</math>を最小化することにより、間接的にサプライズの最小化が可能である。変分法により、<math>Q(\vartheta)</math>を微小に変化させたときの<math>F</math>の変化の仕方に着目することで、<math>F</math>を最小化する<math>Q(\vartheta)</math>の解(つまり、微小に変化させると常に<math>F</math>が大きくなるような<math>Q(\vartheta)</math>)を見つけることができる。
(ϑ ̇_i∝-∂F/(∂ϑ_i )#(2) )


 上式を変形することにより、変分自由エネルギーは予測誤差(prediction error)と複雑さ(complexity)の和として表すことができる。予測誤差は、感覚入力や隠れ状態の予測値が実際の値とどの程度異なるかを測定するもので、背景ノイズをガウスとみなした場合、広く用いられている平均二乗誤差に簡略化できる<ref name=Friston2008><pubmed>18989391</pubmed></ref>。複雑さとは、事前分布と事後分布の差のことであり、通常、[[w:Kullback–Leibler_divergence|Kullback-Leibler divergence]]を用いて評価される。この項は、事後分布が対応する事前分布から離れすぎないように正則化する役割を担っている。
ここで、ϑ_iはϑのi番目の成分を示している。このϑの更新は固定点(すなわち、ϑ ̇=0を与えるϑ)に到達して収束する。そのϑ(より一般にはQ(ϑ))はベイズ推論の意味で最適な内部表現と行動であることを意味している。このように、自由エネルギー原理は、推論(すなわち、sの最適化)、学習(θの最適化)、適応的行動制御(δの最適化)、将来のoとsの予測、それに続く将来の結果に関するリスクを最小化する計画について、一つの法則で統一的に説明することができる。
 
 多くの場合、事後期待値<math>\boldsymbol{\vartheta}</math>(すなわち、観測に基づく<math>\vartheta</math>の推定値)は事後分布を近似的に表すのに十分である。なお太字で表した変数<math>\boldsymbol{\vartheta}</math>は対応する変数<math>\vartheta</math>の期待値の意味である。このことから、<math>F</math>の<math>\boldsymbol{\vartheta}</math>についての最小化問題を解くことで、元の<math>F</math>の<math>Q(\vartheta)</math>についての最小化問題を解くことが可能である。したがって、[[勾配降下法]]を用いて、<math>F</math>を<math>\boldsymbol{\vartheta}</math>の各成分について最小化することで、事後分布を最適化することができる:
 
:<math>
\dot{\boldsymbol{\vartheta}}_i \propto -\frac{\partial F}{\partial \boldsymbol{\vartheta}_i}
</math>
 
ここで、<math>\boldsymbol{\vartheta}_i</math>は<math>\boldsymbol{\vartheta}</math>の<math>i</math>番目の成分を示している。この<math>\boldsymbol{\vartheta}</math>の更新は固定点(すなわち、<math>\dot{\boldsymbol{\vartheta}}=0</math>を与える<math>\boldsymbol{\vartheta}</math>)に到達して収束する。その<math>\boldsymbol{\vartheta}</math>(より一般には<math>Q(\vartheta)</math>)はベイズ推論の意味で最適な内部表現と行動であることを意味している。このように、自由エネルギー原理は、推論(すなわち、<math>\mathbf{s}</math>の最適化)、学習(<math>\boldsymbol{\theta}</math>の最適化)、適応的行動制御(<math>\boldsymbol{\delta}</math>の最適化)、将来の<math>o</math>と<math>s</math>の予測、将来の結果に関するリスクを最小化する行動計画について、一つの法則で統一的に説明することができる。


==能動的推論==
==能動的推論==
 自由エネルギー原理の特徴の一つは、変分ベイズ推論を行動制御と行動計画の説明に応用している点、すなわち能動的推論である<ref name=Friston2011><pubmed>21327826</pubmed></ref><ref name=Friston2016><pubmed>27375276</pubmed></ref><ref name=Friston2017><pubmed>27870614</pubmed></ref>。エージェントが行動を生成し外部環境に対してフィードバックを返すとき、生成過程およびサプライズはエージェントの行動の関数となる。したがって、エージェントは、将来期待される自由エネルギー(期待自由エネルギー, expected free energy, <math>G</math>)を最小化するような行動を選択することで、将来の感覚入力を好ましい入力(つまり予測通りの入力)に近づけることができる。好ましい入力はpreference priorと呼ばれる事前分布によって決まる。'''図'''の例では、エージェントの犬は、餌を得るために期待自由エネルギーを最小化する行動を能動的に推論し、選択する。このように、能動的推論は、知覚と行動の両方を過去あるいは未来について積算された変分自由エネルギーの最小化により導出することができ、推論・予測・学習・行動計画・行動制御などを統一的に説明できる。そのため、生物の感覚入力に基づく適応的な行動の普遍的な特性を説明する理論的な枠組みとして期待されている。
 自由エネルギー原理の特徴の一つは、変分ベイズ推論を行動制御と行動計画の説明に応用している点、すなわち能動的推論である(Friston et al., 2011; Friston et al., 2016; Friston et al., 2017)。エージェントが行動を生成し外部環境に対してフィードバックを返すとき、生成過程およびサプライズはエージェントの行動の関数となる。したがって、エージェントは、将来期待される自由エネルギー(期待自由エネルギー, expected free energy, G)を最小化するような行動を選択することで、将来の感覚入力を好ましい入力(つまり予測通りの入力)に近づけることができる(Friston et al., 2017)。好ましい入力はpreference prior(C)と呼ばれる事前分布によって決まる。図1の例では、エージェントの犬は、餌を得るために期待自由エネルギーを最小化する行動を能動的に推論し、選択する。このように、能動的推論は、知覚と行動の両方を過去あるいは未来について積算された変分自由エネルギーの最小化により導出することができ、推論・予測・学習・行動計画・行動制御などを統一的に説明できる。そのため、生物の感覚入力に基づく適応的な行動の普遍的な特性を説明する理論的な枠組みとして期待されている。


 能動的推論は、エージェントが予測と異なる感覚入力を受け取ったときに起きる。例えば、エージェントが外界の生成過程と異なる生成モデルを採用している場合、外部環境の生成過程をエージェントが採用している生成モデルに近づけるために行動が生成される<ref name=Friston2011><pubmed>21327826</pubmed></ref>。一例として、エージェントである[[鳥]]が他の鳥の歌が聞こえている状態を学習すると、その歌が聞こえている状態がサプライズを最小化するようになる<ref name=Kiebel2008><pubmed>19008936</pubmed></ref><ref name=Friston2015a><pubmed>25957007</pubmed></ref><ref name=Friston2015b><pubmed>25563935</pubmed></ref>。したがって、エージェントが歌を聞いていないときは、歌がないことで大きなサプライズが生じるため、自ら歌う、あるいは同種の鳥を探すなどの行動をすることで歌を聞こうとする。行動生成の結果、エージェントは自分自身の予測(つまり、予測された歌)を実際の感覚入力として受け取ることになり、サプライズを最小化することができる。なお、鳥は行動生成に先立ち、歌が聞こえない状況に再適応する可能性もある。このように、サプライズの最小化には、エージェントの内部状態が外部環境状態に近づく場合と、エージェントの行動によって外部環境状態が内部状態に近づく場合の2通りの方法が存在する。学習速度と行動生成の閾値のバランスにより、学習と行動生成のどちらを行うかが決定される。
 能動的推論は、エージェントのが予測と異なる感覚入力を受け取ったときに起きる。例えば、エージェントが外界の生成過程と異なる生成モデルを採用している場合、外部環境の生成過程をエージェントが採用している生成モデルに近づけるために行動が生成される(Friston et al., 2011)。一例として、エージェントである鳥が他の鳥の歌が聞こえている状態を学習すると、その歌が聞こえている状態がサプライズを最小化するようになる(Kiebel et al.2008; Friston & Frith, 2015a; Friston & Frith, 2015b)。したがって、エージェントが歌を聞いていないときは、歌がないことで大きなサプライズが生じるため、自ら歌う、あるいは同種の鳥を探すなどの行動をすることで歌を聞こうとする。行動生成の結果、エージェントは自分自身の予測(つまり、予測された歌)を実際の感覚入力として受け取ることになり、サプライズを最小化することができる。なお、鳥は行動生成に先立ち、歌が聞こえない状況に再適応する可能性もある。つまりこのように、サプライズの最小化には、エージェントの内部状態が外部環境状態に近づく場合と、エージェントの行動によって外部環境状態が内部状態に近づく場合の2通りの方法が存在する。学習速度と行動生成の閾値のバランスにより、学習と行動生成のどちらを行うかが決定される。


 能動的推論は行動計画の説明にも適用できる<ref name=Friston2017><pubmed>27870614</pubmed></ref>。行動計画は、将来の不確実性を最小化するための方策(policy)の選択に相当し、推論の一種である<ref name=Attias2003>'''Attias, H. (2003).'''<br>Planning by Probabilistic Inference. In Proc. 9th International Workshop on Artificial Intelligence and Statistics, 6–16, ML Research Press.</ref><ref name=Botvinick2012><pubmed>22940577</pubmed></ref><ref name=Maisto2015><pubmed>25652466</pubmed></ref><ref name=Kaplan2018><pubmed>29572721</pubmed></ref><ref name=Millidge2020>'''Millidge, B. (2020).'''<br>Deep active inference as variational policy gradients. Journal of Mathematical Psychology, 96, 102348.</ref>。行動(<math>\delta</math>)が外部の環境に直接影響を与えるのに対して、方策(<math>\pi</math>)は将来の計画(つまり一連の行動)を表し、行動を決定するパラメータに相当する。方策の事後確率は負の期待自由エネルギーに精度を乗じたものの指数に比例する。したがって、エージェントは各方策に対応する期待自由エネルギーを計算し、最小の期待自由エネルギーを与える方策を選択する。ここでは、将来の結果に関するprior preferenceが、報酬と罰に相当する情報を含んでおり、期待自由エネルギーの形状を特徴づける。
 能動的推論は行動計画の説明にも適用できる(Friston et al., 2016; Friston et al., 2017)。行動計画は、将来の不確実性を最小化するための方策(policy)の選択に相当し、推論の一種である(Attias, 2003; Botvinick & Toussaint, 2012; Maisto et al, 2015; Kaplan & Friston, 2018; Millidge, 2020)。行動(δ)が外部の環境に直接影響を与えるのに対して、方策(π)は将来の計画(つまり一連の行動)を表し、行動を決定するパラメータに相当する。方策の事後確率は負の期待自由エネルギーに精度を乗じたものの指数に比例する。したがって、エージェントは各方策に対応する期待自由エネルギーを計算し、最小の期待自由エネルギーを与える方策提供する選択肢を選択する。ここでは、将来の結果に関する(報酬と罰に関する情報を含む)prior preferenceが、報酬と罰に相当する情報を含んでおり、期待自由エネルギーの形状を特徴づける。


 また、能動的推論では、探索と搾取のバランスは期待自由エネルギーによって決定される。ある方策が他よりはるかに小さい期待自由エネルギーを与える場合は、その方策は1に近い確率で選択されるため、エージェントは搾取的な戦略をとる。逆に、すべての方策が同程度の期待自由エネルギーを与える場合は、エージェントは無作為に方策を選択し、探索的な振る舞いをする。さらに、期待自由エネルギーの大きさを制御する精度も、変分自由エネルギーを最小化するように最適化され、精度が高いほどエージェントの行動はより搾取的になる。
 また、能動的推論では、探索と搾取のバランスは期待自由エネルギーによって決定される。ある方策が他よりはるかに小さい期待自由エネルギーを与える場合は、その方策は1に近い確率で選択されるため、エージェントは搾取的な戦略をとる。逆に、すべての方策が同程度の期待自由エネルギーを与える場合は、エージェントは無作為に方策を選択し、探索的な振る舞いをする。さらに、期待自由エネルギーの大きさを制御する精度はも、変分自由エネルギーを最小化するように最適化され、精度が高いほどエージェントの行動をより搾取的にする。


==問題点と展望==
==問題点と展望==
 数理的には、変分自由エネルギーを最小化するエージェントがベイズ推論や学習を実行できること自体はよく知られた事実である。しかし、それが脳の仕組みとして生物学的に正しいかは別の問題である。自由エネルギー原理は抽象度の高い理論であり、その神経基盤に関しては未だ議論が続いている。通常は、隠れ状態とパラメータの事後分布は、神経活動とシナプス結合強度がそれぞれ符号化していると考えられており、その妥当性に関する証拠も蓄積されつつある<ref name=Bastos2012><pubmed>23177956</pubmed></ref>。一つには、[[大脳皮質の局所神経回路|大脳皮質の局所回路]]の解剖学的特性<ref name=Haeusler2007><pubmed>16481565</pubmed></ref>と[[階層的予測符号化モデル]]<ref name=Friston2008><pubmed>18989391</pubmed></ref>の比較により、検証可能な理論予測行われている。皮質浅層の神経活動の周波数は高く、皮質深層の神経活動の周波数は低いことから、前者が予測誤差を、後者が期待値をそれぞれ符号化していることが示唆されている。しかしこれらの議論は、予測符号化モデルの妥当性に関するものであり、自由エネルギー原理の妥当性の証拠としては間接的であることに注意されたい。脳の基本単位である神経細胞やシナプス結合の活動や可塑性が、どのような仕組みで変分自由エネルギーの最小化を行い、システムとしてベイズ推論や学習を実現しているのかに関しては、その神経基盤が何であるかはまだ十分に解明されているとは言えない。


 一方で、理論的考察により自由エネルギー原理の普遍性を示す研究も行われている。一般に、生物とその周囲の環境が区別されることは、内部状態と外部状態を統計的に分離する[[マルコフブランケット]]([[Markov_blanket|Markov blanket]])の存在を示唆する。システムが(非平衡)定常状態に達したとき、生物の内部状態の条件付き期待値は、外部状態に関する事後確率を表現していると見なすことができる<ref name=Friston2013><pubmed>23825119</pubmed></ref><ref name=Friston2019>'''Friston, K. J. (2019).'''<br>A free energy principle for a particular physics. Preprint at arXiv 1906.10184.</ref><ref name=Parr2020><pubmed>31865883</pubmed></ref><ref name=Friston2022>'''Friston, K. J., Da Costa, L., Sajid, N., Heins, C., Ueltzhöffer, K., Pavliotis, G. A., & Parr, T. (2022).'''<br>The free energy principle made simpler but not too simple. Preprint at arXiv 2201.06387.</ref>。このことは、いかなる(非平衡)定常状態も、何らかのベイズ推論を実現していると解釈できることを意味する。あるいは、[[完備類定理]](complete class theorem)<ref name=Wald1947>'''Wald, A. (1947).'''<br>An essentially complete class of admissible decision functions. Annals of Mathematical Statistics, 18, 549–555.</ref><ref name=Brown1981>'''Brown, L. D. (1981).'''<br>A complete class theorem for statistical problems with finite sample spaces. Annals of Statistics, 9, 1289–1300.</ref><ref name= Berger2013>'''Berger, J. O. (2013).'''<br>Statistical Decision Theory and Bayesian Analysis, Springer.</ref>によれば、エージェントが何らかのコスト関数を最小化しているとき、エージェントの挙動をベイズ推論の観点から説明できる事前分布とベイズ的コスト関数の組が少なくとも1つは存在する。これは、生物あるいは脳がベイズ推論を行うエージェントとして振る舞うという仮説は実験的に反証できない(自明に正しい)かもしれないことを意味する<ref name=Daunizeau2010><pubmed>21179480</pubmed></ref>。この性質は、自由エネルギー原理の実験的検証を設計する際に問題になると考える人もいるかもしれないが、この性質こそが脳の理論を構築する上での重要な長所であると見ることもできる。最近の理論研究においては、古典的な神経活動やシナプス可塑性の方程式を導くような神経生理学的に妥当なコスト関数と、部分観測マルコフ決定過程の下での変分自由エネルギーが数理的に等価であることが示されている<ref name=Isomura2022b><pubmed>35031656</pubmed></ref>。これらの数理的な性質は、脳が自由エネルギー原理に従っていると見なすことができることを示唆している。


==関連項目==
==関連項目==
* [[予測符号化]]
* [[予測符号化]]
* [[神経符号化]]
* [[神経符号化]]
* [[内部モデル]]
* [[視覚系の順逆変換モデル]]
==関連日本語文献==
* 吉田 正俊 「よくわかるフリストンの自由エネルギー原理」 [https://www.slideshare.net/masatoshiyoshida/ss-79082197 SlideShare]
* 日本神経回路学会誌 特集「自由エネルギー原理入門」 [https://www.jstage.jst.go.jp/browse/jnns/25/3/_contents/-char/ja 2018年25巻3号]
* 乾 敏郎, 阪口 豊 (2020). 『脳の大統一理論 -自由エネルギー原理とは何か-』 岩波書店.


==参考文献==
==参考文献==
<references />
<references />

2022年3月30日 (水) 11:14時点における版

磯村 拓哉
理化学研究所脳神経科学研究センター
DOI:10.14931/bsd.10024 原稿受付日:2022年1月31日 原稿完成日:2022年4月@@日
担当編集委員:北城 圭一(生理学研究所)

英:the free-energy principle

 自由エネルギー原理は、Karl J. Fristonが提唱している脳の情報理論である。生物の知覚や学習、行動は、変分自由エネルギーと呼ばれるコスト関数を最小化するように決まるとしている。その結果、生物は変分ベイズ推論と呼ばれる統計学的な推論を自己組織化に行うとされている。

背景

 生物の感覚入力に基づく適応的な行動は、何らかの自己組織化(つまり適応、最適化)によって特徴付けることができる。生物は、感覚入力を生成する外部環境のダイナミクスに関する内部表現(内部モデル)を自己組織化的に獲得することで環境の状態を認識する。さらに、環境に適応するために自分の行動を更新し、それによって生存と繁殖の確率を高めている。このような生物の自己組織化は、一般に何らかのコスト関数の最小化として定式化が可能であり、コスト関数の勾配(つまり微分)は神経活動やシナプス可塑性の方程式を導くことができる。これは神経科学の理論研究において広く共通する考え方である。

 19世紀の物理学者兼医師であったHermann von Helmholtzは、ヒトの感覚入力は不完全であるため、脳は不十分な情報を補うために無意識に推論を行うことで知覚を支えているという無意識的推論の概念を提唱した[1]。つまり、脳は感覚入力の背後にある隠れた状態変数(隠れ状態)のダイナミクスを無意識に推論していると考えられる。ここでは、このように自律的に外界を推論する実体をエージェントと呼ぶこととする。Helmholtzの提唱した概念的な枠組みに加えて、無意識的推論は計算神経科学や機械学習の分野において統計学に基づき実装されてきた[2]。とりわけ予測符号化は、予測誤差というコスト関数を最小化することで外界の予測を行うための内部表現を自律的に獲得する理論的な枠組みであり、視覚野[3]や他の脳領域における情報処理のモデルとして適用されてきた。このような最適化はベイズ推論と呼ばれる統計学的な推論として理解することができる。ベイズ推論とは、観測データに基づき事前確率(prior belief)を事後確率(posterior belief)に更新する過程のことであり、事前確率・事後確率とはそれぞれ観測の前・後におけるエージェントが持つ外部状態に関する信念を意味している。そこで、ベイズ推論の枠組みに基づき脳を理解しようとする、ベイズ脳仮説が提唱されてきた[4][5]。以上のように脳の理論が発展してきた流れの中で、イギリスの神経科学者であるKarl J. Fristonは、ベイズ推論の枠組みの下で脳認知機能や神経・精神疾患、心理・生命現象を数理的かつ統一的に説明するための理論として、自由エネルギー原理を提唱した[6][7]

理論の概要

 自由エネルギー原理は、簡単にいうと「生物の知覚や学習、行動は変分自由エネルギーと呼ばれるコスト関数を最小化するように決まり、その結果生物は外界に適応できる」という理論である。変分自由エネルギーの最小化というシンプルな法則に基づき、生物の知能をベイズ推論により統一的に記述し理解することを目的としている[6][7]

 生物は、外界や身体のダイナミクスを表現する生成モデルを脳内に保持していると考えられている(内部モデル仮説を参照)。生成モデルとは、隠れた状態変数から感覚入力が生成される仕組みをメカニカルに表す数式のことであり、外部状態と感覚入力の同時確率分布として記述できる。この生成モデルに基づき、感覚入力のみからその背後にある生成過程を推論し、将来の感覚入力や隠れ状態を予測する。言い換えれば、生成モデルは、外部状態がどのように感覚入力を生成するかについてエージェントが持っている仮説を意味しており、知覚や学習は生成モデルを実際の生成過程と一致するように自己組織化的に最適化することであると解釈できる。それによって、エージェントの神経回路の活動は、外部の環境状態を正確に推測し、その後の感覚入力や隠れ状態を予測できるようになる(予測符号化も参照)。

 生成モデルを構成する隠れ状態やパラメータはベイズ推論に基づき定義される予測誤差の指標である変分自由エネルギーを最小化することで最適化することができる。自由エネルギー原理は、生物の内部状態や行動は変分自由エネルギーを最小化するように更新されることを主張している。神経活動やシナプス結合は、変分自由エネルギーを最小化させる方向に変化し、その結果、神経回路は外界のベイズ推論を行うように自己組織化する。さらに自由エネルギー原理が特徴的なのは、推論の最適化の法則により、原因の推論や未来の入力の予測などの知覚のみならず、行動制御や意思決定の最適化についても説明可能な統一理論である点である。ベイズ推論に基づく行動制御・意思決定の最適化は能動的推論(active inference)と呼ばれ、生物学的に妥当で適応的な制御の理論として近年活発に研究されている(Friston et al., 2011; Friston et al., 2016; Friston et al., 2017)。

 図1は、自由エネルギー原理の下で、能動的推論がどのように動作するかの例を示している。ここでは、外界(飼い主)が何か信号を生成すると、エージェント(イヌ)は直接観測できる感覚入力だけから背後の飼い主の状態(気持ち)を推論し、その事後確率(期待値)を脳内で表現する。このとき、自由エネルギーを最小化するように事後確率を更新することで、ベイズ推論を最適に行うことができる。さらに、将来期待される自由エネルギー(期待自由エネルギー)を最小化する行動を能動的に推論し選択することで、欲しい感覚入力(エサ)を得られる確率を最大化することができる。

 また生成モデルは事前分布により特徴付けられることから、様々な精神障害の神経メカニズムを誤った生成モデルや事前分布に基づく推論・予測の破綻として理解することが提唱されている(Friston et al., 2014)。

 以下では、変分ベイズ推論と能動的推論の概要について(Isomura, 2022)に記載した内容をもとに手短に紹介するが、より包括的な解説や議論に関しては他の総説論文(@)を参照されたい。

変分ベイズ推論

 自由エネルギー原理は、感覚入力(o)の起こりにくさの主観的な指標であるサプライズ(surprise)を最小化することが生物の普遍的な特性であると提唱している。サプライズは、感覚入力の負の対数尤度-log⁡〖P_m (o)〗に より定義される。ここでは、確率分布P_m (o)は、モデル構造mによって特徴付けられるoの統計モデルを意味しているため、外界がoを生成する真の分布P(o)とは必ずしも一致しない。サプライズは予期せぬ入力を受けたときに大きな値を取るため、サプライズの最小化は与えられた環境に対する適応度を高めることを意味する。ただし、このサプライズは統計的に定義された指標であり、驚きを感じるという意識的な経験とは概念的に異なることに注意する必要がある。サプライズを直接計算するためには、対数の中にある周辺化尤度(つまり同時確率分布の積分)を計算する必要があるため、神経回路にとっては扱いが困難である。そのため神経回路は間接的にサプライズを計算するための扱いやすい代替方法として、変分自由エネルギーと呼ばれるサプライズの上限値を評価していると考えられている。自由エネルギー原理という名称は、この変分自由エネルギーに由来する。こうした自由エネルギーの概念は、統計物理学から導かれたものであり、機械学習の分野において広く用いられている(Friston et al., 2006)。この枠組みの下では、変分自由エネルギーを最小化するように神経活動やシナプス結合強度が更新され、行動が生成される。この性質は、熱力学や化学におけるルシャトリエの原理を彷彿とさせるものである。この原理に従い神経回路は自己組織化し、外部状態の変分ベイズ推論を行うことで、様々な脳機能を実現していると考えられている。

 変分ベイズ推論は、一連の感覚入力(o)に基づいて、外部状態に関する事前分布P_m (ϑ)を対応する(近似)事後分布Q(ϑ)に更新する過程である。この推論は、外部状態がどのように感覚入力を生成するかをメカニカルに表現した(階層的)生成モデルP_m (o_(1:t),ϑ)に基づいている(Friston, 2008)。ここでは、外部状態(ϑ)は、隠れ状態(s)、エージェントの行動(δ)、システムパラメータ(θ)、ハイパーパラメータ(λ)の集合として定義し、ϑ={s,δ,θ,λ}と表す(ϑとθの違いに注意されたい)。一連の行動δに代わって方策πを使ってϑを構成してもよい。例えば、外部環境が離散状態空間である場合、部分観測マルコフ決定過程の形式で外部環境を表現することができる(Friston et al.,2017)。変分ベイズ推論の目的は、エージェントが外部状態に関して主観的に持っている信念の分布である(近似)事後分布をQ(ϑ)を最適化することであるため、そのコスト関数である変分自由エネルギー(F)はoとQ(ϑ)の関数(汎関数)として、次のように与えられる:

█(F(o,Q(ϑ))=E_Q(ϑ) [-log⁡〖P_m (o_(1:t),ϑ)〗+log⁡Q(ϑ) ]#(1) )

ただし、E_Q(ϑ) [∙]はQ(ϑ)についての期待値を表している。このFは常にサプライズ以上の値をとり、等号はQ(ϑ)とP_m (ϑ|o_(1:t) )が一致したときのみ成り立つ。したがって、Fを最小化することにより、間接的にサプライズを最小化することができる。 変分法という方法を用いると、Q(ϑ)を微小に変化させたときのFの変化の仕方に着目することで、Fを最小化するQ(ϑ)の解(つまり、微小に変化させると常にFが大きくなるようなQ(ϑ))を見つけることができる。

 式1を式変形することにより、変分自由エネルギーは予測誤差(prediction error)と複雑さ(complexity)の和として表すことができる。予測誤差は、感覚入力や隠れ状態の予測値が実際の値とどの程度異なるかを測定するもので、背景ノイズをガウスとみなした場合、広く用いられている平均二乗誤差に還元される(Friston, 2008)。複雑さとは、事前分布と事後分布の差のことであり、通常、Kullback-Leibler divergenceを用いて評価される。この項は、事後分布が対応する事前分布から離れすぎないように正則化する役割を担っている。 多くの場合、事後期待値ϑ(すなわち、観測に基づくϑの推定値)は事後分布を近似的に表すのに十分である。このことから、Fのϑについての最小化問題を解くことで、元のFのQ(ϑ)についての最小化問題を解くことができる。したがって、勾配降下法を用いて、Fをϑの各成分について最小化することで、事後分布を最適化することができる:

█(ϑ ̇_i∝-∂F/(∂ϑ_i )#(2) )

ここで、ϑ_iはϑのi番目の成分を示している。このϑの更新は固定点(すなわち、ϑ ̇=0を与えるϑ)に到達して収束する。そのϑ(より一般にはQ(ϑ))はベイズ推論の意味で最適な内部表現と行動であることを意味している。このように、自由エネルギー原理は、推論(すなわち、sの最適化)、学習(θの最適化)、適応的行動制御(δの最適化)、将来のoとsの予測、それに続く将来の結果に関するリスクを最小化する計画について、一つの法則で統一的に説明することができる。

能動的推論

 自由エネルギー原理の特徴の一つは、変分ベイズ推論を行動制御と行動計画の説明に応用している点、すなわち能動的推論である(Friston et al., 2011; Friston et al., 2016; Friston et al., 2017)。エージェントが行動を生成し外部環境に対してフィードバックを返すとき、生成過程およびサプライズはエージェントの行動の関数となる。したがって、エージェントは、将来期待される自由エネルギー(期待自由エネルギー, expected free energy, G)を最小化するような行動を選択することで、将来の感覚入力を好ましい入力(つまり予測通りの入力)に近づけることができる(Friston et al., 2017)。好ましい入力はpreference prior(C)と呼ばれる事前分布によって決まる。図1の例では、エージェントの犬は、餌を得るために期待自由エネルギーを最小化する行動を能動的に推論し、選択する。このように、能動的推論は、知覚と行動の両方を過去あるいは未来について積算された変分自由エネルギーの最小化により導出することができ、推論・予測・学習・行動計画・行動制御などを統一的に説明できる。そのため、生物の感覚入力に基づく適応的な行動の普遍的な特性を説明する理論的な枠組みとして期待されている。

 能動的推論は、エージェントのが予測と異なる感覚入力を受け取ったときに起きる。例えば、エージェントが外界の生成過程と異なる生成モデルを採用している場合、外部環境の生成過程をエージェントが採用している生成モデルに近づけるために行動が生成される(Friston et al., 2011)。一例として、エージェントである鳥が他の鳥の歌が聞こえている状態を学習すると、その歌が聞こえている状態がサプライズを最小化するようになる(Kiebel et al.2008; Friston & Frith, 2015a; Friston & Frith, 2015b)。したがって、エージェントが歌を聞いていないときは、歌がないことで大きなサプライズが生じるため、自ら歌う、あるいは同種の鳥を探すなどの行動をすることで歌を聞こうとする。行動生成の結果、エージェントは自分自身の予測(つまり、予測された歌)を実際の感覚入力として受け取ることになり、サプライズを最小化することができる。なお、鳥は行動生成に先立ち、歌が聞こえない状況に再適応する可能性もある。つまりこのように、サプライズの最小化には、エージェントの内部状態が外部環境状態に近づく場合と、エージェントの行動によって外部環境状態が内部状態に近づく場合の2通りの方法が存在する。学習速度と行動生成の閾値のバランスにより、学習と行動生成のどちらを行うかが決定される。

 能動的推論は行動計画の説明にも適用できる(Friston et al., 2016; Friston et al., 2017)。行動計画は、将来の不確実性を最小化するための方策(policy)の選択に相当し、推論の一種である(Attias, 2003; Botvinick & Toussaint, 2012; Maisto et al, 2015; Kaplan & Friston, 2018; Millidge, 2020)。行動(δ)が外部の環境に直接影響を与えるのに対して、方策(π)は将来の計画(つまり一連の行動)を表し、行動を決定するパラメータに相当する。方策の事後確率は負の期待自由エネルギーに精度を乗じたものの指数に比例する。したがって、エージェントは各方策に対応する期待自由エネルギーを計算し、最小の期待自由エネルギーを与える方策提供する選択肢を選択する。ここでは、将来の結果に関する(報酬と罰に関する情報を含む)prior preferenceが、報酬と罰に相当する情報を含んでおり、期待自由エネルギーの形状を特徴づける。

 また、能動的推論では、探索と搾取のバランスは期待自由エネルギーによって決定される。ある方策が他よりはるかに小さい期待自由エネルギーを与える場合は、その方策は1に近い確率で選択されるため、エージェントは搾取的な戦略をとる。逆に、すべての方策が同程度の期待自由エネルギーを与える場合は、エージェントは無作為に方策を選択し、探索的な振る舞いをする。さらに、期待自由エネルギーの大きさを制御する精度はも、変分自由エネルギーを最小化するように最適化され、精度が高いほどエージェントの行動をより搾取的にする。

問題点と展望

関連項目

参考文献

  1. Helmholtz, H. (1925).
    Treatise on Physiological Optics (Vol. 3). Optical Society of America, Washington, DC.
  2. Dayan, P., Hinton, G.E., Neal, R.M., & Zemel, R.S. (1995).
    The Helmholtz machine. Neural computation, 7(5), 889-904. [PubMed:7584891] [WorldCat] [DOI]
  3. Rao, R.P., & Ballard, D.H. (1999).
    Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects. Nature neuroscience, 2(1), 79-87. [PubMed:10195184] [WorldCat] [DOI]
  4. Knill, D.C., & Pouget, A. (2004).
    The Bayesian brain: the role of uncertainty in neural coding and computation. Trends in neurosciences, 27(12), 712-9. [PubMed:15541511] [WorldCat] [DOI]
  5. Doya, K., Ishii, S., Pouget, A., Rao, R.P. (Eds.) (2007).
    Bayesian Brain: Probabilistic Approaches to Neural Coding. MIT Press, Cambridge, MA, USA.
  6. 6.0 6.1 Friston, K., Kilner, J., & Harrison, L. (2006).
    A free energy principle for the brain. Journal of physiology, Paris, 100(1-3), 70-87. [PubMed:17097864] [WorldCat] [DOI]
  7. 7.0 7.1 Friston, K. (2010).
    The free-energy principle: a unified brain theory? Nature reviews. Neuroscience, 11(2), 127-38. [PubMed:20068583] [WorldCat] [DOI]