自由エネルギー原理のソースを表示

<div align="right">  
<font size="+1">[http://researchmap.jp/takuyaisomura 磯村 拓哉]</font><br>
''理化学研究所脳神経科学研究センター''<br>
DOI：<selfdoi />　原稿受付日：2022年1月31日　原稿完成日：2022年4月@@日<br>
担当編集委員：[https://researchmap.jp/kkitajo 北城 圭一]（生理学研究所）<br>
</div>
英：the free-energy principle
{{box|text=　自由エネルギー原理は、Karl J. Fristonが提唱している脳の情報理論である。生物の知覚や学習、行動は、変分自由エネルギーと呼ばれるコスト関数を最小化するように決まるとしている。その結果、生物は変分ベイズ推論と呼ばれる統計学的な推論を自己組織化に行うとされている。}}

==背景==
　生物の感覚入力に基づく適応的な行動は、何らかの自己組織化（つまり適応、最適化）によって特徴付けることができる。生物は、感覚入力を生成する外部環境のダイナミクスに関する内部表現（内部モデル）を自己組織化的に獲得することで環境の状態を認識する。さらに、環境に適応するために自分の行動を更新し、それによって生存と繁殖の確率を高めている。このような生物の自己組織化は、一般に何らかのコスト関数の最小化として定式化が可能であり、コスト関数の勾配（つまり微分）は神経活動やシナプス可塑性の方程式を導くことができる。これは神経科学の理論研究において広く共通する考え方である。

　19世紀の物理学者兼医師であったHermann von Helmholtzは、ヒトの感覚入力は不完全であるため、脳は不十分な情報を補うために無意識に推論を行うことで知覚を支えているという無意識的推論の概念を提唱した<ref name=Helmholtz1925>'''Helmholtz, H. (1925).'''<br>Treatise on Physiological Optics (Vol. 3). Optical Society of America, Washington, DC.</ref>。つまり、脳は感覚入力の背後にある隠れた状態変数（隠れ状態）のダイナミクスを無意識に推論していると考えられる。ここでは、このように自律的に外界を推論する実体をエージェントと呼ぶこととする。Helmholtzの提唱した概念的な枠組みに加えて、無意識的推論は計算神経科学や機械学習の分野において統計学に基づき実装されてきた<ref name=Dayan1995><pubmed>7584891</pubmed></ref>。とりわけ予測符号化は、予測誤差というコスト関数を最小化することで外界の予測を行うための内部表現を自律的に獲得する理論的な枠組みであり、視覚野<ref name=Rao1999><pubmed>10195184</pubmed></ref>や他の脳領域における情報処理のモデルとして適用されてきた。このような最適化はベイズ推論と呼ばれる統計学的な推論として理解することができる。ベイズ推論とは、観測データに基づき事前確率（prior belief）を事後確率（posterior belief）に更新する過程のことであり、事前確率・事後確率とはそれぞれ観測の前・後におけるエージェントが持つ外部状態に関する信念を意味している。そこで、ベイズ推論の枠組みに基づき脳を理解しようとする、ベイズ脳仮説が提唱されてきた<ref name=Knill2004><pubmed>15541511</pubmed></ref><ref name=Doya2007>'''Doya, K., Ishii, S., Pouget, A., Rao, R.P. (Eds.) (2007).'''<br>Bayesian Brain: Probabilistic Approaches to Neural Coding. MIT Press, Cambridge, MA, USA.</ref>。以上のように脳の理論が発展してきた流れの中で、イギリスの神経科学者であるKarl J. Fristonは、ベイズ推論の枠組みの下で脳認知機能や神経・精神疾患、心理・生命現象を数理的かつ統一的に説明するための理論として、自由エネルギー原理を提唱した<ref name=Friston2006><pubmed>17097864</pubmed></ref><ref name=Friston2010><pubmed>20068583</pubmed></ref>。

==理論の概要==
　自由エネルギー原理は、簡単にいうと「生物の知覚や学習、行動は変分自由エネルギーと呼ばれるコスト関数を最小化するように決まり、その結果生物は外界に適応できる」という理論である。変分自由エネルギーの最小化というシンプルな法則に基づき、生物の知能をベイズ推論により統一的に記述し理解することを目的としている<ref name=Friston2006><pubmed>17097864</pubmed></ref><ref name=Friston2010><pubmed>20068583</pubmed></ref>。

　生物は、外界や身体のダイナミクスを表現する生成モデルを脳内に保持していると考えられている（内部モデル仮説を参照）。生成モデルとは、隠れた状態変数から感覚入力が生成される仕組みをメカニカルに表す数式のことであり、外部状態と感覚入力の同時確率分布として記述できる。この生成モデルに基づき、感覚入力のみからその背後にある生成過程を推論し、将来の感覚入力や隠れ状態を予測する。言い換えれば、生成モデルは、外部状態がどのように感覚入力を生成するかについてエージェントが持っている仮説を意味しており、知覚や学習は生成モデルを実際の生成過程と一致するように自己組織化的に最適化することであると解釈できる。それによって、エージェントの神経回路の活動は、外部の環境状態を正確に推測し、その後の感覚入力や隠れ状態を予測できるようになる（[[予測符号化]]も参照）。

　生成モデルを構成する隠れ状態やパラメータはベイズ推論に基づき定義される予測誤差の指標である変分自由エネルギーを最小化することで最適化することができる。自由エネルギー原理は、生物の内部状態や行動は変分自由エネルギーを最小化するように更新されることを主張している。神経活動やシナプス結合は、変分自由エネルギーを最小化させる方向に変化し、その結果、神経回路は外界のベイズ推論を行うように自己組織化する。さらに自由エネルギー原理が特徴的なのは、推論の最適化の法則により、原因の推論や未来の入力の予測などの知覚のみならず、行動制御や意思決定の最適化についても説明可能な統一理論である点である。ベイズ推論に基づく行動制御・意思決定の最適化は能動的推論（active inference）と呼ばれ、生物学的に妥当で適応的な制御の理論として近年活発に研究されている（Friston et al., 2011; Friston et al., 2016; Friston et al., 2017）。

　図1は、自由エネルギー原理の下で、能動的推論がどのように動作するかの例を示している。ここでは、外界（飼い主）が何か信号を生成すると、エージェント（イヌ）は直接観測できる感覚入力だけから背後の飼い主の状態（気持ち）を推論し、その事後確率（期待値）を脳内で表現する。このとき、自由エネルギーを最小化するように事後確率を更新することで、ベイズ推論を最適に行うことができる。さらに、将来期待される自由エネルギー（期待自由エネルギー）を最小化する行動を能動的に推論し選択することで、欲しい感覚入力（エサ）を得られる確率を最大化することができる。

　また生成モデルは事前分布により特徴付けられることから、様々な精神障害の神経メカニズムを誤った生成モデルや事前分布に基づく推論・予測の破綻として理解することが提唱されている（Friston et al., 2014）。

　以下では、変分ベイズ推論と能動的推論の概要について（Isomura, 2022）に記載した内容をもとに手短に紹介するが、より包括的な解説や議論に関しては他の総説論文（＠）を参照されたい。

==変分ベイズ推論==
　自由エネルギー原理は、感覚入力（o）の起こりにくさの主観的な指標であるサプライズ（surprise）を最小化することが生物の普遍的な特性であると提唱している。サプライズは、感覚入力の負の対数尤度-log⁡〖P_m (o)〗に  より定義される。ここでは、確率分布P_m (o)は、モデル構造mによって特徴付けられるoの統計モデルを意味しているため、外界がoを生成する真の分布P(o)とは必ずしも一致しない。サプライズは予期せぬ入力を受けたときに大きな値を取るため、サプライズの最小化は与えられた環境に対する適応度を高めることを意味する。ただし、このサプライズは統計的に定義された指標であり、驚きを感じるという意識的な経験とは概念的に異なることに注意する必要がある。サプライズを直接計算するためには、対数の中にある周辺化尤度（つまり同時確率分布の積分）を計算する必要があるため、神経回路にとっては扱いが困難である。そのため神経回路は間接的にサプライズを計算するための扱いやすい代替方法として、変分自由エネルギーと呼ばれるサプライズの上限値を評価していると考えられている。自由エネルギー原理という名称は、この変分自由エネルギーに由来する。こうした自由エネルギーの概念は、統計物理学から導かれたものであり、機械学習の分野において広く用いられている（Friston et al., 2006）。この枠組みの下では、変分自由エネルギーを最小化するように神経活動やシナプス結合強度が更新され、行動が生成される。この性質は、熱力学や化学におけるルシャトリエの原理を彷彿とさせるものである。この原理に従い神経回路は自己組織化し、外部状態の変分ベイズ推論を行うことで、様々な脳機能を実現していると考えられている。

　変分ベイズ推論は、一連の感覚入力（o）に基づいて、外部状態に関する事前分布P_m (ϑ)を対応する（近似）事後分布Q(ϑ)に更新する過程である。この推論は、外部状態がどのように感覚入力を生成するかをメカニカルに表現した（階層的）生成モデルP_m (o_(1:t),ϑ)に基づいている（Friston, 2008）。ここでは、外部状態（ϑ）は、隠れ状態（s）、エージェントの行動（δ）、システムパラメータ（θ）、ハイパーパラメータ（λ）の集合として定義し、ϑ={s,δ,θ,λ}と表す（ϑとθの違いに注意されたい）。一連の行動δに代わって方策πを使ってϑを構成してもよい。例えば、外部環境が離散状態空間である場合、部分観測マルコフ決定過程の形式で外部環境を表現することができる（Friston et al.，2017）。変分ベイズ推論の目的は、エージェントが外部状態に関して主観的に持っている信念の分布である（近似）事後分布をQ(ϑ)を最適化することであるため、そのコスト関数である変分自由エネルギー（F）はoとQ(ϑ)の関数（汎関数）として、次のように与えられる：

█(F(o,Q(ϑ))=E_Q(ϑ)  [-log⁡〖P_m (o_(1:t),ϑ)〗+log⁡Q(ϑ) ]#(1) )

ただし、E_Q(ϑ)  [∙]はQ(ϑ)についての期待値を表している。このFは常にサプライズ以上の値をとり、等号はQ(ϑ)とP_m (ϑ|o_(1:t) )が一致したときのみ成り立つ。したがって、Fを最小化することにより、間接的にサプライズを最小化することができる。  変分法という方法を用いると、Q(ϑ)を微小に変化させたときのFの変化の仕方に着目することで、Fを最小化するQ(ϑ)の解（つまり、微小に変化させると常にFが大きくなるようなQ(ϑ)）を見つけることができる。

　式1を式変形することにより、変分自由エネルギーは予測誤差（prediction error）と複雑さ（complexity）の和として表すことができる。予測誤差は、感覚入力や隠れ状態の予測値が実際の値とどの程度異なるかを測定するもので、背景ノイズをガウスとみなした場合、広く用いられている平均二乗誤差に還元される(Friston, 2008)。複雑さとは、事前分布と事後分布の差のことであり、通常、Kullback-Leibler divergenceを用いて評価される。この項は、事後分布が対応する事前分布から離れすぎないように正則化する役割を担っている。
多くの場合、事後期待値ϑ（すなわち、観測に基づくϑの推定値）は事後分布を近似的に表すのに十分である。このことから、Fのϑについての最小化問題を解くことで、元のFのQ(ϑ)についての最小化問題を解くことができる。したがって、勾配降下法を用いて、Fをϑの各成分について最小化することで、事後分布を最適化することができる：

█(ϑ ̇_i∝-∂F/(∂ϑ_i )#(2) )

ここで、ϑ_iはϑのi番目の成分を示している。このϑの更新は固定点（すなわち、ϑ ̇=0を与えるϑ）に到達して収束する。そのϑ（より一般にはQ(ϑ)）はベイズ推論の意味で最適な内部表現と行動であることを意味している。このように、自由エネルギー原理は、推論（すなわち、sの最適化）、学習（θの最適化）、適応的行動制御（δの最適化）、将来のoとsの予測、それに続く将来の結果に関するリスクを最小化する計画について、一つの法則で統一的に説明することができる。

==能動的推論==
　自由エネルギー原理の特徴の一つは、変分ベイズ推論を行動制御と行動計画の説明に応用している点、すなわち能動的推論である（Friston et al., 2011; Friston et al., 2016; Friston et al., 2017）。エージェントが行動を生成し外部環境に対してフィードバックを返すとき、生成過程およびサプライズはエージェントの行動の関数となる。したがって、エージェントは、将来期待される自由エネルギー（期待自由エネルギー, expected free energy, G）を最小化するような行動を選択することで、将来の感覚入力を好ましい入力（つまり予測通りの入力）に近づけることができる（Friston et al., 2017）。好ましい入力はpreference prior（C）と呼ばれる事前分布によって決まる。図1の例では、エージェントの犬は、餌を得るために期待自由エネルギーを最小化する行動を能動的に推論し、選択する。このように、能動的推論は、知覚と行動の両方を過去あるいは未来について積算された変分自由エネルギーの最小化により導出することができ、推論・予測・学習・行動計画・行動制御などを統一的に説明できる。そのため、生物の感覚入力に基づく適応的な行動の普遍的な特性を説明する理論的な枠組みとして期待されている。

　能動的推論は、エージェントのが予測と異なる感覚入力を受け取ったときに起きる。例えば、エージェントが外界の生成過程と異なる生成モデルを採用している場合、外部環境の生成過程をエージェントが採用している生成モデルに近づけるために行動が生成される（Friston et al., 2011）。一例として、エージェントである鳥が他の鳥の歌が聞こえている状態を学習すると、その歌が聞こえている状態がサプライズを最小化するようになる（Kiebel et al.2008; Friston & Frith, 2015a; Friston & Frith, 2015b）。したがって、エージェントが歌を聞いていないときは、歌がないことで大きなサプライズが生じるため、自ら歌う、あるいは同種の鳥を探すなどの行動をすることで歌を聞こうとする。行動生成の結果、エージェントは自分自身の予測（つまり、予測された歌）を実際の感覚入力として受け取ることになり、サプライズを最小化することができる。なお、鳥は行動生成に先立ち、歌が聞こえない状況に再適応する可能性もある。つまりこのように、サプライズの最小化には、エージェントの内部状態が外部環境状態に近づく場合と、エージェントの行動によって外部環境状態が内部状態に近づく場合の2通りの方法が存在する。学習速度と行動生成の閾値のバランスにより、学習と行動生成のどちらを行うかが決定される。

　能動的推論は行動計画の説明にも適用できる（Friston et al., 2016; Friston et al., 2017）。行動計画は、将来の不確実性を最小化するための方策（policy）の選択に相当し、推論の一種である（Attias, 2003; Botvinick & Toussaint, 2012; Maisto et al, 2015; Kaplan & Friston, 2018; Millidge, 2020）。行動（δ）が外部の環境に直接影響を与えるのに対して、方策（π）は将来の計画（つまり一連の行動）を表し、行動を決定するパラメータに相当する。方策の事後確率は負の期待自由エネルギーに精度を乗じたものの指数に比例する。したがって、エージェントは各方策に対応する期待自由エネルギーを計算し、最小の期待自由エネルギーを与える方策提供する選択肢を選択する。ここでは、将来の結果に関する（報酬と罰に関する情報を含む）prior preferenceが、報酬と罰に相当する情報を含んでおり、期待自由エネルギーの形状を特徴づける。

　また、能動的推論では、探索と搾取のバランスは期待自由エネルギーによって決定される。ある方策が他よりはるかに小さい期待自由エネルギーを与える場合は、その方策は1に近い確率で選択されるため、エージェントは搾取的な戦略をとる。逆に、すべての方策が同程度の期待自由エネルギーを与える場合は、エージェントは無作為に方策を選択し、探索的な振る舞いをする。さらに、期待自由エネルギーの大きさを制御する精度はも、変分自由エネルギーを最小化するように最適化され、精度が高いほどエージェントの行動をより搾取的にする。

==問題点と展望==


==関連項目==
* [[予測符号化]]
* [[神経符号化]]

==参考文献==
<references />