「自由エネルギー原理」の版間の差分

ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
編集の要約なし
23行目: 23行目:


 また生成モデルは事前分布により特徴付けられることから、様々な精神障害の神経メカニズムを誤った生成モデルや事前分布に基づくベイズ推論・予測の破綻として理解することが提唱されている<ref name=Friston2014><pubmed>26360579</pubmed></ref>。
 また生成モデルは事前分布により特徴付けられることから、様々な精神障害の神経メカニズムを誤った生成モデルや事前分布に基づくベイズ推論・予測の破綻として理解することが提唱されている<ref name=Friston2014><pubmed>26360579</pubmed></ref>。
 以下では、変分ベイズ推論と能動的推論の概要について(Isomura, 2022)に記載した内容をもとに手短に紹介するが、より包括的な解説や議論に関しては他の総説論文(@)を参照されたい。


==変分ベイズ推論==
==変分ベイズ推論==
31行目: 29行目:
 サプライズを直接計算するためには、対数の中にある周辺化尤度(つまり同時確率分布の積分)を計算する必要があるため、神経回路にとっては扱いが困難である。そのため神経回路は間接的にサプライズを計算するための扱いやすい代替方法として、変分自由エネルギーと呼ばれるサプライズの上限値を評価していると考えられている。自由エネルギー原理という名称は、この変分自由エネルギーに由来する。こうした自由エネルギーの概念は、統計物理学から導かれたものであり、機械学習の分野において広く用いられている<ref name=Friston2006><pubmed>17097864</pubmed></ref>。この枠組みの下では、変分自由エネルギーを最小化するように神経活動やシナプス結合強度が更新され、行動が生成される。この性質は、熱力学や化学におけるルシャトリエの原理を彷彿とさせるものである。この原理に従い神経回路は自己組織化し、外部状態の変分ベイズ推論を行うことで、様々な脳機能を実現していると考えられている。
 サプライズを直接計算するためには、対数の中にある周辺化尤度(つまり同時確率分布の積分)を計算する必要があるため、神経回路にとっては扱いが困難である。そのため神経回路は間接的にサプライズを計算するための扱いやすい代替方法として、変分自由エネルギーと呼ばれるサプライズの上限値を評価していると考えられている。自由エネルギー原理という名称は、この変分自由エネルギーに由来する。こうした自由エネルギーの概念は、統計物理学から導かれたものであり、機械学習の分野において広く用いられている<ref name=Friston2006><pubmed>17097864</pubmed></ref>。この枠組みの下では、変分自由エネルギーを最小化するように神経活動やシナプス結合強度が更新され、行動が生成される。この性質は、熱力学や化学におけるルシャトリエの原理を彷彿とさせるものである。この原理に従い神経回路は自己組織化し、外部状態の変分ベイズ推論を行うことで、様々な脳機能を実現していると考えられている。


 変分ベイズ推論は、一連の感覚入力(<math>o</math>)に基づいて、外部状態に関する事前分布<math>P_m(\vartheta)</math>を対応する(近似)事後分布<math>Q(\vartheta)</math>に更新する過程である。この推論は、外部状態がどのように感覚入力を生成するかをメカニカルに表現した(階層的)生成モデル<math>P_m(o_{1:t},\vartheta)</math>に基づいている<ref name=Friston2008><pubmed>18989391</pubmed></ref>。ただしここでは、<math>o_{1:t}=\{o_1,\dots,o_t\}</math>は時刻1から<math>t</math>までの感覚入力のことであり、外部状態(<math>\vartheta</math>)は、隠れ状態(<math>s</math>)、エージェントの行動(<math>\delta</math>)、システムパラメータ(<math>\theta</math>)、ハイパーパラメータ(<math>\lambda</math>)の集合として定義し、<math>\vartheta=\{s_{1:t},\delta_{1:t},\theta,\lambda\}</math>と表す(<math>\vartheta</math>と<math>\theta</math>の違いに注意されたい)。一連の行動<math>\delta</math>に代わって方策<math>\pi</math>を使って<math>\vartheta</math>を構成してもよい。例えば、外部環境が離散状態空間である場合、部分観測マルコフ決定過程の形式で外部環境を表現することができる(Friston et al.,2017)。変分ベイズ推論の目的は、エージェントが外部状態に関して主観的に持っている信念の分布である(近似)事後分布<math>Q(\vartheta)</math>を最適化することであり、そのコスト関数である変分自由エネルギー(<math>F</math>)は<math>o</math>と<math>Q(\vartheta)</math>の関数(汎関数)として、次のように与えられる:
 変分ベイズ推論は、一連の感覚入力(<math>o</math>)に基づいて、外部状態に関する事前分布<math>P_m(\vartheta)</math>を対応する(近似)事後分布<math>Q(\vartheta)</math>に更新する過程である。この推論は、外部状態がどのように感覚入力を生成するかをメカニカルに表現した(階層的)生成モデル<math>P_m(o_{1:t},\vartheta)</math>に基づいている<ref name=Friston2008><pubmed>18989391</pubmed></ref>。ただしここでは、<math>o_{1:t}=\{o_1,\dots,o_t\}</math>は時刻1から<math>t</math>までの感覚入力のことであり、外部状態(<math>\vartheta</math>)は、隠れ状態(<math>s</math>)、エージェントの行動(<math>\delta</math>)、システムパラメータ(<math>\theta</math>)、ハイパーパラメータ(<math>\lambda</math>)の集合として定義し、<math>\vartheta=\{s_{1:t},\delta_{1:t},\theta,\lambda\}</math>と表す(<math>\vartheta</math>と<math>\theta</math>の違いに注意されたい)。一連の行動<math>\delta</math>に代わって方策<math>\pi</math>を使って<math>\vartheta</math>を構成してもよい。例えば、外部環境が離散状態空間である場合、部分観測マルコフ決定過程の形式で外部環境を表現することができる(Friston et al.,2017)。
 
 変分ベイズ推論の目的は、エージェントが外部状態に関して主観的に持っている信念の分布である(近似)事後分布<math>Q(\vartheta)</math>を最適化することであることから、そのコスト関数である変分自由エネルギー(<math>F</math>)は<math>o</math>と<math>Q(\vartheta)</math>の関数(汎関数)として、次のように与えられる:


:<math>
:<math>
37行目: 37行目:
</math>
</math>


ただし、<math>\mathrm{E}_{Q(\vartheta)}[\bullet]</math>は<math>Q(\vartheta)</math>についての期待値を表している。この<math>F</math>は常にサプライズ以上の値をとり、等号は<math>Q(\vartheta)</math>と<math>P_m(o_{1:t}|\vartheta)</math>が一致したときのみ成り立つ。したがって、<math>F</math>を最小化することにより、間接的にサプライズを最小化することができる。変分法という方法を用いると、<math>Q(\vartheta)</math>を微小に変化させたときの<math>F</math>の変化の仕方に着目することで、<math>F</math>を最小化する<math>Q(\vartheta)</math>の解(つまり、微小に変化させると常に<math>F</math>が大きくなるような<math>Q(\vartheta)</math>)を見つけることができる。
ただし、<math>\mathrm{E}_{Q(\vartheta)}[\bullet]</math>は<math>Q(\vartheta)</math>についての期待値を表している。この<math>F</math>は常にサプライズ以上の値をとり、等号は<math>Q(\vartheta)</math>と<math>P_m(o_{1:t}|\vartheta)</math>が一致したときのみ成り立つ。したがって、<math>F</math>を最小化することにより、間接的にサプライズの最小化が可能である。変分法により、<math>Q(\vartheta)</math>を微小に変化させたときの<math>F</math>の変化の仕方に着目することで、<math>F</math>を最小化する<math>Q(\vartheta)</math>の解(つまり、微小に変化させると常に<math>F</math>が大きくなるような<math>Q(\vartheta)</math>)を見つけることができる。


 式1を式変形することにより、変分自由エネルギーは予測誤差(prediction error)と複雑さ(complexity)の和として表すことができる。予測誤差は、感覚入力や隠れ状態の予測値が実際の値とどの程度異なるかを測定するもので、背景ノイズをガウスとみなした場合、広く用いられている平均二乗誤差に簡略化される<ref name=Friston2008><pubmed>18989391</pubmed></ref>。複雑さとは、事前分布と事後分布の差のことであり、通常、Kullback-Leibler divergenceを用いて評価される。この項は、事後分布が対応する事前分布から離れすぎないように正則化する役割を担っている。
 上式を変形することにより、変分自由エネルギーは予測誤差(prediction error)と複雑さ(complexity)の和として表すことができる。予測誤差は、感覚入力や隠れ状態の予測値が実際の値とどの程度異なるかを測定するもので、背景ノイズをガウスとみなした場合、広く用いられている平均二乗誤差に簡略化できる<ref name=Friston2008><pubmed>18989391</pubmed></ref>。複雑さとは、事前分布と事後分布の差のことであり、通常、Kullback-Leibler divergenceを用いて評価される。この項は、事後分布が対応する事前分布から離れすぎないように正則化する役割を担っている。


 多くの場合、事後期待値ϑ(すなわち、観測に基づくϑの推定値)は事後分布を近似的に表すのに十分である。このことから、Fのϑについての最小化問題を解くことで、元のFのQ(ϑ)についての最小化問題を解くことができる。したがって、勾配降下法を用いて、Fをϑの各成分について最小化することで、事後分布を最適化することができる:
 多くの場合、事後期待値<math>\boldsymbol{\vartheta}</math>(すなわち、観測に基づく<math>\vartheta</math>の推定値)は事後分布を近似的に表すのに十分である。このことから、<math>F</math>の<math>\boldsymbol{\vartheta}</math>についての最小化問題を解くことで、元の<math>F</math>の<math>Q(\vartheta)</math>についての最小化問題を解くことができる。したがって、勾配降下法を用いて、Fをϑの各成分について最小化することで、事後分布を最適化することができる:


█(ϑ ̇_i∝-∂F/(∂ϑ_i )#(2) )
:<math>
\dot{\boldsymbol{\vartheta}}_i \propto -\frac{\partial F}{\partial \boldsymbol{\vartheta}_i}
</math>


ここで、ϑ_iはϑのi番目の成分を示している。このϑの更新は固定点(すなわち、ϑ ̇=0を与えるϑ)に到達して収束する。そのϑ(より一般にはQ(ϑ))はベイズ推論の意味で最適な内部表現と行動であることを意味している。このように、自由エネルギー原理は、推論(すなわち、sの最適化)、学習(θの最適化)、適応的行動制御(δの最適化)、将来のoとsの予測、それに続く将来の結果に関するリスクを最小化する計画について、一つの法則で統一的に説明することができる。
ここで、<math>\boldsymbol{\vartheta}_i</math>は<math>\boldsymbol{\vartheta}</math>の<math>i</math>番目の成分を示している。この<math>\boldsymbol{\vartheta}</math>の更新は固定点(すなわち、<math>\dot{\boldsymbol{\vartheta}}=0</math>を与える<math>\boldsymbol{\vartheta}</math>)に到達して収束する。そのϑ(より一般にはQ(ϑ))はベイズ推論の意味で最適な内部表現と行動であることを意味している。このように、自由エネルギー原理は、推論(すなわち、sの最適化)、学習(θの最適化)、適応的行動制御(δの最適化)、将来のoとsの予測、それに続く将来の結果に関するリスクを最小化する計画について、一つの法則で統一的に説明することができる。


==能動的推論==
==能動的推論==
11

回編集

案内メニュー