「視覚系の順逆変換モデル」の版間の差分

提供:脳科学辞典
ナビゲーションに移動 検索に移動
編集の要約なし
編集の要約なし
(同じ利用者による、間の9版が非表示)
1行目: 1行目:
<div align="right"> 
<font size="+1">[http://researchmap.jp/inui_toshio 乾 敏郎]</font><br>
''追手門学院大学''<br>
DOI:<selfdoi /> 原稿受付日:2021年6月28日 原稿完成日:2021年7月21日<br>
担当編集委員:[https://researchmap.jp/123qweasd 五味 裕章](NTTコミュニケーション科学基礎研究所)<br>
</div>
英:forward-inverse optics model
{{box|text= 視覚系は対象の様々な視覚属性を二次元網膜像から非常に短時間で推定し、知覚している。川人と乾 (1990)は、視覚の不良設定問題を短時間で解くモデルとして順逆変換モデルを提案した。順変換(順光学)は3次元世界から2次元網膜像を生成する変換であり、逆変換(逆光学)は2次元網膜像から3次元世界の属性を推定する変換である。モデルでは、視覚系では上行性結合(前向き結合)によって近似逆変換が計算され、下行性結合(後ろ向き結合)によって順変換が計算される。この順変換と近似逆変換の計算ループを通じて、速くかつ正確に外界の属性が推定されることが示された。}}
{{box|text= 視覚系は対象の様々な視覚属性を二次元網膜像から非常に短時間で推定し、知覚している。川人と乾 (1990)は、視覚の不良設定問題を短時間で解くモデルとして順逆変換モデルを提案した。順変換(順光学)は3次元世界から2次元網膜像を生成する変換であり、逆変換(逆光学)は2次元網膜像から3次元世界の属性を推定する変換である。モデルでは、視覚系では上行性結合(前向き結合)によって近似逆変換が計算され、下行性結合(後ろ向き結合)によって順変換が計算される。この順変換と近似逆変換の計算ループを通じて、速くかつ正確に外界の属性が推定されることが示された。}}


 対象のさまざまな[[視覚]]属性は2次元[[網膜]]像から推定されている。属性の多くは、3次元であり、2次元網膜像から3次元属性の推定は一般には解けない[[不良設定問題]](ill-posed problem)である。3次元世界から2次元網膜像を作る画像生成過程は、物理法則に従っていて、[[順光学]](forward optics)と呼ばれる。対象の属性は、この逆の過程を経て推論されなければならない。
 対象のさまざまな視覚属性は2次元網膜像から推定されている。属性の多くは、3次元であり、2次元網膜像から3次元属性の推定は一般には解けない不良設定問題(ill-posed problem)である。3次元世界から2次元網膜像を作る画像生成過程は、物理法則に従っていて、順光学(forward optics)と呼ばれる。対象の属性は、この逆の過程を経て推論されなければならない。
 
 脳の計算は、基本的に[[階層的ベイズ推定]]の枠組みでとらえられている(たとえば、文献<ref name=乾2004></ref>)。[[ベイズ推定]]は、[[ベイズの公式]]<br>
:(事後確率)<math>\varpropto</math>(事前確率)<math>\cdot</math>(条件付確率)
 
から事後確率を最大にする原因を特定することによって推論する(これを最大事後確率推定と呼ぶ)。事前確率は先験的知識である。そして、脳は高速に最大事後確率推定によって網膜像から外界の状態や構造を推定していると考えられた。一方、我々が正しく外界を知覚できるのは、一般の自然界で成立する何らかの制約条件を用いて、この逆問題(不良設定問題)を解いているからだと考えられている([[逆光学]];inverse optics)。
 
 川人と乾 (1990)<ref name=川人1990>'''川人 光男・乾 敏郎 (1990).'''<br>視覚大脳皮質の計算理論。電子情報通信学会論文誌D-II, 73:1111-1121。</ref>は以下のような理論を提案した。まずHorn (1975) <ref>'''Horn, B. K. P. (1975).'''<br>Obtaining shape from shading information. In: Winston, P. H. (Ed.) The Psychology of Computer Vision. New York, ''McGraw-Hill.'' 115-155.</ref>の[[画像放射照度方程式]](image irradiance equation)を一般化した次の[[画像生成方程式]]を基本に考える。
:<math>
I(\mu, x, y, \lambda, t)=R(s_1, s_2..., s_m)
</math>


 左辺は、二次元画像強度データを示し、左眼の画像<math>(\mu=0)</math>か右眼の画像<math>(\mu=1)</math>の網膜上の位置<math>(x,y)</math>での、時間<math>t</math>、波長<math>\lambda</math>の光強度を示す。<math>S=(s_1,s_2...,s_m)</math>とすると、右辺は視覚世界の状態や構造<math>S</math>から画像データ<math>I</math>が決まる画像生成過程を[[非線形関数]]<math>R</math>で表したものである。<math>R</math>の中の変数<math>s_1 \sim s_m</math>はすべて視覚[[大脳皮質]]で別々に表現され再構成されていると考える。具体的な<math>s_i</math>として、画像強度<math>I</math>のある方向への1階微分と2階微分、局所的な速度や、[[両眼視]]または[[単眼視]]によって得られた奥行きや面の傾き、面の色、照明光の色や光源位置、物体の3次元的空間位置、観察者自身の移動速度ベクトルなどである。
 脳の計算は、基本的に階層的ベイズ推定の枠組みでとらえられている(たとえば、<ref name=乾2004></ref>乾,2004)。ベイズ推定は、ベイズの公式


 視覚の目的は<math>I</math>から<math>S</math>を推定することである。[[マルコフ確率場理論|マルコフ確率場]](Markov random field)理論を用いると最大事後確率推定は、以下の事後エネルギーの最小化として定式化される。具体的には、<math>S</math>の事前確率(内部モデル)を <math>P(S)</math>、<math>S</math>が与えられたときの<math>I</math>の条件つき確率を<math>P(I|S)</math>で表す。そして、これらが[[Gibbs分布]]に従うと仮定して、対応するエネルギーを<math>U(S)</math>、<math>U(I|S)</math>とすると、事後エネルギー<math>U(S|I)</math>は、
(事後確率)∝(事前確率)・(条件付確率)


:<math>
から事後確率を最大にする原因を特定することによって推論する(これを最大事後確率推定と呼ぶ)。事前確率は先験的知識である。そして、脳は高速に最大事後確率推定によって網膜像から外界の状態や構造を推定していると考えられた。一方、我々が正しく外界を知覚できるのは、一般の自然界で成立する何らかの制約条件を用いて、この逆問題(不良設定問題)を解いているからだと考えられている(逆光学;inverse optics)。
U(S|I)=U(I|S)+U(S)
</math>


と書くことができる。この事後エネルギーを最小化することによって最大事後確率推定ができる(たとえば、文献<ref name=川人1996>'''川人 光男 (1996).'''<br>『脳の計算理論』 産業図書。</ref><ref name=乾2004>'''乾 敏郎 (2004).'''<br>視覚計算とマルコフ確率場。 石黒 真木夫・松本 隆・乾 敏郎・田邉 國士(著)「統計科学のフロンティア」第4巻『階層ベイズモデルとその周辺-時系列・画像・認知への応用-』 ''岩波書店'', 171-233.</ref>参照)。
 川人と乾 (1990)<ref name=川人1990>'''川人 光男・乾 敏郎 (1990).'''<br>視覚大脳皮質の計算理論.電子情報通信学会論文誌D-II, 73:1111-1121.</ref>は以下のような理論を提案した。まずHorn (1975) <ref>'''Horn, B. K. P. (1975).'''<br>Obtaining shape from shading information. In: Winston, P. H. (Ed.) The Psychology of Computer Vision. New York, ''McGraw-Hill.'' 115-155.</ref>の画像放射照度方程式(image irradiance equation)を一般化した次の画像生成方程式を基本に考える。
 左辺は、二次元画像強度データを示し、左眼の画像(&micro; 0)か右眼の画像(&micro; 1)の網膜上の位置(x,y)での、時間t、波長&lambda;の光強度を示す。S=(S1,S2,K,Sm)とすると、右辺は視覚世界の状態や構造''S''から画像データ''I''が決まる画像生成過程を非線形関数''R''で表したものである。 の中の変数S1~Smはすべて視覚大脳皮質で別々に表現され再構成されていると考える。具体的な''Si''として、画像強度''I''のある方向への1階微分と2階微分、局所的な速度や、両眼視または単眼視によって得られた奥行きや面の傾き、面の色、照明光の色や光源位置、物体の3次元的空間位置、観察者自身の移動速度ベクトルなどである。


 これを解くために、視覚大脳皮質はその並列階層構造に上式右辺の画像生成過程の近似逆変換<math>R^\#</math>と順変換<math>R</math>を埋め込んでいると仮定する。具体的には、
 視覚の目的は から を推定することである。マルコフ確率場(Markov random field)理論を用いると最大事後確率推定は、以下の事後エネルギーの最小化として定式化される。具体的には、''S''の事前確率(内部モデル)を 、''P(S)''、''S''が与えられたときの''I''の条件つき確率を''P(I|S)''で表す。そして、これらがGibbs分布に従うと仮定して、対応するエネルギーをU(S)、U(I|S)とすると、事後エネルギーU(S|I)は、
と書くことができる。この事後エネルギーを最小化することによって最大事後確率推定ができる(たとえば、川人,1995<ref name=川人1996>川人 光男 (1996). 『脳の計算理論』 産業図書.</ref>:乾,2004<ref name=乾2004>'''乾 敏郎 (2004).'''<br>視覚計算とマルコフ確率場. 石黒 真木夫・松本 隆・乾 敏郎・田邉 國士(著)「統計科学のフロンティア」第4巻『階層ベイズモデルとその周辺-時系列・画像・認知への応用-』 ''岩波書店'', 171-233.</ref>参照)。


:<math>
 これを解くために、視覚大脳皮質はその並列階層構造に上式右辺の画像生成過程の近似逆変換 と順変換 を埋め込んでいると仮定する。具体的には、
U(S|I)=1/2[R^\#\{I-R(S)\}]^2+U(S)
</math>
とする。そして大脳皮質1次視覚野から高次視覚野への上行性(前向き)神経結合によって の近似逆変換(すなわち近似逆光学) が計算され、高次視覚野から1次視覚野への下行性(後向き)神経結合によって順光学 が計算されると仮定する。そして事後エネルギー最小化が次式で表すような神経回路モデルで計算されていると仮定する('''図''')。
 図では,2次元画像データIは視覚下位中枢に,視覚世界の様子Sは視覚上位中枢に表現されている.このモデルは視覚下位中枢を折返しにして鏡像対称となっている.このとき、領野間の前向きと後ろ向きの結合ループを信号が循環する間に正しい解に到達することが示された。


とする。そして大脳皮質[[一次視覚野]]から[[高次視覚野]]への上行性(前向き)神経結合によって<math>R</math>の近似逆変換(すなわち近似逆光学)<math>R^\#</math>が計算され、高次視覚野から一次視覚野への下行性(後向き)神経結合によって順光学<math>R</math>が計算されると仮定する。そして事後エネルギー最小化が次式で表すような神経回路モデルで計算されていると仮定する('''図''')。
 図に示したモデルは、 S
[[ファイル:Inui forward reverse optic model.png|サムネイル|'''図. 大脳視覚皮質の順逆変換モデルの概要''']]
:<math>
S(0)=R^\#(I)
</math>


:<math>
をひとまとめにして記述したモデルである.実際には、s1からsmが,一次視覚野から高次視覚野で別々に表現されており、各階層間で上記の順逆変換のループが働いて各属性が推定されると考えられている。これらの計算過程やそれを支持する生理学や解剖学の知見については、川人・乾 (1990) <ref name=川人1990></ref>や乾 (1993) <ref name=乾1993>乾 敏郎 (1993).<br>『Q&Aでわかる脳と視覚-人間からロボットまで』 サイエンス社.</ref>を参照。
\frac{dS(t)}{dt}=R^\#\{I-R(S)\}-\frac{\partial U(S)}{\partial U}
</math>
 図では、2次元画像データ<math>I</math>は視覚下位中枢に、視覚世界の様子<math>S</math>は視覚上位中枢に表現されている。このモデルは視覚下位中枢を折返しにして鏡像対称となっている。このとき、[[領野]]間の前向きと後ろ向きの結合ループを信号が循環する間に正しい解に到達することが示された。


 図に示したモデルは、<math>S</math>をひとまとめにして記述したモデルである。実際には、<math>s_1</math>から<math>s_m</math>が、一次視覚野から高次視覚野で別々に表現されており、各階層間で上記の順逆変換のループが働いて各属性が推定されると考えられている。これらの計算過程やそれを支持する生理学や解剖学の知見については、文献<ref name=川人1990></ref><ref name=乾1993>'''敏郎 (1993).'''<br>『Q&Aでわかる脳と視覚-人間からロボットまで』 サイエンス社.</ref>を参照。
 なお、知覚の計算を行うときには前向きと後ろ向きの神経回路が用いられるが、後ろ向きの結合は、順光学なので仮に外部刺激による信号がないときに働けば、知覚時と同じ活動を再現することが可能である。つまりこのような順逆変換が学習されれば(彼らの理論では学習アルゴリズムも与えている)外界の情報の処理と内的イメージの生成が同時に可能になるのである。具体的な視覚問題に適用された例は、Kawato, M., Hayakawa, H., and Inui, T. (1993)<ref> Kawato, M., Hayakawa, H., & Inui, T. (1993). A forward-inverse optics model of reciprocal connections between visual cortical areas. Network: Computation in Neural Systems, 4, 415-422. doi: 10.1088/0954-898X_4_4_001</ref>にある。なおこの理論は、Fristonの脳の統一理論である自由エネルギー原理において拡張された<ref><pubmed>17097864</pubmed></ref><ref>乾 敏郎・阪口 豊 (2020). <br>『脳の大統一理論 -自由エネルギー原理とは何か-』 岩波書店.</ref>(Friston, 2006: 乾・阪口, 2020)。


 なお、[[知覚]]の計算を行うときには前向きと後ろ向きの神経回路が用いられるが、後ろ向きの結合は、順光学なので仮に外部刺激による信号がないときに働けば、知覚時と同じ活動を再現することが可能である。つまりこのような順逆変換が学習されれば(彼らの理論では学習アルゴリズムも与えている)外界の情報の処理と[[内的イメージ]]の生成が同時に可能になるのである。具体的な視覚問題に適用された例は、文献<ref>'''Kawato, M., Hayakawa, H., & Inui, T. (1993).'''<br>A forward-inverse optics model of reciprocal connections between visual cortical areas. Network: Computation in Neural Systems, 4, 415-422. doi: 10.1088/0954-898X_4_4_001</ref>にある。なおこの理論は、[[w:Karl J. Friston|Friston]]の[[脳の統一理論]]である[[自由エネルギー原理]]において拡張された<ref><pubmed>17097864</pubmed></ref><ref>'''乾 敏郎・阪口 豊 (2020).'''<br>『脳の大統一理論 -自由エネルギー原理とは何か-』 岩波書店。</ref>。
図 大脳視覚皮質の順逆変換モデルの概要


== 参考文献 ==
== 参考文献 ==
<references />
<references />
Friston, K., Kilner, J., & Harrison, L. (2006). A free energy principle for the brain. Journal of physiology-Paris, 100, 70-87.
Horn, B. K. P. (1975). Obtaining shape from shading information. In: Winston, P. H. (Ed.) The Psychology of Computer Vision. New York, McGraw-Hill. 115-155.
乾 敏郎 (1993).『Q&Aでわかる脳と視覚-人間からロボットまで』 サイエンス社.
乾 敏郎・阪口 豊 (2020). 『脳の大統一理論 -自由エネルギー原理とは何か-』 岩波書店.
乾 敏郎 (2004). 視覚計算とマルコフ確率場. 石黒 真木夫・松本 隆・乾 敏郎・田邉 國士(著)「統計科学のフロンティア」第4巻『階層ベイズモデルとその周辺-時系列・画像・認知への応用-』 岩波書店, 171-233.
川人 光男・乾 敏郎 (1990). 視覚大脳皮質の計算理論. 電子情報通信学会論文誌D-Ⅱ, 73, 1111-1121.
Kawato, M., Hayakawa, H., & Inui, T. (1993). A forward-inverse optics model of reciprocal connections between visual cortical areas. Network: Computation in Neural Systems, 4, 415-422. doi: 10.1088/0954-898X_4_4_001
川人 光男 (1996). 『脳の計算理論』 産業図書.

2021年7月21日 (水) 09:45時点における版

 視覚系は対象の様々な視覚属性を二次元網膜像から非常に短時間で推定し、知覚している。川人と乾 (1990)は、視覚の不良設定問題を短時間で解くモデルとして順逆変換モデルを提案した。順変換(順光学)は3次元世界から2次元網膜像を生成する変換であり、逆変換(逆光学)は2次元網膜像から3次元世界の属性を推定する変換である。モデルでは、視覚系では上行性結合(前向き結合)によって近似逆変換が計算され、下行性結合(後ろ向き結合)によって順変換が計算される。この順変換と近似逆変換の計算ループを通じて、速くかつ正確に外界の属性が推定されることが示された。

 対象のさまざまな視覚属性は2次元網膜像から推定されている。属性の多くは、3次元であり、2次元網膜像から3次元属性の推定は一般には解けない不良設定問題(ill-posed problem)である。3次元世界から2次元網膜像を作る画像生成過程は、物理法則に従っていて、順光学(forward optics)と呼ばれる。対象の属性は、この逆の過程を経て推論されなければならない。

 脳の計算は、基本的に階層的ベイズ推定の枠組みでとらえられている(たとえば、[1]乾,2004)。ベイズ推定は、ベイズの公式

(事後確率)∝(事前確率)・(条件付確率)

から事後確率を最大にする原因を特定することによって推論する(これを最大事後確率推定と呼ぶ)。事前確率は先験的知識である。そして、脳は高速に最大事後確率推定によって網膜像から外界の状態や構造を推定していると考えられた。一方、我々が正しく外界を知覚できるのは、一般の自然界で成立する何らかの制約条件を用いて、この逆問題(不良設定問題)を解いているからだと考えられている(逆光学;inverse optics)。

 川人と乾 (1990)[2]は以下のような理論を提案した。まずHorn (1975) [3]の画像放射照度方程式(image irradiance equation)を一般化した次の画像生成方程式を基本に考える。

 左辺は、二次元画像強度データを示し、左眼の画像(µ 0)か右眼の画像(µ 1)の網膜上の位置(x,y)での、時間t、波長λの光強度を示す。S=(S1,S2,K,Sm)とすると、右辺は視覚世界の状態や構造Sから画像データIが決まる画像生成過程を非線形関数Rで表したものである。 の中の変数S1~Smはすべて視覚大脳皮質で別々に表現され再構成されていると考える。具体的なSiとして、画像強度Iのある方向への1階微分と2階微分、局所的な速度や、両眼視または単眼視によって得られた奥行きや面の傾き、面の色、照明光の色や光源位置、物体の3次元的空間位置、観察者自身の移動速度ベクトルなどである。

 視覚の目的は から を推定することである。マルコフ確率場(Markov random field)理論を用いると最大事後確率推定は、以下の事後エネルギーの最小化として定式化される。具体的には、Sの事前確率(内部モデル)を 、P(S)Sが与えられたときのIの条件つき確率をP(I|S)で表す。そして、これらがGibbs分布に従うと仮定して、対応するエネルギーをU(S)、U(I|S)とすると、事後エネルギーU(S|I)は、

と書くことができる。この事後エネルギーを最小化することによって最大事後確率推定ができる(たとえば、川人,1995[4]:乾,2004[1]参照)。

 これを解くために、視覚大脳皮質はその並列階層構造に上式右辺の画像生成過程の近似逆変換 と順変換 を埋め込んでいると仮定する。具体的には、

とする。そして大脳皮質1次視覚野から高次視覚野への上行性(前向き)神経結合によって の近似逆変換(すなわち近似逆光学) が計算され、高次視覚野から1次視覚野への下行性(後向き)神経結合によって順光学 が計算されると仮定する。そして事後エネルギー最小化が次式で表すような神経回路モデルで計算されていると仮定する()。


 図では,2次元画像データIは視覚下位中枢に,視覚世界の様子Sは視覚上位中枢に表現されている.このモデルは視覚下位中枢を折返しにして鏡像対称となっている.このとき、領野間の前向きと後ろ向きの結合ループを信号が循環する間に正しい解に到達することが示された。

 図に示したモデルは、 S

をひとまとめにして記述したモデルである.実際には、s1からsmが,一次視覚野から高次視覚野で別々に表現されており、各階層間で上記の順逆変換のループが働いて各属性が推定されると考えられている。これらの計算過程やそれを支持する生理学や解剖学の知見については、川人・乾 (1990) [2]や乾 (1993) [5]を参照。

 なお、知覚の計算を行うときには前向きと後ろ向きの神経回路が用いられるが、後ろ向きの結合は、順光学なので仮に外部刺激による信号がないときに働けば、知覚時と同じ活動を再現することが可能である。つまりこのような順逆変換が学習されれば(彼らの理論では学習アルゴリズムも与えている)外界の情報の処理と内的イメージの生成が同時に可能になるのである。具体的な視覚問題に適用された例は、Kawato, M., Hayakawa, H., and Inui, T. (1993)[6]にある。なおこの理論は、Fristonの脳の統一理論である自由エネルギー原理において拡張された[7][8](Friston, 2006: 乾・阪口, 2020)。


図 大脳視覚皮質の順逆変換モデルの概要

参考文献

  1. 1.0 1.1 乾 敏郎 (2004).
    視覚計算とマルコフ確率場. 石黒 真木夫・松本 隆・乾 敏郎・田邉 國士(著)「統計科学のフロンティア」第4巻『階層ベイズモデルとその周辺-時系列・画像・認知への応用-』 岩波書店, 171-233.
  2. 2.0 2.1 川人 光男・乾 敏郎 (1990).
    視覚大脳皮質の計算理論.電子情報通信学会論文誌D-II, 73:1111-1121.
  3. Horn, B. K. P. (1975).
    Obtaining shape from shading information. In: Winston, P. H. (Ed.) The Psychology of Computer Vision. New York, McGraw-Hill. 115-155.
  4. 川人 光男 (1996). 『脳の計算理論』 産業図書.
  5. 乾 敏郎 (1993).
    『Q&Aでわかる脳と視覚-人間からロボットまで』 サイエンス社.
  6. Kawato, M., Hayakawa, H., & Inui, T. (1993). A forward-inverse optics model of reciprocal connections between visual cortical areas. Network: Computation in Neural Systems, 4, 415-422. doi: 10.1088/0954-898X_4_4_001
  7. Friston, K., Kilner, J., & Harrison, L. (2006).
    A free energy principle for the brain. Journal of physiology, Paris, 100(1-3), 70-87. [PubMed:17097864] [WorldCat] [DOI]
  8. 乾 敏郎・阪口 豊 (2020).
    『脳の大統一理論 -自由エネルギー原理とは何か-』 岩波書店.

Friston, K., Kilner, J., & Harrison, L. (2006). A free energy principle for the brain. Journal of physiology-Paris, 100, 70-87. Horn, B. K. P. (1975). Obtaining shape from shading information. In: Winston, P. H. (Ed.) The Psychology of Computer Vision. New York, McGraw-Hill. 115-155. 乾 敏郎 (1993).『Q&Aでわかる脳と視覚-人間からロボットまで』 サイエンス社. 乾 敏郎・阪口 豊 (2020). 『脳の大統一理論 -自由エネルギー原理とは何か-』 岩波書店. 乾 敏郎 (2004). 視覚計算とマルコフ確率場. 石黒 真木夫・松本 隆・乾 敏郎・田邉 國士(著)「統計科学のフロンティア」第4巻『階層ベイズモデルとその周辺-時系列・画像・認知への応用-』 岩波書店, 171-233. 川人 光男・乾 敏郎 (1990). 視覚大脳皮質の計算理論. 電子情報通信学会論文誌D-Ⅱ, 73, 1111-1121. Kawato, M., Hayakawa, H., & Inui, T. (1993). A forward-inverse optics model of reciprocal connections between visual cortical areas. Network: Computation in Neural Systems, 4, 415-422. doi: 10.1088/0954-898X_4_4_001 川人 光男 (1996). 『脳の計算理論』 産業図書.