「視覚系の順逆変換モデル」の版間の差分

(同じ利用者による、間の3版が非表示)

2行目:

[http://researchmap.jp/inui_toshio 乾敏郎]

''追手門学院大学''

DOI：<selfdoi />　~~原稿受付日：2021年6月28日　原稿完成日：2021年7月XX日~~

DOI：<selfdoi />　原稿受付日：2021年6月28日　原稿完成日：2021年7月21日

担当編集委員：[https://researchmap.jp/123qweasd 五味裕章]（NTTコミュニケーション科学基礎研究所）

</div>

17行目:

から事後確率を最大にする原因を特定することによって推論する（これを最大事後確率推定と呼ぶ）。事前確率は先験的知識である。そして、脳は高速に最大事後確率推定によって網膜像から外界の状態や構造を推定していると考えられた。一方、我々が正しく外界を知覚できるのは、一般の自然界で成立する何らかの制約条件を用いて、この逆問題（不良設定問題）を解いているからだと考えられている（[[逆光学]]；inverse optics）。

川人と乾 (1990)<ref name=川人1990>'''川人光男・乾敏郎 (1990).''' ~~視覚大脳皮質の計算理論．電子情報通信学会論文誌D~~-II, 73:1111-~~1121．~~</ref>は以下のような理論を提案した。まずHorn (1975) <ref>'''Horn, B. K. P. (1975).''' Obtaining shape from shading information. In: Winston, P. H. (Ed.) The Psychology of Computer Vision. New York, ''McGraw-Hill.'' 115-155.</ref>の[[画像放射照度方程式]]（image irradiance equation）を一般化した次の[[画像生成方程式]]を基本に考える。

川人と乾 (1990)<ref name=川人1990>'''川人光男・乾敏郎 (1990).''' 視覚大脳皮質の計算理論。電子情報通信学会論文誌D-II, 73:1111-1121。</ref>は以下のような理論を提案した。まずHorn (1975) <ref>'''Horn, B. K. P. (1975).''' Obtaining shape from shading information. In: Winston, P. H. (Ed.) The Psychology of Computer Vision. New York, ''McGraw-Hill.'' 115-155.</ref>の[[画像放射照度方程式]]（image irradiance equation）を一般化した次の[[画像生成方程式]]を基本に考える。

:<math>

I(\mu, x, y, \lambda, t)=R(s_1, s_2..., s_m)

</math>

左辺は、二次元画像強度データを示し、左眼の画像<math>(\mu 0)</math>か右眼の画像<math>(\mu 1)</math>の網膜上の位置<math>(x,y)</math>での、時間<math>t</math>、波長<math>\lambda</math>の光強度を示す。<math>S=(~~S_1~~,~~S_2~~...,~~S_m~~)</math>とすると、右辺は視覚世界の状態や構造<math>S</math>から画像データ<math>I</math>が決まる画像生成過程を[[非線形関数]]<math>R</math>で表したものである。 ~~の中の変数S_1～S_mはすべて視覚~~[[大脳皮質]]で別々に表現され再構成されていると考える。具体的な<math>~~S_i~~</math>として、画像強度<math>I</math>のある方向への1階微分と2階微分、局所的な速度や、[[両眼視]]または[[単眼視]]によって得られた奥行きや面の傾き、面の色、照明光の色や光源位置、物体の3次元的空間位置、観察者自身の移動速度ベクトルなどである。

左辺は、二次元画像強度データを示し、左眼の画像<math>(\mu=0)</math>か右眼の画像<math>(\mu=1)</math>の網膜上の位置<math>(x,y)</math>での、時間<math>t</math>、波長<math>\lambda</math>の光強度を示す。<math>S=(s_1,s_2...,s_m)</math>とすると、右辺は視覚世界の状態や構造<math>S</math>から画像データ<math>I</math>が決まる画像生成過程を[[非線形関数]]<math>R</math>で表したものである。<math>R</math>の中の変数<math>s_1 \sim s_m</math>はすべて視覚[[大脳皮質]]で別々に表現され再構成されていると考える。具体的な<math>s_i</math>として、画像強度<math>I</math>のある方向への1階微分と2階微分、局所的な速度や、[[両眼視]]または[[単眼視]]によって得られた奥行きや面の傾き、面の色、照明光の色や光源位置、物体の3次元的空間位置、観察者自身の移動速度ベクトルなどである。

視覚の目的はからを推定することである。[[マルコフ確率場]]（Markov random field）理論を用いると最大事後確率推定は、以下の事後エネルギーの最小化として定式化される。具体的には、<math>S</math>の事前確率（内部モデル）を、<math>P(S)</math>、<math>S</math>が与えられたときの<math>I</math>の条件つき確率を<math>P(I|S)</math>で表す。そして、これらが[[Gibbs分布]]に従うと仮定して、対応するエネルギーを<math>U(S)</math>、<math>U(I|S)</math>とすると、事後エネルギー<math>U(S|I)</math>は、

視覚の目的は<math>I</math>から<math>S</math>を推定することである。[[マルコフ確率場理論|マルコフ確率場]]（Markov random field）理論を用いると最大事後確率推定は、以下の事後エネルギーの最小化として定式化される。具体的には、<math>S</math>の事前確率（内部モデル）を <math>P(S)</math>、<math>S</math>が与えられたときの<math>I</math>の条件つき確率を<math>P(I|S)</math>で表す。そして、これらが[[Gibbs分布]]に従うと仮定して、対応するエネルギーを<math>U(S)</math>、<math>U(I|S)</math>とすると、事後エネルギー<math>U(S|I)</math>は、

:<math>

30行目:

</math>

と書くことができる。この事後エネルギーを最小化することによって最大事後確率推定ができる（たとえば、文献<ref name=川人1996>'''川人光男 (1996).''' 『脳の計算理論』 ~~産業図書．~~</ref><ref name=乾2004>'''乾敏郎 (2004).''' ~~視覚計算とマルコフ確率場．~~ 石黒真木夫・松本隆・乾敏郎・田邉國士（著）「統計科学のフロンティア」第4巻『階層ベイズモデルとその周辺－時系列・画像・認知への応用－』 ''岩波書店'', 171-233.</ref>参照）。

と書くことができる。この事後エネルギーを最小化することによって最大事後確率推定ができる（たとえば、文献<ref name=川人1996>'''川人光男 (1996).''' 『脳の計算理論』産業図書。</ref><ref name=乾2004>'''乾敏郎 (2004).''' 視覚計算とマルコフ確率場。石黒真木夫・松本隆・乾敏郎・田邉國士（著）「統計科学のフロンティア」第4巻『階層ベイズモデルとその周辺－時系列・画像・認知への応用－』 ''岩波書店'', 171-233.</ref>参照）。

これを解くために、視覚大脳皮質はその並列階層構造に上式右辺の画像生成過程の近似逆変換<math>R^\#</math>と順変換<math>R</math>を埋め込んでいると仮定する。具体的には、

37行目:

U(S|I)=1/2[R^\#\{I-R(S)\}]^2+U(S)

</math>

~~U(S|I)=1/2[R^#{I-R(S)}]^2+U(S)~~

とする。そして大脳皮質[[一次視覚野]]から[[高次視覚野]]への上行性（前向き）神経結合によって<math>R~~^\#~~</math>の近似逆変換（すなわち近似逆光学）<math>R^\#</math>が計算され、高次視覚野から一次視覚野への下行性（後向き）神経結合によって順光学<math>R</math>が計算されると仮定する。そして事後エネルギー最小化が次式で表すような神経回路モデルで計算されていると仮定する（'''図'''）。

とする。そして大脳皮質[[一次視覚野]]から[[高次視覚野]]への上行性（前向き）神経結合によって<math>R</math>の近似逆変換（すなわち近似逆光学）<math>R^\#</math>が計算され、高次視覚野から一次視覚野への下行性（後向き）神経結合によって順光学<math>R</math>が計算されると仮定する。そして事後エネルギー最小化が次式で表すような神経回路モデルで計算されていると仮定する（'''図'''）。

[[ファイル:Inui forward reverse optic model.png|サムネイル|'''図. 大脳視覚皮質の順逆変換モデルの概要''']]

:<math>

45行目:

:<math>

\frac{dS(t)}{dt}=R^\#\{I-r(S)\}-\frac{\partial U(S)}{\partial U}

\frac{dS(t)}{dt}=R^\#\{I-R(S)\}-\frac{\partial U(S)}{\partial U}

</math>

~~図では，2次元画像データ~~<math>I</math>~~は視覚下位中枢に，視覚世界の様子~~<math>S</math>~~は視覚上位中枢に表現されている．このモデルは視覚下位中枢を折返しにして鏡像対称となっている．このとき、~~[[領野]]間の前向きと後ろ向きの結合ループを信号が循環する間に正しい解に到達することが示された。

図では、2次元画像データ<math>I</math>は視覚下位中枢に、視覚世界の様子<math>S</math>は視覚上位中枢に表現されている。このモデルは視覚下位中枢を折返しにして鏡像対称となっている。このとき、[[領野]]間の前向きと後ろ向きの結合ループを信号が循環する間に正しい解に到達することが示された。

図に示したモデルは、<math>S</math>~~をひとまとめにして記述したモデルである．実際には、~~<math>s_1</math>から<math>s_m</math>が，一次視覚野から高次視覚野で別々に表現されており、各階層間で上記の順逆変換のループが働いて各属性が推定されると考えられている。これらの計算過程やそれを支持する生理学や解剖学の知見については、文献<ref name=川人1990></ref><ref name=乾1993>'''乾敏郎 (1993).''' 『Q&Aでわかる脳と視覚－人間からロボットまで』サイエンス社.</ref>を参照。

図に示したモデルは、<math>S</math>をひとまとめにして記述したモデルである。実際には、<math>s_1</math>から<math>s_m</math>が、一次視覚野から高次視覚野で別々に表現されており、各階層間で上記の順逆変換のループが働いて各属性が推定されると考えられている。これらの計算過程やそれを支持する生理学や解剖学の知見については、文献<ref name=川人1990></ref><ref name=乾1993>'''乾敏郎 (1993).''' 『Q&Aでわかる脳と視覚－人間からロボットまで』サイエンス社.</ref>を参照。

なお、[[知覚]]の計算を行うときには前向きと後ろ向きの神経回路が用いられるが、後ろ向きの結合は、順光学なので仮に外部刺激による信号がないときに働けば、知覚時と同じ活動を再現することが可能である。つまりこのような順逆変換が学習されれば（彼らの理論では学習アルゴリズムも与えている）外界の情報の処理と[[内的イメージ]]の生成が同時に可能になるのである。具体的な視覚問題に適用された例は、文献<ref>'''Kawato, M., Hayakawa, H., & Inui, T. (1993).''' A forward-inverse optics model of reciprocal connections between visual cortical areas. Network: Computation in Neural Systems, 4, 415-422. doi: 10.1088/0954-898X_4_4_001</ref>~~にある。なおこの理論は、Fristonの~~[[脳の統一理論]]である[[自由エネルギー原理]]において拡張された<ref><pubmed>17097864</pubmed></ref><ref>'''乾敏郎・阪口豊 (2020).''' 『脳の大統一理論－自由エネルギー原理とは何か－』 ~~岩波書店．~~</ref>。

なお、[[知覚]]の計算を行うときには前向きと後ろ向きの神経回路が用いられるが、後ろ向きの結合は、順光学なので仮に外部刺激による信号がないときに働けば、知覚時と同じ活動を再現することが可能である。つまりこのような順逆変換が学習されれば（彼らの理論では学習アルゴリズムも与えている）外界の情報の処理と[[内的イメージ]]の生成が同時に可能になるのである。具体的な視覚問題に適用された例は、文献<ref>'''Kawato, M., Hayakawa, H., & Inui, T. (1993).''' A forward-inverse optics model of reciprocal connections between visual cortical areas. Network: Computation in Neural Systems, 4, 415-422. doi: 10.1088/0954-898X_4_4_001</ref>にある。なおこの理論は、[[w:Karl J. Friston|Friston]]の[[脳の統一理論]]である[[自由エネルギー原理]]において拡張された<ref><pubmed>17097864</pubmed></ref><ref>'''乾敏郎・阪口豊 (2020).''' 『脳の大統一理論－自由エネルギー原理とは何か－』岩波書店。</ref>。

== 参考文献 ==

@@ 2行目: / 2行目: @@
 <font size="+1">[http://researchmap.jp/inui_toshio 乾 敏郎]</font><br>
 ''追手門学院大学''<br>
-DOI：<selfdoi />　原稿受付日：2021年6月28日　原稿完成日：2021年7月XX日<br>
+DOI：<selfdoi />　原稿受付日：2021年6月28日　原稿完成日：2021年7月21日<br>
 担当編集委員：[https://researchmap.jp/123qweasd 五味 裕章]（NTTコミュニケーション科学基礎研究所）<br>
 </div>
@@ 17行目: / 17行目: @@
 から事後確率を最大にする原因を特定することによって推論する（これを最大事後確率推定と呼ぶ）。事前確率は先験的知識である。そして、脳は高速に最大事後確率推定によって網膜像から外界の状態や構造を推定していると考えられた。一方、我々が正しく外界を知覚できるのは、一般の自然界で成立する何らかの制約条件を用いて、この逆問題（不良設定問題）を解いているからだと考えられている（[[逆光学]]；inverse optics）。
-　川人と乾 (1990)<ref name=川人1990>'''川人 光男・乾 敏郎 (1990).'''<br>視覚大脳皮質の計算理論．電子情報通信学会論文誌D-II, 73:1111-1121．</ref>は以下のような理論を提案した。まずHorn (1975) <ref>'''Horn, B. K. P. (1975).'''<br>Obtaining shape from shading information. In: Winston, P. H. (Ed.) The Psychology of Computer Vision. New York, ''McGraw-Hill.'' 115-155.</ref>の[[画像放射照度方程式]]（image irradiance equation）を一般化した次の[[画像生成方程式]]を基本に考える。
+　川人と乾 (1990)<ref name=川人1990>'''川人 光男・乾 敏郎 (1990).'''<br>視覚大脳皮質の計算理論。電子情報通信学会論文誌D-II, 73:1111-1121。</ref>は以下のような理論を提案した。まずHorn (1975) <ref>'''Horn, B. K. P. (1975).'''<br>Obtaining shape from shading information. In: Winston, P. H. (Ed.) The Psychology of Computer Vision. New York, ''McGraw-Hill.'' 115-155.</ref>の[[画像放射照度方程式]]（image irradiance equation）を一般化した次の[[画像生成方程式]]を基本に考える。
 :<math>
 I(\mu, x, y, \lambda, t)=R(s_1, s_2..., s_m)
 </math>
-　左辺は、二次元画像強度データを示し、左眼の画像<math>(\mu 0)</math>か右眼の画像<math>(\mu 1)</math>の網膜上の位置<math>(x,y)</math>での、時間<math>t</math>、波長<math>\lambda</math>の光強度を示す。<math>S=(S_1,S_2...,S_m)</math>とすると、右辺は視覚世界の状態や構造<math>S</math>から画像データ<math>I</math>が決まる画像生成過程を[[非線形関数]]<math>R</math>で表したものである。 の中の変数S_1～S_mはすべて視覚[[大脳皮質]]で別々に表現され再構成されていると考える。具体的な<math>S_i</math>として、画像強度<math>I</math>のある方向への1階微分と2階微分、局所的な速度や、[[両眼視]]または[[単眼視]]によって得られた奥行きや面の傾き、面の色、照明光の色や光源位置、物体の3次元的空間位置、観察者自身の移動速度ベクトルなどである。
+　左辺は、二次元画像強度データを示し、左眼の画像<math>(\mu=0)</math>か右眼の画像<math>(\mu=1)</math>の網膜上の位置<math>(x,y)</math>での、時間<math>t</math>、波長<math>\lambda</math>の光強度を示す。<math>S=(s_1,s_2...,s_m)</math>とすると、右辺は視覚世界の状態や構造<math>S</math>から画像データ<math>I</math>が決まる画像生成過程を[[非線形関数]]<math>R</math>で表したものである。<math>R</math>の中の変数<math>s_1 \sim s_m</math>はすべて視覚[[大脳皮質]]で別々に表現され再構成されていると考える。具体的な<math>s_i</math>として、画像強度<math>I</math>のある方向への1階微分と2階微分、局所的な速度や、[[両眼視]]または[[単眼視]]によって得られた奥行きや面の傾き、面の色、照明光の色や光源位置、物体の3次元的空間位置、観察者自身の移動速度ベクトルなどである。
-　視覚の目的は から を推定することである。[[マルコフ確率場]]（Markov random field）理論を用いると最大事後確率推定は、以下の事後エネルギーの最小化として定式化される。具体的には、<math>S</math>の事前確率（内部モデル）を 、<math>P(S)</math>、<math>S</math>が与えられたときの<math>I</math>の条件つき確率を<math>P(I|S)</math>で表す。そして、これらが[[Gibbs分布]]に従うと仮定して、対応するエネルギーを<math>U(S)</math>、<math>U(I|S)</math>とすると、事後エネルギー<math>U(S|I)</math>は、
+　視覚の目的は<math>I</math>から<math>S</math>を推定することである。[[マルコフ確率場理論|マルコフ確率場]]（Markov random field）理論を用いると最大事後確率推定は、以下の事後エネルギーの最小化として定式化される。具体的には、<math>S</math>の事前確率（内部モデル）を <math>P(S)</math>、<math>S</math>が与えられたときの<math>I</math>の条件つき確率を<math>P(I|S)</math>で表す。そして、これらが[[Gibbs分布]]に従うと仮定して、対応するエネルギーを<math>U(S)</math>、<math>U(I|S)</math>とすると、事後エネルギー<math>U(S|I)</math>は、
 :<math>
@@ 30行目: / 30行目: @@
 </math>
-と書くことができる。この事後エネルギーを最小化することによって最大事後確率推定ができる（たとえば、文献<ref name=川人1996>'''川人 光男 (1996).'''<br>『脳の計算理論』 産業図書．</ref><ref name=乾2004>'''乾 敏郎 (2004).'''<br>視覚計算とマルコフ確率場． 石黒 真木夫・松本 隆・乾 敏郎・田邉 國士（著）「統計科学のフロンティア」第4巻『階層ベイズモデルとその周辺－時系列・画像・認知への応用－』 ''岩波書店'', 171-233.</ref>参照）。
+と書くことができる。この事後エネルギーを最小化することによって最大事後確率推定ができる（たとえば、文献<ref name=川人1996>'''川人 光男 (1996).'''<br>『脳の計算理論』 産業図書。</ref><ref name=乾2004>'''乾 敏郎 (2004).'''<br>視覚計算とマルコフ確率場。 石黒 真木夫・松本 隆・乾 敏郎・田邉 國士（著）「統計科学のフロンティア」第4巻『階層ベイズモデルとその周辺－時系列・画像・認知への応用－』 ''岩波書店'', 171-233.</ref>参照）。
 　これを解くために、視覚大脳皮質はその並列階層構造に上式右辺の画像生成過程の近似逆変換<math>R^\#</math>と順変換<math>R</math>を埋め込んでいると仮定する。具体的には、
@@ 37行目: / 37行目: @@
 U(S|I)=1/2[R^\#\{I-R(S)\}]^2+U(S)
 </math>
-U(S|I)=1/2[R^#{I-R(S)}]^2+U(S)
-とする。そして大脳皮質[[一次視覚野]]から[[高次視覚野]]への上行性（前向き）神経結合によって<math>R^\#</math>の近似逆変換（すなわち近似逆光学）<math>R^\#</math>が計算され、高次視覚野から一次視覚野への下行性（後向き）神経結合によって順光学<math>R</math>が計算されると仮定する。そして事後エネルギー最小化が次式で表すような神経回路モデルで計算されていると仮定する（'''図'''）。
+とする。そして大脳皮質[[一次視覚野]]から[[高次視覚野]]への上行性（前向き）神経結合によって<math>R</math>の近似逆変換（すなわち近似逆光学）<math>R^\#</math>が計算され、高次視覚野から一次視覚野への下行性（後向き）神経結合によって順光学<math>R</math>が計算されると仮定する。そして事後エネルギー最小化が次式で表すような神経回路モデルで計算されていると仮定する（'''図'''）。
 [[ファイル:Inui forward reverse optic model.png|サムネイル|'''図. 大脳視覚皮質の順逆変換モデルの概要''']]
 :<math>
@@ 45行目: / 45行目: @@
 :<math>
-\frac{dS(t)}{dt}=R^\#\{I-r(S)\}-\frac{\partial U(S)}{\partial U}
+\frac{dS(t)}{dt}=R^\#\{I-R(S)\}-\frac{\partial U(S)}{\partial U}
 </math>
-　図では，2次元画像データ<math>I</math>は視覚下位中枢に，視覚世界の様子<math>S</math>は視覚上位中枢に表現されている．このモデルは視覚下位中枢を折返しにして鏡像対称となっている．このとき、[[領野]]間の前向きと後ろ向きの結合ループを信号が循環する間に正しい解に到達することが示された。
+　図では、2次元画像データ<math>I</math>は視覚下位中枢に、視覚世界の様子<math>S</math>は視覚上位中枢に表現されている。このモデルは視覚下位中枢を折返しにして鏡像対称となっている。このとき、[[領野]]間の前向きと後ろ向きの結合ループを信号が循環する間に正しい解に到達することが示された。
-　図に示したモデルは、<math>S</math>をひとまとめにして記述したモデルである．実際には、<math>s_1</math>から<math>s_m</math>が，一次視覚野から高次視覚野で別々に表現されており、各階層間で上記の順逆変換のループが働いて各属性が推定されると考えられている。これらの計算過程やそれを支持する生理学や解剖学の知見については、文献<ref name=川人1990></ref><ref name=乾1993>'''乾 敏郎 (1993).'''<br>『Q&Aでわかる脳と視覚－人間からロボットまで』 サイエンス社.</ref>を参照。
+　図に示したモデルは、<math>S</math>をひとまとめにして記述したモデルである。実際には、<math>s_1</math>から<math>s_m</math>が、一次視覚野から高次視覚野で別々に表現されており、各階層間で上記の順逆変換のループが働いて各属性が推定されると考えられている。これらの計算過程やそれを支持する生理学や解剖学の知見については、文献<ref name=川人1990></ref><ref name=乾1993>'''乾 敏郎 (1993).'''<br>『Q&Aでわかる脳と視覚－人間からロボットまで』 サイエンス社.</ref>を参照。
-　なお、[[知覚]]の計算を行うときには前向きと後ろ向きの神経回路が用いられるが、後ろ向きの結合は、順光学なので仮に外部刺激による信号がないときに働けば、知覚時と同じ活動を再現することが可能である。つまりこのような順逆変換が学習されれば（彼らの理論では学習アルゴリズムも与えている）外界の情報の処理と[[内的イメージ]]の生成が同時に可能になるのである。具体的な視覚問題に適用された例は、文献<ref>'''Kawato, M., Hayakawa, H., & Inui, T. (1993).'''<br>A forward-inverse optics model of reciprocal connections between visual cortical areas. Network: Computation in Neural Systems, 4, 415-422. doi: 10.1088/0954-898X_4_4_001</ref>にある。なおこの理論は、Fristonの[[脳の統一理論]]である[[自由エネルギー原理]]において拡張された<ref><pubmed>17097864</pubmed></ref><ref>'''乾 敏郎・阪口 豊 (2020).'''<br>『脳の大統一理論 －自由エネルギー原理とは何か－』 岩波書店．</ref>。
+　なお、[[知覚]]の計算を行うときには前向きと後ろ向きの神経回路が用いられるが、後ろ向きの結合は、順光学なので仮に外部刺激による信号がないときに働けば、知覚時と同じ活動を再現することが可能である。つまりこのような順逆変換が学習されれば（彼らの理論では学習アルゴリズムも与えている）外界の情報の処理と[[内的イメージ]]の生成が同時に可能になるのである。具体的な視覚問題に適用された例は、文献<ref>'''Kawato, M., Hayakawa, H., & Inui, T. (1993).'''<br>A forward-inverse optics model of reciprocal connections between visual cortical areas. Network: Computation in Neural Systems, 4, 415-422. doi: 10.1088/0954-898X_4_4_001</ref>にある。なおこの理論は、[[w:Karl J. Friston|Friston]]の[[脳の統一理論]]である[[自由エネルギー原理]]において拡張された<ref><pubmed>17097864</pubmed></ref><ref>'''乾 敏郎・阪口 豊 (2020).'''<br>『脳の大統一理論 －自由エネルギー原理とは何か－』 岩波書店。</ref>。
 == 参考文献 ==
 <references />