「マーの視覚計算理論」の版間の差分

編集の要約なし
(ページの作成:「Marrの視覚計算理論 乾 敏郎 追手門学院大学 英:Marr’s computational theory of vision {{box|text=  Marrによると、情報処理装置は…」)
 
編集の要約なし
1行目: 1行目:
Marrの視覚計算理論
<div align="right"> 
 
<font size="+1">[http://researchmap.jp/inui_toshio 乾 敏郎]</font><br>
乾 敏郎
''追手門学院大学''<br>
追手門学院大学
DOI:<selfdoi /> 原稿受付日:2021年6月19日 原稿完成日:2021年7月X日<br>
担当編集委員:[https://researchmap.jp/kkitajo 北城 圭一](生理学研究所)<br>
</div>


英:Marr’s computational theory of vision
英:Marr’s computational theory of vision
{{box|text= 
{{box|text= Marrによると、情報処理装置は3つのレベルで理解する必要がある。それは、計算理論、情報表現とアルゴリズム、ハードウェア(実装)である。彼は視覚系を、初期視覚、中間視覚、高次視覚にわけ、それぞれについてこれら3つのレベルで独創的な研究を進めた。とくに、視覚計算理論の思想は、視覚系に限らず、広く脳科学や認知科学、心理学に大きな影響を与えた。}}
Marrによると、情報処理装置は3つのレベルで理解する必要がある。それは、計算理論、情報表現とアルゴリズム、ハードウェア(実装)である。彼は視覚系を、初期視覚、中間視覚、高次視覚にわけ、それぞれについてこれら3つのレベルで独創的な研究を進めた。とくに、視覚計算理論の思想は、視覚系に限らず、広く脳科学や認知科学、心理学に大きな影響を与えた。
}}


==Marrの視覚計算理論とは==
==Marrの視覚計算理論とは==
15行目: 15行目:
 Marrによると、情報処理装置は以下の3つのレベルで理解する必要がある。
 Marrによると、情報処理装置は以下の3つのレベルで理解する必要がある。


 すなわち、計算理論(computational theory)、入出力の情報表現と計算理論を実現するアルゴリズム(representation and algorithm)、ハードウェアもしくは神経回路という実装(implementation)のレベルである。この中で彼が最も重要であると考えたのは、計算理論のレベルである。計算理論は、ハードウェアとは独立にシステムの入出力関数を明らかにすることであると言える。システムがどのような計算を行っているのか、そして計算の目的は何かといったことを明らかにするのである。しかし計算理論が解ったからといってすべてが説明されたことにはならない。
 すなわち、計算理論(computational theory)、入出力の情報表現と計算理論を実現するアルゴリズム(representation and algorithm)、ハードウェアもしくは神経回路という実装(implementation)のレベルである。


 次のレベルでは計算理論を実現しているアルゴリズムとシステムの入力および出力の情報表現を明らかにしなければならない。これが明らかになった上でそのアルゴリズムがどのようなハードウェア(神経回路)によって実現されているかを説明する必要がある。
 この中で彼が最も重要であると考えたのは、計算理論のレベルである。計算理論は、ハードウェアとは独立にシステムの入出力関数を明らかにすることであると言える。システムがどのような計算を行っているのか、そして計算の目的は何かといったことを明らかにするのである。しかし計算理論が解ったからといってすべてが説明されたことにはならない。次のレベルでは計算理論を実現しているアルゴリズムとシステムの入力および出力の情報表現を明らかにしなければならない。これが明らかになった上でそのアルゴリズムがどのようなハードウェア(神経回路)によって実現されているかを説明する必要がある。


 心理物理学は主に第2のレベル、神経生理学や解剖学は第3のレベルの研究に対応している。
 心理物理学は主に第2のレベル、神経生理学や解剖学は第3のレベルの研究に対応している。


==視覚系を理解するための3つのレベル==
==視覚系を理解するための3つのレベル==
 情報処理糸の研究をするためにはまずシステムの目的をはっきりさせねばならない。視覚系の目的はいろいろ考えられるが、Marr (1982) はまず網膜像の強度変化から実世界の3次元構造を推測することが視覚情報処理系の目的であると考えた。各過程はこの目的を遠成するために合理的に作られているはずである。そこでまずそれぞれの過程では何がどのような目的で計算されているのかを明らかにする必要がある。これが計算理論であり、システムの入出力の関係の記述と言える。
 情報処理糸の研究をするためにはまずシステムの目的をはっきりさせねばならない。視覚系の目的はいろいろ考えられるが、Marr (1982)<ref>'''Marr, D. (1982).'''<br>Vision: A computational investigation into the human representation and processing of visual information.  New York, NY: W. H. Freeman & Company.<br>'''乾 敏郎,安藤広志(訳,1987)'''<br>『ビジョン-視覚の計算理論と脳内表現-』 産業図書.</ref> はまず網膜像の強度変化から実世界の3次元構造を推測することが視覚情報処理系の目的であると考えた。各過程はこの目的を遠成するために合理的に作られているはずである。そこでまずそれぞれの過程では何がどのような目的で計算されているのかを明らかにする必要がある。これが計算理論であり、システムの入出力の関係の記述と言える。


 対象のさまざまな視覚属性は2次元網膜像から推定される。推定すべき属性の多くは、奥行きや3次元形状である。2次元データから3次元属性の推定は一般には解けない不良設定問題(ill-posed problem)である。ここで重要なことは、この計算が何らかの暗黙の仮定(制約条件)のもとでなされているということである。制約条件なしに計算しても解が一意に決まらないことが多い。しかし、我々は常に一つの知覚を経験している。これは何らかの制約条件が働いているからである。
 対象のさまざまな視覚属性は2次元網膜像から推定される。推定すべき属性の多くは、奥行きや3次元形状である。2次元データから3次元属性の推定は一般には解けない不良設定問題(ill-posed problem)である。ここで重要なことは、この計算が何らかの暗黙の仮定(制約条件)のもとでなされているということである。制約条件なしに計算しても解が一意に決まらないことが多い。しかし、我々は常に一つの知覚を経験している。これは何らかの制約条件が働いているからである。
46行目: 46行目:
 最後の段階は、2.5次元スケッチから観察者中心座標系ではなく物体中心座標系における物体の3次元表現である。最終段階である高次視覚ではパターン認識のための物体の表現が作られると考える。つまり物体に座標軸を持つ表現である。中心軸は細く伸びた方向など一般的なルールによって決められると考えられ、それに基づいて各部分間の関係などが記述され可視表面ではない裏の面(感覚可能物sensibilia)も表現されていると考えるのである。2.5次元スケッチは観察者を中心とした表現なので、観察者が移動して視点が変化することによってその表現は変化する。これまで見えていなかった面も見えるようになることもある。3次元表現は物体に座標軸を持つ表現であり、各視点からは見えない面も表現されているのである。したがって物体の位置や姿勢あるいは観察者の位置が変化しでもその表現は不変である。そして物体中心座標で表現された3次元表現は部分と全体が階層的に表された階層的表現であると考えた。
 最後の段階は、2.5次元スケッチから観察者中心座標系ではなく物体中心座標系における物体の3次元表現である。最終段階である高次視覚ではパターン認識のための物体の表現が作られると考える。つまり物体に座標軸を持つ表現である。中心軸は細く伸びた方向など一般的なルールによって決められると考えられ、それに基づいて各部分間の関係などが記述され可視表面ではない裏の面(感覚可能物sensibilia)も表現されていると考えるのである。2.5次元スケッチは観察者を中心とした表現なので、観察者が移動して視点が変化することによってその表現は変化する。これまで見えていなかった面も見えるようになることもある。3次元表現は物体に座標軸を持つ表現であり、各視点からは見えない面も表現されているのである。したがって物体の位置や姿勢あるいは観察者の位置が変化しでもその表現は不変である。そして物体中心座標で表現された3次元表現は部分と全体が階層的に表された階層的表現であると考えた。
   
   
図 Marrの視覚情報処理過程の枠組み
[[File:Inui_Marrs_computational_theory_of_vision_Fig.png|'''図. Marrの視覚情報処理過程の枠組み''']]


==参考文献==
==参考文献==
Marr, D. (1982) Vision: A computational investigation into the human representation and processing of visual information.  New York, NY: W. H. Freeman & Company. 
<references>
乾 敏郎,安藤広志(訳,1987)『ビジョン-視覚の計算理論と脳内表現-』 産業図書.
 
Mather, G. (2015) Computational approaches to perception: Beyond Marr’s (1982) computational approach to vision. In: Eysenck, M.W. and Groome, D. (Eds.) Cognitive psychology : Revisiting the classic studies, SAGE Publications, 38-46. 乾 敏郎 (訳, 2017) 知覚の計算論的アプローチ-Marr(1982)による視覚の計算論的アプローチを超えて. 箱田 裕司, 行場 次朗(監訳)『古典で読み解く現代認知心理学』, 北大路書房, 49-60.
Mather, G. (2015) Computational approaches to perception: Beyond Marr’s (1982) computational approach to vision. In: Eysenck, M.W. and Groome, D. (Eds.) Cognitive psychology : Revisiting the classic studies, SAGE Publications, 38-46. 乾 敏郎 (訳, 2017) 知覚の計算論的アプローチ-Marr(1982)による視覚の計算論的アプローチを超えて. 箱田 裕司, 行場 次朗(監訳)『古典で読み解く現代認知心理学』, 北大路書房, 49-60.