「サリエンシー」の版間の差分
細編集の要約なし |
Masahitoyamagata (トーク | 投稿記録) 細 (2016年を2017年に変更しました。) |
||
(2人の利用者による、間の4版が非表示) | |||
2行目: | 2行目: | ||
<font size="+1">[http://researchmap.jp/masatoshiyoshida 吉田 正俊]</font><br> | <font size="+1">[http://researchmap.jp/masatoshiyoshida 吉田 正俊]</font><br> | ||
''自然科学研究機構生理学研究所 発達生理学研究系・認知行動発達研究部門''<br> | ''自然科学研究機構生理学研究所 発達生理学研究系・認知行動発達研究部門''<br> | ||
DOI:<selfdoi /> 原稿受付日:2012年12月21日 原稿完成日:2017年2月7日<br> | |||
担当編集委員:[http://researchmap.jp/keijitanaka 田中 啓治](独立行政法人理化学研究所 脳科学総合研究センター)<br> | 担当編集委員:[http://researchmap.jp/keijitanaka 田中 啓治](独立行政法人理化学研究所 脳科学総合研究センター)<br> | ||
</div> | </div> | ||
8行目: | 8行目: | ||
英語名:saliency | 英語名:saliency | ||
類語・同義語:顕著性、サリエンス(salience) | 類語・同義語:顕著性、サリエンス(salience)、セイリエンス(salience)、セイランシー | ||
{{box|text= | {{box|text= | ||
[[感覚]]刺激が刺激の時間的または空間的配置によって[[ボトムアップ性注意]] | [[感覚]]刺激が刺激の時間的または空間的配置によって[[ボトムアップ性注意]]を誘引する特性を「サリエンシー」と呼ぶ。「サリエンシー・マップ」とは、視覚刺激のサリエンシーを計算して単一の二次元マップとして表現したもののことを指す。これは計算論的概念であって、脳にサリエンシー・マップが表現されている保証はない。しかしながら、サリエンシー・マップが表象されている部分としてこれまでに、[[一次視覚野]](primary visual cortex: [[V1]])、[[上丘]]、[[視床枕]]、[[Lateral intraparietal area]] ([[LIP]])、[[frontal eye field]] ([[FEF]]) などがその候補としてあげられている。 | ||
}} | }} | ||
30行目: | 30行目: | ||
このような知見を元にしてAnn Triesmanは注意の「[[特徴統合理論]]」(feature integration theory)を作り上げた<ref><pubmed> 7351125 </pubmed></ref>。特徴統合理論では、視野像は各特徴(輝度、色、傾きなど)ごとに並行して処理され、それらの特徴が最終的に統合される。よって、図1左の色のpop-out刺激では、色特徴の処理の段階で仲間はずれを検出することが出来るので処理が速いのだが、図1右のconjunction searchでは統合された情報を探索しなければならないために処理が遅くなる、と説明される。 | このような知見を元にしてAnn Triesmanは注意の「[[特徴統合理論]]」(feature integration theory)を作り上げた<ref><pubmed> 7351125 </pubmed></ref>。特徴統合理論では、視野像は各特徴(輝度、色、傾きなど)ごとに並行して処理され、それらの特徴が最終的に統合される。よって、図1左の色のpop-out刺激では、色特徴の処理の段階で仲間はずれを検出することが出来るので処理が速いのだが、図1右のconjunction searchでは統合された情報を探索しなければならないために処理が遅くなる、と説明される。 | ||
視覚でのpop-outに類似した現象として、聴覚の心理学ではoddball paradigmというものが用いられる。このoddball paradigmでは、ピ、ピ、ピと連続する純音刺激に違う周波数の純音が混ざったり、または音が鳴らなかった場合(deviantsと呼ばれる)にはその時に注意が誘引される。この場合は空間ではなくて、時間的配列がボトムアップ性注意を誘引する例と言える。 | |||
== サリエンシー・マップ | == サリエンシー・マップ== | ||
saliency map | |||
[[Image:サリエンシー3.png|thumb|300px|'''図2.サリエンシー計算論モデルでの主なステップ'''<br>入力する視覚情報は並行処理によって[1]低レベルの視覚特徴ごとに分析が行われ、[[側抑制]]メカニズムによって<ref name=ref1><pubmed> 3836989 </pubmed></ref>特徴ごとのサリエンシー(特徴マップ)が計算される。それらの特徴マプを足し合わせることで単一の<ref name=ref2>'''L. Itti, C. Koch, & E. Niebur'''<br>A Model of Saliency-Based Visual Attention for Rapid Scene Analysis.<br>''IEEE Transactions on Pattern Analysis and Machine Intelligence'': 1998, 20(11):1254-1259.</ref>サリエンシー・マップが計算される。<ref><pubmed>28044023</pubmed></ref>より許可のもと改変して作成。/ CC-BY 4.0)]] | |||
[[Image:Masatoshiyoshida_fig_2.png|thumb|300px|'''図3.サリエンシー・マップ''']] | |||
特徴統合理論はあくまで心理学的な理論であったが、計算論的立場からどのようにボトムアップ性注意が計算されているかを説明するモデルとして「[[サリエンシー・マップ]]」が提唱された<ref name=ref1><pubmed> 3836989 </pubmed></ref>。 | |||
サリエンシー・マップとは、特徴に依存しない視覚刺激のサリエンシーを[[wj:スカラー量|スカラー量]]として計算して、二次元マップとして表現したもののことを指す。 | |||
サリエンシー・マップの機能的な特徴としては以下の二つがあげられる。 | サリエンシー・マップの機能的な特徴としては以下の二つがあげられる。 | ||
* 並行処理:特徴統合理論からの影響を受けているため、サリエンシーはまず各特徴ごとに計算されて、特徴マップを作る。 | * 並行処理:特徴統合理論からの影響を受けているため、サリエンシーはまず各特徴ごとに計算されて、特徴マップを作る。 | ||
* Winner-take- | * [[Winner-take-allルール]]:これら複数の特徴マップが足しあわされて計算されたサリエンシー・マップの中からいちばんサリエンシーの高い部分が選択される。 | ||
Koch and Ulman | Koch and Ulman<ref name=ref1></ref>においてはあくまで計算の原理のモデルであったのだが、それを実際の画像から計算できるようなモデルとして実現したのがItti, Koch and Neiburによるサリエンシー計算論モデルだった(図2)<ref name=ref2>'''L. Itti, C. Koch, & E. Niebur'''<br>A Model of Saliency-Based Visual Attention for Rapid Scene Analysis.<br>''IEEE Transactions on Pattern Analysis and Machine Intelligence'': 1998, 20(11):1254-1259.</ref>。 | ||
このモデルのアルゴリズムレベルでの特色としては、 | このモデルのアルゴリズムレベルでの特色としては、 | ||
* | * 各特徴ごとのサリエンシーを計算するため、[[center-surround抑制]]を用いる。 | ||
* さまざまな解像度(pyramids)でこの作業を並行して行う(画像処理の分野でのmulti-scale representationに対応) 。 | * さまざまな解像度(pyramids)でこの作業を並行して行う(画像処理の分野でのmulti-scale representationに対応) 。 | ||
* 以上の操作を繰り返して正規化する(iterative normalization)。 | * 以上の操作を繰り返して正規化する(iterative normalization)。 | ||
53行目: | 57行目: | ||
がある 。 | がある 。 | ||
この計算論モデルは[[wj:C++|C++]]ソフトウェアとして、[http://ilab.usc.edu/toolkit/ 南カリフォルニア大学Ittiラボ]より、ソースが[[wj:GNU General Public License|GNU General Public License]]に基づいて入手できるようになっている。 | |||
このソフトウェアを使って図1の画像のサリエンシーを計算したのが図3となる。 | |||
ほかにも[[wj:Matlab|Matlab]]でのサリエンシー・マップを計算するプログラムとして以下のものがwebから入手可能である。 | |||
* [http://www.saliencytoolbox.net/ SaliencyToolbox] | * [http://www.saliencytoolbox.net/ SaliencyToolbox] | ||
* [http://www. | * [http://www.vision.caltech.edu/~harel/share/gbvs.php Graph-Based Visual SaliencyおよびItti, Koch, Nieburのサリエンシー・マップ] | ||
* [http://www.cse.oulu.fi/CMV/Downloads/saliency Matlab codes for measuring image saliency] | * [http://www.cse.oulu.fi/CMV/Downloads/saliency Matlab codes for measuring image saliency] | ||
2017年2月8日 (水) 00:15時点における最新版
吉田 正俊
自然科学研究機構生理学研究所 発達生理学研究系・認知行動発達研究部門
DOI:10.14931/bsd.3007 原稿受付日:2012年12月21日 原稿完成日:2017年2月7日
担当編集委員:田中 啓治(独立行政法人理化学研究所 脳科学総合研究センター)
英語名:saliency
類語・同義語:顕著性、サリエンス(salience)、セイリエンス(salience)、セイランシー
感覚刺激が刺激の時間的または空間的配置によってボトムアップ性注意を誘引する特性を「サリエンシー」と呼ぶ。「サリエンシー・マップ」とは、視覚刺激のサリエンシーを計算して単一の二次元マップとして表現したもののことを指す。これは計算論的概念であって、脳にサリエンシー・マップが表現されている保証はない。しかしながら、サリエンシー・マップが表象されている部分としてこれまでに、一次視覚野(primary visual cortex: V1)、上丘、視床枕、Lateral intraparietal area (LIP)、frontal eye field (FEF) などがその候補としてあげられている。
サリエンシーとは
もし夜空に月が光っていれば月にすぐに目が向くだろう。これは月が目立つ(salient)からだ。このように感覚刺激がボトムアップ性注意を誘引する特性を「サリエンシー」と呼ぶ。 夜の月がsalientであるのは周りの空と比べて明るいからであって、昼の月はsalientではない。つまり、サリエンシーは刺激の時間的または空間的配置によって決定づけられるものであって、その刺激自体の特性ではない。明るいスクリーンに暗い部分があればそこはsalientになる。つまり刺激強度が高いこと(たとえば輝度が高いこと)とサリエンシーが高いことは等価ではない。
しかし、一般名詞としてsalience / saliencyという言葉を(物理的な強度と対比させて)心理的な強度自体を表していることもあり、かならずしも上記の用法で統一されているとは言えない。
視覚探索
サリエンシーは、心理学的研究においては、視覚探索におけるpop-outという概念と関連している。
図1の三つの刺激でそれぞれ仲間はずれの要素を見つけなさい、と問われたとしたら、左と真ん中の二つの図ではひとめで見つかるのに対して、右の図ではなかなか難しい。これは左の図では色特徴でpop-outするから、真ん中の図では傾きの特徴でpop-outするから、と表現される。
このような知見を元にしてAnn Triesmanは注意の「特徴統合理論」(feature integration theory)を作り上げた[1]。特徴統合理論では、視野像は各特徴(輝度、色、傾きなど)ごとに並行して処理され、それらの特徴が最終的に統合される。よって、図1左の色のpop-out刺激では、色特徴の処理の段階で仲間はずれを検出することが出来るので処理が速いのだが、図1右のconjunction searchでは統合された情報を探索しなければならないために処理が遅くなる、と説明される。
視覚でのpop-outに類似した現象として、聴覚の心理学ではoddball paradigmというものが用いられる。このoddball paradigmでは、ピ、ピ、ピと連続する純音刺激に違う周波数の純音が混ざったり、または音が鳴らなかった場合(deviantsと呼ばれる)にはその時に注意が誘引される。この場合は空間ではなくて、時間的配列がボトムアップ性注意を誘引する例と言える。
サリエンシー・マップ
saliency map
特徴統合理論はあくまで心理学的な理論であったが、計算論的立場からどのようにボトムアップ性注意が計算されているかを説明するモデルとして「サリエンシー・マップ」が提唱された[2]。
サリエンシー・マップとは、特徴に依存しない視覚刺激のサリエンシーをスカラー量として計算して、二次元マップとして表現したもののことを指す。
サリエンシー・マップの機能的な特徴としては以下の二つがあげられる。
- 並行処理:特徴統合理論からの影響を受けているため、サリエンシーはまず各特徴ごとに計算されて、特徴マップを作る。
- Winner-take-allルール:これら複数の特徴マップが足しあわされて計算されたサリエンシー・マップの中からいちばんサリエンシーの高い部分が選択される。
Koch and Ulman[2]においてはあくまで計算の原理のモデルであったのだが、それを実際の画像から計算できるようなモデルとして実現したのがItti, Koch and Neiburによるサリエンシー計算論モデルだった(図2)[3]。
このモデルのアルゴリズムレベルでの特色としては、
- 各特徴ごとのサリエンシーを計算するため、center-surround抑制を用いる。
- さまざまな解像度(pyramids)でこの作業を並行して行う(画像処理の分野でのmulti-scale representationに対応) 。
- 以上の操作を繰り返して正規化する(iterative normalization)。
がある 。
この計算論モデルはC++ソフトウェアとして、南カリフォルニア大学Ittiラボより、ソースがGNU General Public Licenseに基づいて入手できるようになっている。
このソフトウェアを使って図1の画像のサリエンシーを計算したのが図3となる。
ほかにもMatlabでのサリエンシー・マップを計算するプログラムとして以下のものがwebから入手可能である。
- SaliencyToolbox
- Graph-Based Visual SaliencyおよびItti, Koch, Nieburのサリエンシー・マップ
- Matlab codes for measuring image saliency
Itti, Koch and Neibur[3]以降、サリエンシー・マップはさまざまな実装が報告されており、たとえば三次元への拡張、トップダウン注意への拡張などcomputational visionにおいて重要な分野の一つとなっている。
サリエンシーの脳内表象
サリエンシー・マップはあくまで計算論的概念であるので、脳にサリエンシー・マップが表現されている保証はない。オリジナルの定義からすればサリエンシー・マップは単一のものであるはずだが、複数の処理レベルのサリエンシー・マップが脳内で分散して表現されていると主張しているものもある (たとえば[5])。
サリエンシーが表象されている部分としてこれまでに、一次視覚野 (primary visual cortex: V1)[6]、上丘[7]、視床枕[8]、Lateral intraparietal area (LIP)[9]、frontal eye field (FEF)[10]、第4次視覚野 (V4)[11]などがその候補として挙げられている。
サリエンシー・マップの応用
画像や映像を見ているときの視覚探索をサリエンシー・マップによって予測するという一連の研究がある。そのなかではたとえば視覚探索時の眼球運動のデータから注意欠陥・多動性障害 (Attention Deficit Hyperactivity Disorder, ADHD)患者やパーキンソン病患者を分類することに成功したもの[12]やマカクザルの視覚探索時の眼球運動のデータから第一次視覚野損傷の影響を解明したもの[13]などがある。
関連項目
参考文献
- ↑
Treisman, A.M., & Gelade, G. (1980).
A feature-integration theory of attention. Cognitive psychology, 12(1), 97-136. [PubMed:7351125] [WorldCat] - ↑ 2.0 2.1 2.2
Koch, C., & Ullman, S. (1985).
Shifts in selective visual attention: towards the underlying neural circuitry. Human neurobiology, 4(4), 219-27. [PubMed:3836989] [WorldCat] - ↑ 3.0 3.1 3.2 L. Itti, C. Koch, & E. Niebur
A Model of Saliency-Based Visual Attention for Rapid Scene Analysis.
IEEE Transactions on Pattern Analysis and Machine Intelligence: 1998, 20(11):1254-1259. - ↑
Veale, R., Hafed, Z.M., & Yoshida, M. (2017).
How is visual salience computed in the brain? Insights from behaviour, neurobiology and modelling. Philosophical transactions of the Royal Society of London. Series B, Biological sciences, 372(1714). [PubMed:28044023] [PMC] [WorldCat] [DOI] - ↑
Navalpakkam, V., & Itti, L. (2005).
Modeling the influence of task on attention. Vision research, 45(2), 205-31. [PubMed:15581921] [WorldCat] [DOI] - ↑
Li, Z. (2002).
A saliency map in primary visual cortex. Trends in cognitive sciences, 6(1), 9-16. [PubMed:11849610] [WorldCat] - ↑
Kienzle, W., Franz, M.O., Schölkopf, B., & Wichmann, F.A. (2009).
Center-surround patterns emerge as optimal predictors for human saccade targets. Journal of vision, 9(5), 7.1-15. [PubMed:19757885] [WorldCat] [DOI] - ↑
Robinson, D.L., & Petersen, S.E. (1992).
The pulvinar and visual salience. Trends in neurosciences, 15(4), 127-32. [PubMed:1374970] [WorldCat] [DOI] - ↑
Gottlieb, J.P., Kusunoki, M., & Goldberg, M.E. (1998).
The representation of visual salience in monkey parietal cortex. Nature, 391(6666), 481-4. [PubMed:9461214] [WorldCat] [DOI] - ↑
Thompson, K.G., & Bichot, N.P. (2005).
A visual salience map in the primate frontal eye field. Progress in brain research, 147, 251-62. [PubMed:15581711] [WorldCat] [DOI] - ↑
Reynolds, J.H., & Desimone, R. (2003).
Interacting roles of attention and visual salience in V4. Neuron, 37(5), 853-63. [PubMed:12628175] [WorldCat] [DOI] - ↑
Tseng, P.H., Cameron, I.G., Pari, G., Reynolds, J.N., Munoz, D.P., & Itti, L. (2013).
High-throughput classification of clinical populations from natural viewing eye movements. Journal of neurology, 260(1), 275-84. [PubMed:22926163] [WorldCat] [DOI] - ↑
Yoshida, M., Itti, L., Berg, D.J., Ikeda, T., Kato, R., Takaura, K., ..., & Isa, T. (2012).
Residual attention guidance in blindsight monkeys watching complex natural scenes. Current biology : CB, 22(15), 1429-34. [PubMed:22748317] [WorldCat] [DOI]