目的指向行動のソースを表示
←
目的指向行動
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
目的指向行動 英:Goal-directed behavior/Goal-oriented behavior 報酬の獲得など、特定の目的を達成するための行動を目的指向行動と呼び、行動(response)とそれによりもたらされる結果(outcome)の二者間の連合学習により形成される。目的指向行動は目的達成を動機づけとした意識的な行動であり、置かれた状況が変化した場合でも柔軟に行動を変化させて対応することが可能である。目的指向行動の学習、遂行には意思決定や報酬予測に関連する脳領域が重要な働きを担っており、これらの脳領域が障害される神経・精神疾患においては目的指向行動の障害に起因する様々な行動異常が出現する。 定義 目的指向行動とは、ある行動とその結果の関連性(Response-Outcome association)を学習するR-O連合学習により形成される行動様式であり、目的達成のための意思決定の下、行動が遂行される。該当する行動の範囲は広く、「テレビを見るためにリモコンスイッチを押す」といった単純な動作から、「大学合格のために勉強をする」といった長期的な目標へ向けた複雑な認知/行動プロセスを必要とするものまで多様である。また、自転車の運転など、意識的な制御をあまり必要としない技能や習慣行動も、行動の学習初期は意識的な目的指向行動として学習され、その後反復して行うことでより自動的な応答として確立されると考えられている。この場合、自動的な応答の確立には、特定の状況刺激と行動の連関(Stimulus-Response relationship)の学習(S-R連合学習)が行われていると考えられている。多くの場合、R-O連合学習により形成される目的指向行動と、S-R連合学習により形成される習慣行動は対をなす概念として議論される。 特徴 行動選択の柔軟性 多くの場合、R-O連合学習では選択可能な行動のうち、様々な条件においてどの行動をとることが目的達成への最適解か、という心的モデルが形成されると考えられている<ref name=Dolan2013><pubmed>24139036</pubmed></ref>。こうしたモデルは、現在の状況から目標へのナビゲーションを行うといった点から、Tolmanが提唱した心的な空間表象に倣って認知地図(cognitive map)と呼ばれる<ref name=Tolman1948><pubmed>18870876</pubmed></ref>。(または、行動と想定される結果を網羅的に樹形図として表わした決定木(decision tree)と呼ばれる場合もある。)目的指向行動を実行する際は、こうした心的モデルから状況に合わせた最適な行動が選択されるため、状況の変化に応じて行動を柔軟に変化させることができる。また、既存のモデルから逸脱した結果が得られた場合には、新しいR-O連関の学習、モデルの切り替えを柔軟に行うことができる。 例えば、先述の「テレビを見るためにリモコンスイッチを押す」といった行動では、「テレビを見る」という目的達成のためには、「手元のリモコンスイッチを押して電源を入れる」という行動が最適であるが、もしリモコンが壊れていた場合、(テレビ本体にもスイッチがあるという知識があれば)「テレビ本体の電源スイッチを押して電源を入れる」という別解をとることができる。 価値への依存 目的指向行動の動機は目的の達成であり、動機の強弱は目的の価値に依存する。つまり、行動するコストと得られるメリットのつり合いが取れなくなった場合、目的指向行動は実行されない。こうした相対的な目的の価値低下による目的指向行動の抑制は、強い嫌悪刺激などによる負の強化が起こらない限りは一過性であり、目的の価値が再上昇することで目的指向行動が再度実行されるようになる。 例えば、「見たいテレビ番組がない」状態では、「テレビを見る」という目的の価値は低下し、「リモコンスイッチを押す」という行動が実行されることはないが、番組が切り替わり見たい番組が開始されると「次の番組が見たい」という動機の下、目的の価値が上昇し、「リモコンスイッチを押す」という行動が実行される。 認知的コスト 上記の通り、目的指向的な意思決定においては、行動の度に最適解の計算や価値判断が行われるため、認知的なコストは高く、意思決定に必要な時間は自動的な応答と比較すると遅い。 目的指向性を評価する実験的手法 目的指向行動の実験的な評価は、R-O連合学習の評価(学習・遂行機能の評価)と学習済みの行動における目的指向性の評価(遂行様式の評価)に大別される。R-O学習には、オペラント条件付け(operant conditioning もしくは 道具的条件付けinstrumental conditioning)を用いた強化学習法が主に用いられる。強化された行動を示す速度や回数、正確性などからR-O学習機能や学習の効率などが評価される。こうした行動課題の学習・遂行は、記憶力、報酬予測・評価能力、注意力、衝動性など様々な要因の影響を受けるため、目的とする評価項目に合わせて実験パラダイムの工夫が必要である。特に、神経精神疾患患者や病態モデル動物では、これらの機能自体に障害が認められる場合があり、その場合は強化学習に依存しない試験系の併用によるR-O連合学習障害の原因検証が必要となることもある。 一方で、目的指向性の評価は、連合学習の結果形成された行動が目的指向行動としての特徴を備えているのかどうかを目的指向性と対をなす概念である習慣的行動選択との対比、または心的モデルの有無(model-based/model-free learning)といった文脈で議論されることが多い。心的モデルの有無で議論が行われる場合は、R-O連合学習は心的モデルの形成を伴うことから、多くの場合ではmode-basedの場合を目的指向行動、model-freeの場合を習慣行動と見なしてる。(一方で、model-free=習慣という分類は必ずしも常には成立しないとして、価値判断の有無など、別の指標から習慣行動を分類する試みもなされている<ref name=Miller2019><pubmed>30676040</pubmed></ref>。) 目的指向/習慣、model-based/model-freeのどちらの文脈においても、対立する2つの性質は独立ではなくスペクトラム状になっており、被検個体の行動がスペクトラムのどの位置に分布するのか、の相対的評価が主目的となる。こちらの試験においても、記憶力、報酬予測・評価能力、注意力、衝動性などの影響を受けるため、結果の解釈には一定の注意が必要となる。以降は、目的指向性の評価に用いられる代表的な試験系について紹介する。 価値減弱試験 目的指向行動の動機である目的(報酬)の価値を低下させたときに行動の実行が抑制されるかどうかで目的指向性を評価する手法を価値減弱試験(outcome devaluation test)と呼ぶ。例えば、オペラント条件付けにより、レバーを押すと報酬としてエサが獲得できるという学習を行った個体に対し、レバー押し実験前に報酬のエサを自由に摂食させると、満腹によってエサの報酬価値は相対的に低下する(devaluation)。この条件でレバー押し実験を行った時のレバー押し回数を、devaluationを行っていない条件でのレバー押し回数と比較する。仮に、実験個体のレバー押し行動が目的指向的であった場合、レバー押し行動(response)の動機はエサの獲得という結果(outcome)の相対的価値に依存するため、エサの報酬価値が低下するとレバー押し回数は減少すると予測される。一方で、習慣的にレバー押しを行っていた場合は、レバー押し実験装置への移動という状況刺激(stimulus)に応答してレバー押し行動(response)を行うというS-R連関に従っており、報酬価値の変動には影響されにくい。よって、devaluationによるレバー押し回数の変動は、目的指向行動と比較して小さくなる。 比較的単純な試験デザインであることから、げっ歯類でも行いやすい試験方法であり、破壊実験、オプトジェネティクスやケミカルジェネティクスを用いた神経活動操作、Ca2+インジケーターを用いたin vivo神経活動記録などの多くの検討が行われている。眼窩前頭皮質、内側前頭前皮質、島皮質、線条体、視床、扁桃体基底外側部、海馬など、様々な脳領域がdevaluationに対する感受性に関与することが報告されている<ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Tran-Tu-Yen2009><pubmed>19614748</pubmed></ref><ref name=Smith2012><pubmed>23112197</pubmed></ref><ref name=Hart2016><pubmed>27881782</pubmed></ref>。 R-O連関変更時の柔軟性の評価 学習済みのR-O連関を実験的に変化させた場合に、既存のR-O連関に起因する行動の減弱、および新しいR-O連関の学習が認められるか否かで柔軟性/固執性を評価する。目的指向行動では、行動に対して予測した結果が得られなかったり、学習した行動が取れなくなったりした際に目的達成のために柔軟な行動変化が行われるが、習慣的に行動する個体では行動変化は緩やかである。R-O連関を実験的に変化させる手法は様々であり、選択式課題において正解の選択肢を変化させるreversal learning試験、学習済みのresponseを起こしてもoutcomeを提示しないcontingency degradation試験(またはextinction試験)、responseを起こさないことによりoutcomeが提示されるomission試験などが行われる。これらの評価系においても、目的指向性、習慣性の発現には、眼窩前頭皮質、内側前頭前皮質、線条体、扁桃体基底外側部などの関与が報告されている<ref name=Zimmermann2018><pubmed>29326434</pubmed></ref> <ref name=Whyte2019><pubmed>30940719</pubmed></ref>。 Three-Phase Instrumental Learning Task (Slips-of-Action test) Slips-of-Actionとは、意図した行動とはうっかり違う行動をとってしまう、という実行機能のエラーを表す心理学用語であり、習慣的な行動をとる際に出現しやすい。そこで、認知行動課題におけるSlips-of-Actionの発生を評価することで、被験者の意思決定が目的指向的/習慣的であるかどうかを相対的に評価する。この課題では、既に存在する行動の目的指向性評価ではなく、新たに学習した行動の目的指向性/習慣性の評価を行うものであり、被験者の意思決定特性(連合学習が行われる際にR-O連関、S-R連関のどちらが優位であるか)の評価として行われる。 主にヒトもしくは非ヒト霊長類の試験で用いられる課題であり、モニターに表示された画像に応じて手元のスイッチ(左右2つ)を押し分けることで報酬を獲得するという基本パラダイムの下、3つの段階により進行する<ref name=Gillan2011><pubmed>21572165</pubmed></ref>。 第一段階(図1A,B)では、「始めに提示される画像(stimulus)」、「正解のスイッチ(左右どちらか)(response)」、「結果の画像提示(outcome)」の関係性を試行錯誤により学習する。例えば、図に示すように、「ブドウ」が提示された試行では、「右のスイッチ」を押すと「サクランボ」の画像が表示され、報酬獲得となる。左のスイッチを押した場合はエラーとなり結果の画像に対応する果物は表示されない。このようにして「ブドウ(stimulus)」「右スイッチ(response)」「サクランボ(outcome)」のS-R-O連関を、複数の果物の組み合わせで学習させる。 第二段階(図1C)では、左右のスイッチに対応する「outcome画像」がそれぞれ1つずつ提示される。そのどちらかは、例えば×印の様に報酬無しの目印がつけられている(devaluation)。被験者は、第一段階で学習したS-R-O連関の中から、目印のない方の「outcome画像」に対応したスイッチを押すことで報酬が得られる。第三段階へのバイアスをなくすため、全ての「outcome画像」に対してdevaluationが行われる。この段階では、報酬無しの目印の学習に加え、第一段階で学習したS-R-O連関の確認が行われる。S-R-O連関の難易度が高いほど正答率は低下することが予測される。(ミカン-右-パイン、パイン-左-ミカンの様に類似の連関が存在する場合は難易度が高く、正解率は低くなる。) 第三段階(図1D)では、第一段階で学習したS-R-O連関の「outcome画像」すべてが最初に提示される。そのうちいくつかには第二段階で学習した報酬無しの目印(×)がつけられている。続いて、「stimulus画像」が一つだけ提示される。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされていなければ、被験者は対応するスイッチを押すことで報酬が得られる。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされている場合は、スイッチを押さずに待機する必要があり、スイッチを押した場合は罰が与えられる。この時、「stimulus画像」の提示は短時間に設定されており、反応を急ぐことでエラーが起こりやすくなっている。S-R連関に依存した習慣的な意思決定が優位な場合、devaluationの有無にかかわらず「stimulus画像」の提示により対応したスイッチを押すresponseが行われやすい(Slips-of-Action)。第一段階、第二段階のスコアに差がない、つまりS-R-O連関の学習は正しく行われているにもかかわらず、第三段階でSlips-of-Actionの発生率が増えた場合、その被験者はより習慣的な意思決定に依存しやすいという考察が可能である。 健常者と患者の比較など、条件の異なる被験者集団間の比較に用いられ、強迫性障害、トゥーレット障害といった精神疾患患者やストレス負荷、睡眠妨害、セロトニンおよびドパミン欠乏状態によって習慣的な意思決定が優位となることが報告されている<ref name=Gillan2011><pubmed>21572165</pubmed></ref><ref name=Delorme2016><pubmed>26490329</pubmed></ref> <ref name=Smeets2019><pubmed>29807661</pubmed></ref> <ref name=Worbe2015><pubmed>25663044</pubmed></ref><ref name=Chen2017><pubmed>29109237</pubmed></ref> 。 Two-Step Sequential Decision-Making Task Slips-of-Action testと同様に主にヒトもしくは非ヒト霊長類の試験で用いられる課題であり、モニターに表示された画像に応じて手元のスイッチ(左右2つ)を押し分けることで報酬を獲得するという基本パラダイムは共通するが、こちらの課題では正解の選択があらかじめ明示されることはない。また、画像の提示や報酬の有無を含めたresponseは確立によって変動するなど、被験者に明確なルールが分からないように設計されている。このように正解の不確かな課題に対する行動戦略が心的モデルあり(model-based)かモデルなし(model-free)かを評価する <ref name=Daw2011><pubmed>21435563</pubmed></ref>。 この課題は2つの段階で構成された試行を繰り返し行う。試行の各段階では、それぞれに2種類の画像選択肢の提示と被験者による一方の選択が行われる(図2)。第一段階目に表示される画像選択肢は固定(緑の背景)であり、被験者は任意の画像を選択することができる。第二段階目で表示される画像選択肢は2パターン存在し(ピンクまたは青の背景)、被験者が第一段階で選択した画像によりどちらに遷移するかの確立が変動する。例えば、第一段階目で右を選んだ場合、70%の確率で青、30%の確率でピンクの選択肢へ遷移する。左を選んだ場合は、反対に70%の確率でピンク、30%の確率で青の選択肢へ遷移する。この時、確立の高い方へ遷移した場合を“common”低い方へ遷移した場合を“rare”と呼称する<ref name=Daw2011><pubmed>21435563</pubmed></ref>。 第二段階でも同様に、被験者は提示された画像選択肢のどちらかを選択する。各選択肢には、選択された場合に報酬獲得となる確率が独立して設定されており、それに従って報酬の有無が決定される。この確率は、ランダムウォークにより変動しており、課題の序盤と終盤では報酬獲得の期待値が大きく変動する場合もある。各試行において報酬が獲得された場合を“rewarded (win)”、獲得されなかった場合を“unrewarded (lose)”と呼称する。 この課題の評価には、N回目の試行のcommon/rare、rewarded/unrewardedの組み合わせと、N+1回目の試行の第一段階の選択がN回目と同じ(stay)かどうか、を主に用いる。Model-free型のアルゴリズムを用いてこの課題のシミュレーションを行った場合、N回目の画面遷移がcommon/rareに関わらずrewardedであればstay率が高く、unrewardedであればstay率が低い結果となる。これは、model-free型では第一段階の選択による画面遷移の確率を考慮せず、報酬獲得に結びついた選択だけが強化されるためである。一方でModel-based型のアルゴリズムを用いたシミュレーションでは、common-rewardedとrare-unrewardedの場合に、次の試行のstay確率が高くなる。これは、model-based型では第一段階での選択と画面遷移の因果関係を組み込んだモデル作製が行われており、rare遷移の後に報酬獲得が起こった際には、選ばなかった方の選択肢が強化されるためである。(つまり、rare遷移が繰り返される確率が低いことを予測した選択が行われる。)実際のヒトは、完全なmodel-based/model-free型学習ではなく、その両者が混在した意思決定パターンをとる。そのため、ロジスティック回帰などの手法により2種類の学習の寄与度を求め、被験者間の比較解析に使用する。 この手法では、回帰分析に任意の説明変数を追加することが可能であり、model-based/model-free型学習の寄与度に影響を及ぼす要因の検証を行うことが可能である。各精神疾患関連症状とmodel-based/model-free型学習の寄与を比較解析した研究も行われており、強迫性障害や摂食障害、アルコール依存症のような強迫行為・侵入性思考の精神症状が強く表れる疾患において、model-based型学習の寄与度が低下することが報告されている<ref name=Gillan2016><pubmed>26928075</pubmed></ref>。 目的指向性の発現に関与する脳領域 定義の項目で述べた通り、目的指向行動はR-O連合学習の結果形成される。連合学習における背内側線条体、およびこれを中心とした連合回路(associative circuit)とも呼ばれる皮質-線条体-視床-皮質回路(cortico-striato-thalamo-cortical [CSTC] circuit)の重要性は、実験動物およびヒトの研究の両面から検証されてきた<ref name=Balleine2010><pubmed>19776734</pubmed></ref>。 上述の通り、眼窩前頭皮質や前頭前皮質、背内側線条体の活動性と目的指向的な行動様式の発現の関連性については数多くの報告がなされている<ref name=Yin2005><pubmed>16045504</pubmed></ref><ref name=Gremel2013 />。一方で、各脳領域が関与する段階(R-O学習時に必要か、目的指向性の維持に必要か)や関与様式(神経活動の増加、減少のどちらが目的指向性に寄与するのか)については矛盾した結果も報告されている。例えば、眼窩前頭皮質に関しては、活動抑制によりdevaluation試験おける目的指向性が障害されるという報告と、活性化によりcontingency degradation試験における目的指向性が障害されるという報告の両方が存在する<ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Duan2021><pubmed>34171290</pubmed></ref>。こうした矛盾する結果の要因としては。試験デザインや動物種などが考えられる。先述の通り、目的指向行動の評価試験系はバリエーションが大きいため、注意して考察を行う必要がある。 神経精神疾患による目的指向行動の障害 目的指向行動の実行面での障害 アルツハイマー病やパーキンソン病のような神経変性疾患、脳梗塞や頭部外傷などの脳損傷によって前頭皮質機能に異常がおこると、多くの場合で目的指向行動の実行に障害が発生する。例えば、アパシー(apathy)と呼ばれる症状では、行動への動機づけがうまく行われず、目的指向行動の実行自体が減少する<ref name=Levy2006><pubmed>16207933</pubmed></ref>。前頭皮質は目的指向行動の遂行機能(executive function)にも関与しており、この機能が障害されると、目的指向行動を実行しようとする意図はあるが、計画的、効率的に実行することが困難となる<ref name=Friedman2022><pubmed>34408280</pubmed></ref>。 また、アパシーや遂行機能障害は、うつ病や不安障害、強迫性障害、注意欠陥多動性障害の患者でも発現することがある<ref name=Girotti2018><pubmed>28690203</pubmed></ref>。 目的指向性/習慣性の調節障害 通常、目的指向行動の習慣化には、長期間にわたって同じ行動を反復して行う必要がある。そのため、不利益の大きい行動は習慣化される前に反復が中断され、習慣化されることは稀であるが、一旦習慣化されてしまうと、行動による益・不利益の判断(価値判断)に非依存的となるため、たとえ不利益の大きい行動であっても修正・消去することが困難となる。 近年、こうした不利益・不適切な状況下であっても特定の行動を反復する強迫症状の背景には、行動の習慣化促進が関与する可能性が示唆されている<ref name=Robbins2019><pubmed>30946823</pubmed></ref>。実際に強迫症状を示す疾患(強迫性障害、依存症、摂食障害など)では、model-free型学習への寄与度が大きく、より習慣的な行動を取りやすいことが報告されている<ref name=Gillan2016 / >。 また、年齢によってもmodel-based型学習の寄与度が変化することが知られている。具体的には、幼年期から青年期にかけては年齢とともにmodel-based型学習の寄与度が上昇する一方、青年期と老年期の比較では老年期の方がmodel-based型学習の寄与度が低くなることが報告されている<ref name=Decker2016><pubmed>27084852</pubmed></ref><ref name=Eppinger2013><pubmed>24399925</pubmed></ref> 。
このページで使用されているテンプレート:
テンプレート:Box
(
ソースを閲覧
)
目的指向行動
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
日本語
表示
閲覧
履歴表示
その他
検索
案内
索引
脳科学辞典について
最近完成した項目
編集履歴
執筆にあたって
引用の仕方
著作権について
免責事項
問い合わせ
各学会編集のオンライン用語辞典
About us (in English)
Twitter (BrainScienceBot)
ツール
リンク元
関連ページの更新状況
特別ページ
ページ情報
他のプロジェクト