「習慣行動」の版間の差分

提供:脳科学辞典
ナビゲーションに移動 検索に移動
編集の要約なし
(ページの作成:「英:Habitual behavior 習慣は特定の状況に対して自動的に発現する行動パターンであり、状況刺激(stimulus)とそれに対する行動(response)の二者間のS-R連合学習により形成される。行動(response)とその結果(outcome)のR-O連合学習の結果形成される目的指向行動とは対になる行動様式であり、目的指向的に同じ行動パターンを繰り返すことで、より安定で認知コス…」)
(同じ利用者による、間の3版が非表示)
1行目: 1行目:
<div align="right"> 
英:Habitual behavior  
<font size="+1">[https://researchmap.jp/nozomiasaoka 浅岡 希美]</font><br>
''京都大学 大学院医学研究科 システム神経薬理学分野''<br>
DOI:<selfdoi /> 原稿受付日:2023年5月22日 原稿完成日:2023年5月22日<br>
担当編集委員:[https://researchmap.jp/sadato 定藤 規弘](立命館大学 総合科学技術研究機構 )<br>
</div>
英:habitual behavior  
{{box|text= 習慣は特定の状況に対して自動的に発現する行動パターンであり、状況刺激(stimulus)とそれに対する行動(response)の二者間のS-R連合学習により形成される。行動(response)とその結果(outcome)のR-O連合学習の結果形成される目的指向行動とは対になる行動様式であり、目的指向的に同じ行動パターンを繰り返すことで、より安定で認知コストの少ない習慣行動へと移行する。行動の習慣化は、頻回に行う行動を効率よく行うために有用であるが、一方で、一度形成された習慣行動は修正が困難であり、習慣形成に関与する脳領域に異常を示す中枢神経疾患では不適切な習慣形成が治療上の問題となることがある。}}


==定義==
習慣は特定の状況に対して自動的に発現する行動パターンであり、状況刺激(stimulus)とそれに対する行動(response)の二者間のS-R連合学習により形成される。行動(response)とその結果(outcome)のR-O連合学習の結果形成される目的指向行動とは対になる行動様式であり、目的指向的に同じ行動パターンを繰り返すことで、より安定で認知コストの少ない習慣行動へと移行する。行動の習慣化は、頻回に行う行動を効率よく行うために有用であるが、一方で、一度形成された習慣行動は修正が困難であり、習慣形成に関与する脳領域に異常を示す中枢神経疾患では不適切な習慣形成が治療上の問題となることがある。
 習慣とは、特定の環境や条件などの状況刺激に対して、自動的にとる固定化された行動パターンと定義され、状況刺激とそれに対する行動の二者間の関連性(Stimulus-Response association)を学習するS-R連合学習により形成される<ref name=Dolan2013><pubmed>24139036</pubmed></ref>。習慣が形成されうる行動の範囲は広く、「靴をどちらの足から履くか」といったほぼ無意識的に行われる動作から、「寝る前にストレッチをする」といった能動的な行動を伴うものまで多様である。後者の場合は「就寝前」という条件刺激に対して「ストレッチをしよう」という意思決定が自動的に行われる。また、箸の持ち方や自転車の運転といった技能の獲得や貧乏ゆすりのような癖の形成にも行動の習慣化が関与している。一方で、[[屈筋反射]]のような[[反射行動]]は、自動的な行動であるものの、学習に依らない生得的な行動であるため習慣には分類されない。
 
定義
習慣とは、特定の環境や条件などの状況刺激に対して、自動的にとる固定化された行動パターンと定義され、状況刺激とそれに対する行動の二者間の関連性(Stimulus-Response association)を学習するS-R連合学習により形成される<ref name=Dolan2013><pubmed>24139036</pubmed></ref>[1]。習慣が形成されうる行動の範囲は広く、「靴をどちらの足から履くか」といったほぼ無意識的に行われる動作から、「寝る前にストレッチをする」といった能動的な行動を伴うものまで多様である。後者の場合は「就寝前」という条件刺激に対して「ストレッチをしよう」という意思決定が自動的に行われる。また、箸の持ち方や自転車の運転といった技能の獲得や貧乏ゆすりのような癖の形成にも行動の習慣化が関与している。一方で、屈筋反射のような反射行動は、自動的な行動であるものの、学習に依らない生得的な行動であるため習慣には分類されない。
 
習慣行動と、ある行動とその結果の関連性(Response-Outcome association)の連合学習により形成される目的指向行動とは対をなす概念とされ、目的指向的に同じ行動を繰り返すうちに、行動様式が習慣的なものへと推移していくと考えられている。以降は、目的指向行動との対比から習慣行動の特徴について概説する


 習慣行動と、ある行動とその結果の関連性(Response-Outcome association)の連合学習により形成される[[目的指向行動]]とは対をなす概念とされ、目的指向的に同じ行動を繰り返すうちに、行動様式が習慣的なものへと推移していくと考えられている。以降は、目的指向行動との対比から習慣行動の特徴について概説する


==特徴==
==特徴==
===形成されにくさ===
===形成されにくさ===
 特定の状況における行動とその結果([[stimulus-response-outcome associations|<u>s</u>timulus-<u>r</u>esponse-<u>o</u>utcome associations]]; [[S-R-O連関]])の連合学習により新たな行動を学習する[[道具づけ学習]](instrumental learning)では、行動の結果得られる報酬によりその行動が強化されていく。そのため一般的に、行動学習の際には目的指向的な行動が始めに形成される。こうして学習した目的指向行動が習慣となるには、通常、同じS-R-O連関の下で行動を長期間繰り返し行う必要がある。対象となる行動の複雑さや行動を繰り返す頻度などによって、習慣化に必要な期間は異なる。また、「状況の変化に応じて行動を柔軟に変化できる」という目的指向行動の性質上、行動を繰り返している途中に行動内容が変化したり、意欲の低下から行動自体が行われなくなったりといった可能性もある。こうした点から、通常、習慣行動の形成は目的指向行動よりも困難である。
 特定の状況における行動とその結果(stimulus-response-outcome associations; S-R-O連関)の連合学習により新たな行動を学習する道具付け学習(instrumental learning)では、行動の結果得られる報酬によりその行動が強化されていく。そのため一般的に、行動学習の際には目的指向的な行動が始めに形成される。こうして学習した目的指向行動が習慣となるには、通常、同じS-R-O連関の下で行動を長期間繰り返し行う必要がある。対象となる行動の複雑さや行動を繰り返す頻度などによって、習慣化に必要な期間は異なる。また、「状況の変化に応じて行動を柔軟に変化できる」という目的指向行動の性質上、行動を繰り返している途中に行動内容が変化したり、意欲の低下から行動自体が行われなくなったりといった可能性もある。こうした点から、通常、習慣行動の形成は目的指向行動よりも困難である。


===行動の自動性・安定性===
===行動の自動性・安定性===
 習慣行動は特定の状況に反応して自動的に行動が決定・実行される。これは習慣行動が、stimulus-response-outcome (S-R-O)連関のうち、[[S-R連合学習]]に基づいて行われており、[[R-O連合学習]]に基づく目的指向行動と比較して、習慣行動の実行には動機の強さや目的の価値の変動が行動に影響を与えづらい(≒同じ状況刺激に対してはほぼ決まった行動をとる)からである。そのため、習慣化した行動は、[[意欲]]の低下やコストの増加などによる実行の抑制や中止が起こりづらく、実行者にとって多少コストを要する行動でも、長期間、安定して維持・継続が可能である。例えば、定期的な運動や勉強などは、目的指向行動として実行する間は意欲の低下により容易に継続が中断する(いわゆる飽きる、サボる)が、一旦習慣となると、特段の認知的な強制力がなくとも継続することができる。
習慣行動は特定の状況に反応して自動的に行動が決定・実行される。これは習慣行動が、stimulus-response-outcome (S-R-O)連関のうち、S-R連合学習に基づいて行われており、R-O連合学習に基づく目的指向行動と比較して、習慣行動の実行には動機の強さや目的の価値の変動が行動に影響を与えづらい(≒同じ状況刺激に対してはほぼ決まった行動をとる)からである。そのため、習慣化した行動は、意欲の低下やコストの増加などによる実行の抑制や中止が起こりづらく、実行者にとって多少コストを要する行動でも、長期間、安定して維持・継続が可能である。例えば、定期的な運動や勉強などは、目的指向行動として実行する間は意欲の低下により容易に継続が中断する(いわゆる飽きる、サボる)が、一旦習慣となると、特段の認知的な強制力がなくとも継続することができる。こうした習慣行動の安定性は、有用な行動を継続的に実行するために重要な特徴であるが、一方で、安定であるということは柔軟な対応は行いづらいということでもある。目的指向行動の場合、状況に合わせた最適な行動を考え、状況の変化に応じて行動を柔軟に変化させることができるが、習慣の場合は状況が変化し、それを認識していたとしても、既に形成された習慣行動のパターンを変化させることは難しく、結果として無駄な行動や、不適切な行動を取ってしまうこともありうる。
 
 こうした習慣行動の安定性は、有用な行動を継続的に実行するために重要な特徴であるが、一方で、安定であるということは柔軟な対応は行いづらいということでもある。目的指向行動の場合、状況に合わせた最適な行動を考え、状況の変化に応じて行動を柔軟に変化させることができるが、習慣の場合は状況が変化し、それを認識していたとしても、既に形成された習慣行動のパターンを変化させることは難しく、結果として無駄な行動や、不適切な行動を取ってしまうこともありうる。
 
 例えば、「リビングに来たらリモコンでテレビの電源を入れる」という習慣が形成されている場合、もしリモコンが壊れていて、それを知っていたとしても、リビングに入れば無意識的にテレビのリモコンを操作してしまうことがある。これは、「リビングに入る」という条件刺激に対して、自動的に「リモコンを操作する」という意思決定が行われ、その意思決定に「リモコンは壊れている」という状況変化を反映させることができていないためである。
 
===低い認知的コスト===
 習慣により実行される行動は、過去同じ刺激に対して行った行動の繰り返しであり、行動内容は固定化され変化は少ない。そのため、行動の度に最適解の計算や価値判断を行う目的指向行動と比較すると、意思決定における[[認知的コスト|認知的なコスト]]は低く、行動が実行されるまでの時間も短い。行動の選択肢が多い場合(例:沢山の番組から視聴する番組を選ぶ)や使用できる認知的リソースが少ない場合(例:複数の行動を並行して行うとき)など、目的指向的な意思決定では[[行動選択]]に時間がかかったり、最適解の計算が困難である場面では、認知的なコストの低い習慣的意思決定の方が有利である。
 
==実験手法==
 習慣形成の評価は、連合学習の結果形成された行動が習慣行動としての特徴を備えているのかどうかを、対をなす概念である目的指向行動との対比、または[[心的モデル]]の有無(model-based/model-free learning)といった文脈で議論されることが多い。心的モデルの有無で議論が行われる場合は、R-O連合学習は心的モデルの形成を伴うことから、多くの場合ではmode-basedの場合を目的指向行動、model-freeの場合を習慣行動と見なしている。(一方で、model-free=習慣という分類は必ずしも常には成立しないとして、価値判断の有無など、別の指標から習慣行動を分類する試みもなされている<ref name=Miller2019><pubmed>30676040</pubmed></ref>。)
 
 目的指向/習慣、[[model-based]]/[[model-free]]のどちらの文脈においても、対立する2つの性質は独立ではなくスペクトラム状になっており、被検個体の行動がスペクトラムのどの位置に分布するのか、の相対的評価が主目的となる。試験においては、習慣形成機能だけではなく、[[記憶]]力、[[報酬予測]]・評価能力、[[注意]]力、[[衝動]]性などが総合的に行動に影響を与えるため、結果の解釈には一定の注意が必要となる。以降は、目的指向性/習慣性の評価に用いられる代表的な試験系について紹介する。
 
=== 価値減弱試験 ===
 目的指向行動の動機である目的(報酬)の価値を低下させたときに行動の実行が抑制されるかどうかで目的指向性/習慣性を評価する手法を[[価値減弱試験]]([[outcome devaluation test]])と呼ぶ。例えば、[[オペラント条件づけ]]により、レバーを押すと報酬としてエサが獲得できるという学習を行った個体に対し、レバー押し実験前に報酬のエサを自由に摂食させると、満腹によってエサの報酬価値は相対的に低下する(devaluation)。この条件でレバー押し実験を行った時のレバー押し回数を、devaluationを行っていない条件でのレバー押し回数と比較する。仮に、実験個体のレバー押し行動が目的指向的であった場合、レバー押し行動(response)の動機はエサの獲得という結果(outcome)の相対的価値に依存するため、エサの報酬価値が低下するとレバー押し回数は減少すると予測される。一方で、習慣的にレバー押しを行っていた場合は、レバー押し実験装置への移動という[[状況刺激]](stimulus)に応答してレバー押し行動(response)を行うというS-R連関に従っており、報酬価値の変動には影響されにくい。よって、devaluationによるレバー押し回数の変動は、目的指向行動と比較して小さくなる。


 比較的単純な試験デザインであることから、げっ歯類でも行いやすい試験方法であり、[[破壊実験]]、[[オプトジェネティクス]]や[[ケモジェネティクス]]を用いた神経活動操作、[[Ca2+インジケーター|Ca<sup>2+</sup>インジケーター]]を用いたin vivo神経活動記録などの多くの検討が行われている。[[眼窩前頭皮質]]、[[内側前頭前皮質]]、[[島]]皮質、[[線条体]]、[[視床]]、[[扁桃体]][[基底外側部]]、[[海馬]]など、様々な脳領域がdevaluationに対する感受性に関与することが報告されている<ref name=Bradfield2017><pubmed>28242795</pubmed></ref><ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Hart2016><pubmed>27881782</pubmed></ref><ref name=O'Hare2016><pubmed>26804995</pubmed></ref><ref name=Parkes2013><pubmed>23678118</pubmed></ref><ref name=Smith2012><pubmed>23112197</pubmed></ref><ref name=Tran-Tu-Yen2009><pubmed>19614748</pubmed></ref><ref name=Vandaele2023><pubmed>36636348</pubmed></ref><ref name=Bradfield2020><pubmed>32778789</pubmed></ref>。
例えば、「リビングに来たらリモコンでテレビの電源を入れる」という習慣が形成されている場合、もしリモコンが壊れていて、それを知っていたとしても、リビングに入れば無意識的にテレビのリモコンを操作してしまうことがある。これは、「リビングに入る」という条件刺激に対して、自動的に「リモコンを操作する」という意思決定が行われ、その意思決定に「リモコンは壊れている」という状況変化を反映させることができていないためである。


=== R-O連関変更時の柔軟性の評価 ===
低い認知的コスト
 学習済みのR-O連関を実験的に変化させた場合に、既存のR-O連関に起因する行動の減弱、および新しいR-O連関の学習が認められるか否かで柔軟性/固執性を評価する。目的指向行動では、行動に対して予測した結果が得られなかったり、学習した行動が取れなくなったりした際に目的達成のために柔軟な行動変化が行われるが、習慣的に行動する個体では行動変化は緩やかである。R-O連関を実験的に変化させる手法は様々であり、選択式課題において正解の選択肢を変化させる[[reversal learning試験]]、学習済みのresponseを起こしてもoutcomeを提示しない[[contingency degradation試験]](または[[extinction試験]])、responseを起こさないことによりoutcomeが提示される[[omission試験]]などが行われる。これらの評価系においても、目的指向性、習慣性の発現には、眼窩前頭皮質、内側前頭前皮質、線条体、扁桃体基底外側部などの関与が報告されている<ref name=Barker2017><pubmed>29302616</pubmed></ref><ref name=Nadel2021><pubmed>34615966</pubmed></ref><ref name=Parkes2013><pubmed>23678118</pubmed></ref><ref name=Whyte2019><pubmed>30940719</pubmed></ref><ref name=Zimmermann2018><pubmed>29326434</pubmed></ref>。
習慣により実行される行動は、過去同じ刺激に対して行った行動の繰り返しであり、行動内容は固定化され変化は少ない。そのため、行動の度に最適解の計算や価値判断を行う目的指向行動と比較すると、意思決定における認知的なコストは低く、行動が実行されるまでの時間も短い。行動の選択肢が多い場合(例:沢山の番組から視聴する番組を選ぶ)や使用できる認知的リソースが少ない場合(例:複数の行動を並行して行うとき)など、目的指向的な意思決定では行動選択に時間がかかったり、最適解の計算が困難である場面では、認知的なコストの低い習慣的意思決定の方が有利である。


=== Three-Phase Instrumental Learning Task ===
[[ファイル:Asaoka 目的指向行動 Fig1.jpg|サムネイル|'''図1. Three-phase instrumental Learning Task''']]
 [[Three-Phase Instrumental Learning Task]] ([[Slips-of-Action test]])とは、意図した行動とはうっかり違う行動をとってしまう、という[[実行機能]]のエラーを表す心理学用語であり、習慣的な行動をとる際に出現しやすい。そこで、認知行動課題におけるSlips-of-Actionの発生を評価することで、被験者の意思決定が目的指向的/習慣的であるかどうかを相対的に評価する。この課題では、既に存在する行動の目的指向性評価ではなく、新たに学習した行動の目的指向性/習慣性の評価を行うものであり、被験者の意思決定特性(連合学習が行われる際にR-O連関、S-R連関のどちらが優位であるか)の評価として行われる。


 主に[[ヒト]]もしくは非ヒト[[霊長類]]の試験で用いられる課題であり、モニターに表示された画像に応じて手元のスイッチ(左右2つ)を押し分けることで報酬を獲得するという基本パラダイムの下、3つの段階により進行する<ref name=Gillan2011><pubmed>21572165</pubmed></ref>。


 第一段階('''図1A,B''')では、「始めに提示される画像(stimulus)」、「正解のスイッチ(左右どちらか)(response)」、「結果の画像提示(outcome)」の関係性を試行錯誤により学習する。例えば、図に示すように、「ブドウ」が提示された試行では、「右のスイッチ」を押すと「サクランボ」の画像が表示され、報酬獲得となる。左のスイッチを押した場合はエラーとなり結果の画像に対応する果物は表示されない。このようにして「ブドウ(stimulus)」「右スイッチ(response)」「サクランボ(outcome)」のS-R-O連関を、複数の果物の組み合わせで学習させる。
==実験的手法==
習慣形成の評価は、連合学習の結果形成された行動が習慣行動としての特徴を備えているのかどうかを、対をなす概念である目的指向行動との対比、または心的モデルの有無(model-based/model-free learning)といった文脈で議論されることが多い。心的モデルの有無で議論が行われる場合は、R-O連合学習は心的モデルの形成を伴うことから、多くの場合ではmode-basedの場合を目的指向行動、model-freeの場合を習慣行動と見なしている。(一方で、model-free=習慣という分類は必ずしも常には成立しないとして、価値判断の有無など、別の指標から習慣行動を分類する試みもなされている<ref name=Miller2019><pubmed>30676040</pubmed></ref>[2]。)


 第二段階('''図1C''')では、左右のスイッチに対応する「outcome画像」がそれぞれ1つずつ提示される。そのどちらかは、例えば×印の様に報酬無しの目印がつけられている(devaluation)。被験者は、第一段階で学習したS-R-O連関の中から、目印のない方の「outcome画像」に対応したスイッチを押すことで報酬が得られる。第三段階へのバイアスをなくすため、全ての「outcome画像」に対してdevaluationが行われる。この段階では、報酬無しの目印の学習に加え、第一段階で学習したS-R-O連関の確認が行われる。S-R-O連関の難易度が高いほど正答率は低下することが予測される(ミカン-右-パイン、パイン-左-ミカンの様に類似の連関が存在する場合は難易度が高く、正解率は低くなる)。
目的指向/習慣、model-based/model-freeのどちらの文脈においても、対立する2つの性質は独立ではなくスペクトラム状になっており、被検個体の行動がスペクトラムのどの位置に分布するのか、の相対的評価が主目的となる。試験においては、習慣形成機能だけではなく、記憶力、報酬予測・評価能力、注意力、衝動性などが総合的に行動に影響を与えるため、結果の解釈には一定の注意が必要となる。以降は、目的指向性/習慣性の評価に用いられる代表的な試験系について紹介する。


 第三段階('''図1D''')では、第一段階で学習したS-R-O連関の「outcome画像」すべてが最初に提示される。そのうちいくつかには第二段階で学習した報酬無しの目印(×)がつけられている。続いて、「stimulus画像」が一つだけ提示される。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされていなければ、被験者は対応するスイッチを押すことで報酬が得られる。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされている場合は、スイッチを押さずに待機する必要があり、スイッチを押した場合は罰が与えられる。この時、「stimulus画像」の提示は短時間に設定されており、反応を急ぐことでエラーが起こりやすくなっている。S-R連関に依存した習慣的な意思決定が優位な場合、devaluationの有無にかかわらず「stimulus画像」の提示により対応したスイッチを押すresponseが行われやすい(Slips-of-Action)。第一段階、第二段階のスコアに差がない、つまりS-R-O連関の学習は正しく行われているにもかかわらず、第三段階でSlips-of-Actionの発生率が増えた場合、その被験者はより習慣的な意思決定に依存しやすいという考察が可能である。
価値減弱試験
目的指向行動の動機である目的(報酬)の価値を低下させたときに行動の実行が抑制されるかどうかで目的指向性/習慣性を評価する手法を価値減弱試験(outcome devaluation test)と呼ぶ。例えば、オペラント条件付けにより、レバーを押すと報酬としてエサが獲得できるという学習を行った個体に対し、レバー押し実験前に報酬のエサを自由に摂食させると、満腹によってエサの報酬価値は相対的に低下する(devaluation)。この条件でレバー押し実験を行った時のレバー押し回数を、devaluationを行っていない条件でのレバー押し回数と比較する。仮に、実験個体のレバー押し行動が目的指向的であった場合、レバー押し行動(response)の動機はエサの獲得という結果(outcome)の相対的価値に依存するため、エサの報酬価値が低下するとレバー押し回数は減少すると予測される。一方で、習慣的にレバー押しを行っていた場合は、レバー押し実験装置への移動という状況刺激(stimulus)に応答してレバー押し行動(response)を行うというS-R連関に従っており、報酬価値の変動には影響されにくい。よって、devaluationによるレバー押し回数の変動は、目的指向行動と比較して小さくなる。


 健常者と患者の比較など、条件の異なる被験者集団間の比較に用いられ、[[強迫性障害]]、[[トゥレット障害]]といった精神疾患患者や[[ストレス]]負荷、[[睡眠]]妨害、[[セロトニン]]および[[ドパミン]]欠乏状態によって習慣的な意思決定が優位となることが報告されている<ref name=Chen2017><pubmed>29109237</pubmed></ref><ref name=deWit2012><pubmed>22134475</pubmed></ref><ref name=Delorme2016><pubmed>26490329</pubmed></ref><ref name=Gillan2011><pubmed>21572165</pubmed></ref><ref name=Smeets2019><pubmed>29807661</pubmed></ref><ref name=Worbe2015><pubmed>25663044</pubmed></ref>。
比較的単純な試験デザインであることから、げっ歯類でも行いやすい試験方法であり、破壊実験、オプトジェネティクスやケミカルジェネティクスを用いた神経活動操作、Ca2+インジケーターを用いたin vivo神経活動記録などの多くの検討が行われている。眼窩前頭皮質、内側前頭前皮質、島皮質、線条体、視床、扁桃体基底外側部、海馬など、様々な脳領域がdevaluationに対する感受性に関与することが報告されている<ref name=Bradfield2017><pubmed>28242795</pubmed></ref><ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Hart2016><pubmed>27881782</pubmed></ref><ref name=O'Hare2016><pubmed>26804995</pubmed></ref><ref name=Parkes2013><pubmed>23678118</pubmed></ref><ref name=Smith2012><pubmed>23112197</pubmed></ref><ref name=Tran-Tu-Yen2009><pubmed>19614748</pubmed></ref><ref name=Vandaele2023><pubmed>36636348</pubmed></ref><ref name=Bradfield2020><pubmed>32778789</pubmed></ref>[3-11]


=== Two-Step Sequential Decision-Making Task ===
R-O連関変更時の柔軟性の評価
[[ファイル:Asaoka 目的指向行動Fig2.jpg|サムネイル|'''図2. Two-Step Sequential Decision-Making Task''']]
学習済みのR-O連関を実験的に変化させた場合に、既存のR-O連関に起因する行動の減弱、および新しいR-O連関の学習が認められるか否かで柔軟性/固執性を評価する。目的指向行動では、行動に対して予測した結果が得られなかったり、学習した行動が取れなくなったりした際に目的達成のために柔軟な行動変化が行われるが、習慣的に行動する個体では行動変化は緩やかである。R-O連関を実験的に変化させる手法は様々であり、選択式課題において正解の選択肢を変化させるreversal learning試験、学習済みのresponseを起こしてもoutcomeを提示しないcontingency degradation試験(またはextinction試験)、responseを起こさないことによりoutcomeが提示されるomission試験などが行われる。これらの評価系においても、目的指向性、習慣性の発現には、眼窩前頭皮質、内側前頭前皮質、線条体、扁桃体基底外側部などの関与が報告されている<ref name=Barker2017><pubmed>29302616</pubmed></ref><ref name=Nadel2021><pubmed>34615966</pubmed></ref><ref name=Parkes2013><pubmed>23678118</pubmed></ref><ref name=Whyte2019><pubmed>30940719</pubmed></ref><ref name=Zimmermann2018><pubmed>29326434</pubmed></ref>[12-16]
 [[Two-Step Sequential Decision-Making Task]]とはSlips-of-Action testと同様に主にヒトもしくは非ヒト霊長類の試験で用いられる課題であり、モニターに表示された画像に応じて手元のスイッチ(左右2つ)を押し分けることで報酬を獲得するという基本パラダイムは共通するが、こちらの課題では正解の選択があらかじめ明示されることはない。また、画像の提示や報酬の有無を含めたresponseは確立によって変動するなど、被験者に明確なルールが分からないように設計されている。このように正解の不確かな課題に対する行動戦略が心的モデルあり(model-based)かモデルなし(model-free)かを評価する<ref name=Daw2011><pubmed>21435563</pubmed></ref>。


 この課題は2つの段階で構成された試行を繰り返し行う。試行の各段階では、それぞれに2種類の画像選択肢の提示と被験者による一方の選択が行われる('''図2''')。第一段階目に表示される画像選択肢は固定(緑の背景)であり、被験者は任意の画像を選択することができる。第二段階目で表示される画像選択肢は2パターン存在し(ピンクまたは青の背景)、被験者が第一段階で選択した画像によりどちらに遷移するかの確立が変動する。例えば、第一段階目で右を選んだ場合、70%の確率で青、30%の確率でピンクの選択肢へ遷移する。左を選んだ場合は、反対に70%の確率でピンク、30%の確率で青の選択肢へ遷移する。この時、確立の高い方へ遷移した場合を“common”低い方へ遷移した場合を“rare”と呼称する。
Three-Phase Instrumental Learning Task (Slips-of-Action test)
Slips-of-Actionとは、意図した行動とはうっかり違う行動をとってしまう、という実行機能のエラーを表す心理学用語であり、習慣的な行動をとる際に出現しやすい。そこで、認知行動課題におけるSlips-of-Actionの発生を評価することで、被験者の意思決定が目的指向的/習慣的であるかどうかを相対的に評価する。この課題では、既に存在する行動の目的指向性評価ではなく、新たに学習した行動の目的指向性/習慣性の評価を行うものであり、被験者の意思決定特性(連合学習が行われる際にR-O連関、S-R連関のどちらが優位であるか)の評価として行われる。
主にヒトもしくは非ヒト霊長類の試験で用いられる課題であり、モニターに表示された画像に応じて手元のスイッチ(左右2つ)を押し分けることで報酬を獲得するという基本パラダイムの下、3つの段階により進行する<ref name=Gillan2011><pubmed>21572165</pubmed></ref>[17]。
第一段階(図1A,B)では、「始めに提示される画像(stimulus)」、「正解のスイッチ(左右どちらか)(response)」、「結果の画像提示(outcome)」の関係性を試行錯誤により学習する。例えば、図に示すように、「ブドウ」が提示された試行では、「右のスイッチ」を押すと「サクランボ」の画像が表示され、報酬獲得となる。左のスイッチを押した場合はエラーとなり結果の画像に対応する果物は表示されない。このようにして「ブドウ(stimulus)」「右スイッチ(response)」「サクランボ(outcome)」のS-R-O連関を、複数の果物の組み合わせで学習させる。


 第二段階でも同様に、被験者は提示された画像選択肢のどちらかを選択する。各選択肢には、選択された場合に報酬獲得となる確率が独立して設定されており、それに従って報酬の有無が決定される。この確率は、ランダムウォークにより変動しており、課題の序盤と終盤では報酬獲得の期待値が大きく変動する場合もある。各試行において報酬が獲得された場合を“rewarded (win)”、獲得されなかった場合を“unrewarded (lose)”と呼称する。
第二段階(図1C)では、左右のスイッチに対応する「outcome画像」がそれぞれ1つずつ提示される。そのどちらかは、例えば×印の様に報酬無しの目印がつけられている(devaluation)。被験者は、第一段階で学習したS-R-O連関の中から、目印のない方の「outcome画像」に対応したスイッチを押すことで報酬が得られる。第三段階へのバイアスをなくすため、全ての「outcome画像」に対してdevaluationが行われる。この段階では、報酬無しの目印の学習に加え、第一段階で学習したS-R-O連関の確認が行われる。S-R-O連関の難易度が高いほど正答率は低下することが予測される(ミカン-右-パイン、パイン-左-ミカンの様に類似の連関が存在する場合は難易度が高く、正解率は低くなる)。


 この課題の評価には、N回目の試行のcommon/rare、rewarded/unrewardedの組み合わせと、N+1回目の試行の第一段階の選択がN回目と同じ(stay)かどうか、を主に用いる。Model-free型のアルゴリズムを用いてこの課題のシミュレーションを行った場合、N回目の画面遷移がcommon/rareに関わらずrewardedであればstay率が高く、unrewardedであればstay率が低い結果となる。これは、model-free型では第一段階の選択による画面遷移の確率を考慮せず、報酬獲得に結びついた選択だけが強化されるためである。一方でModel-based型のアルゴリズムを用いたシミュレーションでは、common-rewardedとrare-unrewardedの場合に、次の試行のstay確率が高くなる。これは、model-based型では第一段階での選択と画面遷移の因果関係を組み込んだモデル作製が行われており、rare遷移の後に報酬獲得が起こった際には、選ばなかった方の選択肢が強化されるためである。(つまり、rare遷移が繰り返される確率が低いことを予測した選択が行われる。)実際のヒトは、完全なmodel-based/model-free型学習ではなく、その両者が混在した意思決定パターンをとる。そのため、[[ロジスティック回帰]]などの手法により2種類の学習の寄与度を求め、被験者間の比較解析に使用する。
第三段階(図1D)では、第一段階で学習したS-R-O連関の「outcome画像」すべてが最初に提示される。そのうちいくつかには第二段階で学習した報酬無しの目印(×)がつけられている。続いて、「stimulus画像」が一つだけ提示される。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされていなければ、被験者は対応するスイッチを押すことで報酬が得られる。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされている場合は、スイッチを押さずに待機する必要があり、スイッチを押した場合は罰が与えられる。この時、「stimulus画像」の提示は短時間に設定されており、反応を急ぐことでエラーが起こりやすくなっている。S-R連関に依存した習慣的な意思決定が優位な場合、devaluationの有無にかかわらず「stimulus画像」の提示により対応したスイッチを押すresponseが行われやすい(Slips-of-Action)。第一段階、第二段階のスコアに差がない、つまりS-R-O連関の学習は正しく行われているにもかかわらず、第三段階でSlips-of-Actionの発生率が増えた場合、その被験者はより習慣的な意思決定に依存しやすいという考察が可能である。


 この手法では、[[回帰分析]]に任意の説明変数を追加することが可能であり、model-based/model-free型学習の寄与度に影響を及ぼす要因の検証を行うことが可能である。各精神疾患関連症状とmodel-based/model-free型学習の寄与を比較解析した研究も行われており、強迫性障害や[[摂食障害]]、[[アルコール依存症]]のような強迫行為・[[侵入性思考]]の精神症状が強く表れる疾患において、model-based型学習の寄与度が低下することが報告されている<ref name=Gillan2016><pubmed>26928075</pubmed></ref>。
健常者と患者の比較など、条件の異なる被験者集団間の比較に用いられ、強迫性障害、トゥーレット障害といった精神疾患患者やストレス負荷、睡眠妨害、セロトニンおよびドパミン欠乏状態によって習慣的な意思決定が優位となることが報告されている<ref name=Chen2017><pubmed>29109237</pubmed></ref><ref name=de Wit2012><pubmed>22134475</pubmed></ref><ref name=Delorme2016><pubmed>26490329</pubmed></ref><ref name=Gillan2011><pubmed>21572165</pubmed></ref><ref name=Smeets2019><pubmed>29807661</pubmed></ref><ref name=Worbe2015><pubmed>25663044</pubmed></ref>[17-22]


== 関与する脳領域 ==
Two-Step Sequential Decision-Making Task
 定義の項目で述べた通り、習慣行動は目的指向行動を反復することで徐々に形成されていく。こうした行動様式の推移は、神経科学的には目的指向性を担う脳領域から習慣性を担う脳領域へと、行動時に神経活動が優位となる領域が推移することに起因すると考えられている。中でも、[[皮質-線条体-視床-皮質回路]]([[cortico-striato-thalamo-cortical circuit|cortico-striato-thalamo-cortical [CSTC] circuit]])のうち、連合学習を担う[[背内側線条体]]を含む回路(associative circuit)から、運動機能を担う背外側線条体を含む回路(motor circuit)へと優位な神経回路が推移することが習慣形成に中心的な役割を担っている<ref name=Lipton2019><pubmed>31379523</pubmed></ref>。
Slips-of-Action testと同様に主にヒトもしくは非ヒト霊長類の試験で用いられる課題であり、モニターに表示された画像に応じて手元のスイッチ(左右2つ)を押し分けることで報酬を獲得するという基本パラダイムは共通するが、こちらの課題では正解の選択があらかじめ明示されることはない。また、画像の提示や報酬の有無を含めたresponseは確立によって変動するなど、被験者に明確なルールが分からないように設計されている。このように正解の不確かな課題に対する行動戦略が心的モデルあり(model-based)かモデルなし(model-free)かを評価する<ref name=Daw2011><pubmed>21435563</pubmed></ref>[23]


 こうした目的指向性対習慣性の構造は前頭前皮質内の亜領域間である[[前辺縁皮質]]([[prelimbic cortex]])と[[下辺縁皮質]]([[infralimbic cortex]])の間でも議論されており、前辺縁皮質が目的指向性、下辺縁皮質が習慣性の発現に関与している<ref name=Smith2012><pubmed>23112197</pubmed></ref><ref name=Hart2018><pubmed>30056856</pubmed></ref>。前辺縁皮質は背内側線条体へと投射する一方、下辺縁皮質は[[側坐核]]に投射し背外側線条体への投射はほとんど検出されていない。そのため、下辺縁皮質と背外側線条体(およびmotor circuit)は習慣性の発現・維持に対し異なる役割を担う可能性が示唆されている<ref name=Smith2013><pubmed>23810540</pubmed></ref>。
この課題は2つの段階で構成された試行を繰り返し行う。試行の各段階では、それぞれに2種類の画像選択肢の提示と被験者による一方の選択が行われる(図2)。第一段階目に表示される画像選択肢は固定(緑の背景)であり、被験者は任意の画像を選択することができる。第二段階目で表示される画像選択肢は2パターン存在し(ピンクまたは青の背景)、被験者が第一段階で選択した画像によりどちらに遷移するかの確立が変動する。例えば、第一段階目で右を選んだ場合、70%の確率で青、30%の確率でピンクの選択肢へ遷移する。左を選んだ場合は、反対に70%の確率でピンク、30%の確率で青の選択肢へ遷移する。この時、確立の高い方へ遷移した場合を“common”低い方へ遷移した場合を“rare”と呼称する。


 実験手法の項目で述べた通り、眼窩前頭皮質や前頭前皮質、背側線条体の活動性と目的指向性/習慣性の発現との関連性については数多くの報告がなされている<ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Whyte2019><pubmed>30940719</pubmed></ref>
第二段階でも同様に、被験者は提示された画像選択肢のどちらかを選択する。各選択肢には、選択された場合に報酬獲得となる確率が独立して設定されており、それに従って報酬の有無が決定される。この確率は、ランダムウォークにより変動しており、課題の序盤と終盤では報酬獲得の期待値が大きく変動する場合もある。各試行において報酬が獲得された場合を“rewarded (win)”、獲得されなかった場合を“unrewarded (lose)”と呼称する。
<ref name=Zimmermann2018><pubmed>29326434</pubmed></ref><ref name=Valentin2007><pubmed>17428979</pubmed></ref>。一方で、その関与様式(神経活動の増加、減少のどちらが習慣行動に寄与するのか)については矛盾した結果も報告されている。例えば、眼窩前頭皮質に関しては、活動抑制によりdevaluation試験おける目的指向性が障害されるという報告と、活性化によりcontingency degradation試験における目的指向性が障害されるという報告の両方が存在する<ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Duan2021><pubmed>34171290</pubmed></ref>。こうした矛盾する結果の要因としては。試験デザインや動物種などが考えられる。先述の通り、目的指向行動の評価試験系はバリエーションが大きいため、注意して考察を行う必要がある。


==目的指向性/習慣性の調節障害 ==
この課題の評価には、N回目の試行のcommon/rare、rewarded/unrewardedの組み合わせと、N+1回目の試行の第一段階の選択がN回目と同じ(stay)かどうか、を主に用いる。Model-free型のアルゴリズムを用いてこの課題のシミュレーションを行った場合、N回目の画面遷移がcommon/rareに関わらずrewardedであればstay率が高く、unrewardedであればstay率が低い結果となる。これは、model-free型では第一段階の選択による画面遷移の確率を考慮せず、報酬獲得に結びついた選択だけが強化されるためである。一方でModel-based型のアルゴリズムを用いたシミュレーションでは、common-rewardedとrare-unrewardedの場合に、次の試行のstay確率が高くなる。これは、model-based型では第一段階での選択と画面遷移の因果関係を組み込んだモデル作製が行われており、rare遷移の後に報酬獲得が起こった際には、選ばなかった方の選択肢が強化されるためである。(つまり、rare遷移が繰り返される確率が低いことを予測した選択が行われる。)実際のヒトは、完全なmodel-based/model-free型学習ではなく、その両者が混在した意思決定パターンをとる。そのため、ロジスティック回帰などの手法により2種類の学習の寄与度を求め、被験者間の比較解析に使用する。
 通常、習慣形成には、長期間にわたって同じ行動を反復して行う必要がある。そのため、不利益の大きい行動は習慣化される前に反復が中断され、習慣化に至ることは稀であるが、一旦習慣化されてしまうと、行動による益・不利益の判断(価値判断)に非依存的となるため、たとえ不利益の大きい行動であっても修正・消去することが困難となる。


 近年、こうした不利益・不適切な状況下であっても特定の行動を反復する強迫症状の背景には、行動の習慣化促進が関与する可能性が示唆されている<ref name=Robbins2019><pubmed>30946823</pubmed></ref>。実際に強迫症状を示す疾患(強迫性障害、[[依存症]]、摂食障害など)では、model-free型学習への寄与度が大きく、より習慣的な行動を取りやすいことが報告されている<ref name=Gillan2016><pubmed>26928075</pubmed></ref>。また、[[チック障害]]や[[抜毛症]]などの身体関連性の反復症状にも行動の習慣化が関与していると考えられている。これらの疾患に対しては、習慣行動の認識、拮抗反応の学習などの複数のステップから構成される、[[習慣逆転法]](habit reversal therapy)の有効性が報告されている<ref name=Bate2011><pubmed>21549664</pubmed></ref>
この手法では、回帰分析に任意の説明変数を追加することが可能であり、model-based/model-free型学習の寄与度に影響を及ぼす要因の検証を行うことが可能である。各精神疾患関連症状とmodel-based/model-free型学習の寄与を比較解析した研究も行われており、強迫性障害や摂食障害、アルコール依存症のような強迫行為・侵入性思考の精神症状が強く表れる疾患において、model-based型学習の寄与度が低下することが報告されている<ref name=Gillan2016><pubmed>26928075</pubmed></ref>[24]。


 また、年齢によっても[[model-based型学習]]の寄与度が変化することが知られている。具体的には、幼年期から青年期にかけては年齢とともにmodel-based型学習の寄与度が上昇する一方、青年期と老年期の比較では老年期の方がmodel-based型学習の寄与度が低くなることが報告されている<ref name=Decker2016><pubmed>27084852</pubmed></ref><ref name=Eppinger2013><pubmed>24399925</pubmed></ref>。


==関連項目==
 関与する脳領域
* [[目的指向行動]]
定義の項目で述べた通り、習慣行動は目的指向行動を反復することで徐々に形成されていく。こうした行動様式の推移は、神経科学的には目的指向性を担う脳領域から習慣性を担う脳領域へと、行動時に神経活動が優位となる領域が推移することに起因すると考えられている。中でも、皮質-線条体-視床-皮質回路(cortico-striato-thalamo-cortical [CSTC] circuit)のうち、連合学習を担う背内側線条体を含む回路(associative circuit)から、運動機能を担う背外側線条体を含む回路(motor circuit)へと優位な神経回路が推移することが習慣形成に中心的な役割を担っている<ref name=Lipton2019><pubmed>31379523</pubmed></ref>[25]。
こうした目的指向性 対 習慣性の構造は前頭前皮質内の亜領域間である前辺縁皮質(prelimbic cortex)と下辺縁皮質(infralimbic cortex)の間でも議論されており、前辺縁皮質が目的指向性、下辺縁皮質が習慣性の発現に関与している<ref name=Smith2012><pubmed>23112197</pubmed></ref> <ref name=Hart2018><pubmed>30056856</pubmed></ref>[5, 26]。前辺縁皮質は背内側線条体へと投射する一方、下辺縁皮質は側坐核に投射し背外側線条体への投射はほとんど検出されていない。そのため、下辺縁皮質と背外側線条体(およびmotor circuit)は習慣性の発現・維持に対し異なる役割を担う可能性が示唆されている<ref name=Smith2013><pubmed>23810540</pubmed></ref>[27]。
実験手法の項目で述べた通り、眼窩前頭皮質や前頭前皮質、背側線条体の活動性と目的指向性/習慣性の発現との関連性については数多くの報告がなされている<ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Whyte2019><pubmed>30940719</pubmed></ref>
<ref name=Zimmermann2018><pubmed>29326434</pubmed></ref> <ref name=Valentin2007><pubmed>17428979</pubmed></ref>[3,12,13,28]。一方で、その関与様式(神経活動の増加、減少のどちらが習慣行動に寄与するのか)については矛盾した結果も報告されている。例えば、眼窩前頭皮質に関しては、活動抑制によりdevaluation試験おける目的指向性が障害されるという報告と、活性化によりcontingency degradation試験における目的指向性が障害されるという報告の両方が存在する<ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Duan2021><pubmed>34171290</pubmed></ref> [3,29]。こうした矛盾する結果の要因としては。試験デザインや動物種などが考えられる。先述の通り、目的指向行動の評価試験系はバリエーションが大きいため、注意して考察を行う必要がある。


==参考文献==
 神経精神疾患による目的指向性/習慣性の調節障害
<references />
通常、習慣形成には、長期間にわたって同じ行動を反復して行う必要がある。そのため、不利益の大きい行動は習慣化される前に反復が中断され、習慣化に至ることは稀であるが、一旦習慣化されてしまうと、行動による益・不利益の判断(価値判断)に非依存的となるため、たとえ不利益の大きい行動であっても修正・消去することが困難となる。
近年、こうした不利益・不適切な状況下であっても特定の行動を反復する強迫症状の背景には、行動の習慣化促進が関与する可能性が示唆されている<ref name=Robbins2019><pubmed>30946823</pubmed></ref>[30]。実際に強迫症状を示す疾患(強迫性障害、依存症、摂食障害など)では、model-free型学習への寄与度が大きく、より習慣的な行動を取りやすいことが報告されている<ref name=Gillan2016><pubmed>26928075</pubmed></ref>[24]。また、チック障害や抜毛症などの身体関連性の反復症状にも行動の習慣化が関与していると考えられている。これらの疾患に対しては、習慣行動の認識、拮抗反応の学習などの複数のステップから構成される、習慣逆転法(habit reversal therapy)の有効性が報告されている<ref name=Bate2011><pubmed>21549664</pubmed></ref>[31]。
また、年齢によってもmodel-based型学習の寄与度が変化することが知られている。具体的には、幼年期から青年期にかけては年齢とともにmodel-based型学習の寄与度が上昇する一方、青年期と老年期の比較では老年期の方がmodel-based型学習の寄与度が低くなることが報告されている<ref name=Decker2016><pubmed>27084852</pubmed></ref> <ref name=Eppinger2013><pubmed>24399925</pubmed></ref>[32,33]。

2023年5月22日 (月) 21:30時点における版

英:Habitual behavior

習慣は特定の状況に対して自動的に発現する行動パターンであり、状況刺激(stimulus)とそれに対する行動(response)の二者間のS-R連合学習により形成される。行動(response)とその結果(outcome)のR-O連合学習の結果形成される目的指向行動とは対になる行動様式であり、目的指向的に同じ行動パターンを繰り返すことで、より安定で認知コストの少ない習慣行動へと移行する。行動の習慣化は、頻回に行う行動を効率よく行うために有用であるが、一方で、一度形成された習慣行動は修正が困難であり、習慣形成に関与する脳領域に異常を示す中枢神経疾患では不適切な習慣形成が治療上の問題となることがある。

 定義 習慣とは、特定の環境や条件などの状況刺激に対して、自動的にとる固定化された行動パターンと定義され、状況刺激とそれに対する行動の二者間の関連性(Stimulus-Response association)を学習するS-R連合学習により形成される[1][1]。習慣が形成されうる行動の範囲は広く、「靴をどちらの足から履くか」といったほぼ無意識的に行われる動作から、「寝る前にストレッチをする」といった能動的な行動を伴うものまで多様である。後者の場合は「就寝前」という条件刺激に対して「ストレッチをしよう」という意思決定が自動的に行われる。また、箸の持ち方や自転車の運転といった技能の獲得や貧乏ゆすりのような癖の形成にも行動の習慣化が関与している。一方で、屈筋反射のような反射行動は、自動的な行動であるものの、学習に依らない生得的な行動であるため習慣には分類されない。

習慣行動と、ある行動とその結果の関連性(Response-Outcome association)の連合学習により形成される目的指向行動とは対をなす概念とされ、目的指向的に同じ行動を繰り返すうちに、行動様式が習慣的なものへと推移していくと考えられている。以降は、目的指向行動との対比から習慣行動の特徴について概説する


特徴

形成されにくさ

 特定の状況における行動とその結果(stimulus-response-outcome associations; S-R-O連関)の連合学習により新たな行動を学習する道具付け学習(instrumental learning)では、行動の結果得られる報酬によりその行動が強化されていく。そのため一般的に、行動学習の際には目的指向的な行動が始めに形成される。こうして学習した目的指向行動が習慣となるには、通常、同じS-R-O連関の下で行動を長期間繰り返し行う必要がある。対象となる行動の複雑さや行動を繰り返す頻度などによって、習慣化に必要な期間は異なる。また、「状況の変化に応じて行動を柔軟に変化できる」という目的指向行動の性質上、行動を繰り返している途中に行動内容が変化したり、意欲の低下から行動自体が行われなくなったりといった可能性もある。こうした点から、通常、習慣行動の形成は目的指向行動よりも困難である。

行動の自動性・安定性

習慣行動は特定の状況に反応して自動的に行動が決定・実行される。これは習慣行動が、stimulus-response-outcome (S-R-O)連関のうち、S-R連合学習に基づいて行われており、R-O連合学習に基づく目的指向行動と比較して、習慣行動の実行には動機の強さや目的の価値の変動が行動に影響を与えづらい(≒同じ状況刺激に対してはほぼ決まった行動をとる)からである。そのため、習慣化した行動は、意欲の低下やコストの増加などによる実行の抑制や中止が起こりづらく、実行者にとって多少コストを要する行動でも、長期間、安定して維持・継続が可能である。例えば、定期的な運動や勉強などは、目的指向行動として実行する間は意欲の低下により容易に継続が中断する(いわゆる飽きる、サボる)が、一旦習慣となると、特段の認知的な強制力がなくとも継続することができる。こうした習慣行動の安定性は、有用な行動を継続的に実行するために重要な特徴であるが、一方で、安定であるということは柔軟な対応は行いづらいということでもある。目的指向行動の場合、状況に合わせた最適な行動を考え、状況の変化に応じて行動を柔軟に変化させることができるが、習慣の場合は状況が変化し、それを認識していたとしても、既に形成された習慣行動のパターンを変化させることは難しく、結果として無駄な行動や、不適切な行動を取ってしまうこともありうる。

例えば、「リビングに来たらリモコンでテレビの電源を入れる」という習慣が形成されている場合、もしリモコンが壊れていて、それを知っていたとしても、リビングに入れば無意識的にテレビのリモコンを操作してしまうことがある。これは、「リビングに入る」という条件刺激に対して、自動的に「リモコンを操作する」という意思決定が行われ、その意思決定に「リモコンは壊れている」という状況変化を反映させることができていないためである。

低い認知的コスト 習慣により実行される行動は、過去同じ刺激に対して行った行動の繰り返しであり、行動内容は固定化され変化は少ない。そのため、行動の度に最適解の計算や価値判断を行う目的指向行動と比較すると、意思決定における認知的なコストは低く、行動が実行されるまでの時間も短い。行動の選択肢が多い場合(例:沢山の番組から視聴する番組を選ぶ)や使用できる認知的リソースが少ない場合(例:複数の行動を並行して行うとき)など、目的指向的な意思決定では行動選択に時間がかかったり、最適解の計算が困難である場面では、認知的なコストの低い習慣的意思決定の方が有利である。


実験的手法

習慣形成の評価は、連合学習の結果形成された行動が習慣行動としての特徴を備えているのかどうかを、対をなす概念である目的指向行動との対比、または心的モデルの有無(model-based/model-free learning)といった文脈で議論されることが多い。心的モデルの有無で議論が行われる場合は、R-O連合学習は心的モデルの形成を伴うことから、多くの場合ではmode-basedの場合を目的指向行動、model-freeの場合を習慣行動と見なしている。(一方で、model-free=習慣という分類は必ずしも常には成立しないとして、価値判断の有無など、別の指標から習慣行動を分類する試みもなされている[2][2]。)

目的指向/習慣、model-based/model-freeのどちらの文脈においても、対立する2つの性質は独立ではなくスペクトラム状になっており、被検個体の行動がスペクトラムのどの位置に分布するのか、の相対的評価が主目的となる。試験においては、習慣形成機能だけではなく、記憶力、報酬予測・評価能力、注意力、衝動性などが総合的に行動に影響を与えるため、結果の解釈には一定の注意が必要となる。以降は、目的指向性/習慣性の評価に用いられる代表的な試験系について紹介する。

価値減弱試験 目的指向行動の動機である目的(報酬)の価値を低下させたときに行動の実行が抑制されるかどうかで目的指向性/習慣性を評価する手法を価値減弱試験(outcome devaluation test)と呼ぶ。例えば、オペラント条件付けにより、レバーを押すと報酬としてエサが獲得できるという学習を行った個体に対し、レバー押し実験前に報酬のエサを自由に摂食させると、満腹によってエサの報酬価値は相対的に低下する(devaluation)。この条件でレバー押し実験を行った時のレバー押し回数を、devaluationを行っていない条件でのレバー押し回数と比較する。仮に、実験個体のレバー押し行動が目的指向的であった場合、レバー押し行動(response)の動機はエサの獲得という結果(outcome)の相対的価値に依存するため、エサの報酬価値が低下するとレバー押し回数は減少すると予測される。一方で、習慣的にレバー押しを行っていた場合は、レバー押し実験装置への移動という状況刺激(stimulus)に応答してレバー押し行動(response)を行うというS-R連関に従っており、報酬価値の変動には影響されにくい。よって、devaluationによるレバー押し回数の変動は、目的指向行動と比較して小さくなる。

比較的単純な試験デザインであることから、げっ歯類でも行いやすい試験方法であり、破壊実験、オプトジェネティクスやケミカルジェネティクスを用いた神経活動操作、Ca2+インジケーターを用いたin vivo神経活動記録などの多くの検討が行われている。眼窩前頭皮質、内側前頭前皮質、島皮質、線条体、視床、扁桃体基底外側部、海馬など、様々な脳領域がdevaluationに対する感受性に関与することが報告されている[3][4][5][6][7][8][9][10][11][3-11]。

R-O連関変更時の柔軟性の評価 学習済みのR-O連関を実験的に変化させた場合に、既存のR-O連関に起因する行動の減弱、および新しいR-O連関の学習が認められるか否かで柔軟性/固執性を評価する。目的指向行動では、行動に対して予測した結果が得られなかったり、学習した行動が取れなくなったりした際に目的達成のために柔軟な行動変化が行われるが、習慣的に行動する個体では行動変化は緩やかである。R-O連関を実験的に変化させる手法は様々であり、選択式課題において正解の選択肢を変化させるreversal learning試験、学習済みのresponseを起こしてもoutcomeを提示しないcontingency degradation試験(またはextinction試験)、responseを起こさないことによりoutcomeが提示されるomission試験などが行われる。これらの評価系においても、目的指向性、習慣性の発現には、眼窩前頭皮質、内側前頭前皮質、線条体、扁桃体基底外側部などの関与が報告されている[12][13][7][14][15][12-16]。

Three-Phase Instrumental Learning Task (Slips-of-Action test) Slips-of-Actionとは、意図した行動とはうっかり違う行動をとってしまう、という実行機能のエラーを表す心理学用語であり、習慣的な行動をとる際に出現しやすい。そこで、認知行動課題におけるSlips-of-Actionの発生を評価することで、被験者の意思決定が目的指向的/習慣的であるかどうかを相対的に評価する。この課題では、既に存在する行動の目的指向性評価ではなく、新たに学習した行動の目的指向性/習慣性の評価を行うものであり、被験者の意思決定特性(連合学習が行われる際にR-O連関、S-R連関のどちらが優位であるか)の評価として行われる。 主にヒトもしくは非ヒト霊長類の試験で用いられる課題であり、モニターに表示された画像に応じて手元のスイッチ(左右2つ)を押し分けることで報酬を獲得するという基本パラダイムの下、3つの段階により進行する[16][17]。 第一段階(図1A,B)では、「始めに提示される画像(stimulus)」、「正解のスイッチ(左右どちらか)(response)」、「結果の画像提示(outcome)」の関係性を試行錯誤により学習する。例えば、図に示すように、「ブドウ」が提示された試行では、「右のスイッチ」を押すと「サクランボ」の画像が表示され、報酬獲得となる。左のスイッチを押した場合はエラーとなり結果の画像に対応する果物は表示されない。このようにして「ブドウ(stimulus)」「右スイッチ(response)」「サクランボ(outcome)」のS-R-O連関を、複数の果物の組み合わせで学習させる。

第二段階(図1C)では、左右のスイッチに対応する「outcome画像」がそれぞれ1つずつ提示される。そのどちらかは、例えば×印の様に報酬無しの目印がつけられている(devaluation)。被験者は、第一段階で学習したS-R-O連関の中から、目印のない方の「outcome画像」に対応したスイッチを押すことで報酬が得られる。第三段階へのバイアスをなくすため、全ての「outcome画像」に対してdevaluationが行われる。この段階では、報酬無しの目印の学習に加え、第一段階で学習したS-R-O連関の確認が行われる。S-R-O連関の難易度が高いほど正答率は低下することが予測される(ミカン-右-パイン、パイン-左-ミカンの様に類似の連関が存在する場合は難易度が高く、正解率は低くなる)。

第三段階(図1D)では、第一段階で学習したS-R-O連関の「outcome画像」すべてが最初に提示される。そのうちいくつかには第二段階で学習した報酬無しの目印(×)がつけられている。続いて、「stimulus画像」が一つだけ提示される。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされていなければ、被験者は対応するスイッチを押すことで報酬が得られる。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされている場合は、スイッチを押さずに待機する必要があり、スイッチを押した場合は罰が与えられる。この時、「stimulus画像」の提示は短時間に設定されており、反応を急ぐことでエラーが起こりやすくなっている。S-R連関に依存した習慣的な意思決定が優位な場合、devaluationの有無にかかわらず「stimulus画像」の提示により対応したスイッチを押すresponseが行われやすい(Slips-of-Action)。第一段階、第二段階のスコアに差がない、つまりS-R-O連関の学習は正しく行われているにもかかわらず、第三段階でSlips-of-Actionの発生率が増えた場合、その被験者はより習慣的な意思決定に依存しやすいという考察が可能である。

健常者と患者の比較など、条件の異なる被験者集団間の比較に用いられ、強迫性障害、トゥーレット障害といった精神疾患患者やストレス負荷、睡眠妨害、セロトニンおよびドパミン欠乏状態によって習慣的な意思決定が優位となることが報告されている[17]引用エラー: 無効な <ref> タグです。数が多すぎるなどの理由で名前が無効です[18][16][19][20][17-22]。

Two-Step Sequential Decision-Making Task Slips-of-Action testと同様に主にヒトもしくは非ヒト霊長類の試験で用いられる課題であり、モニターに表示された画像に応じて手元のスイッチ(左右2つ)を押し分けることで報酬を獲得するという基本パラダイムは共通するが、こちらの課題では正解の選択があらかじめ明示されることはない。また、画像の提示や報酬の有無を含めたresponseは確立によって変動するなど、被験者に明確なルールが分からないように設計されている。このように正解の不確かな課題に対する行動戦略が心的モデルあり(model-based)かモデルなし(model-free)かを評価する[21][23]。

この課題は2つの段階で構成された試行を繰り返し行う。試行の各段階では、それぞれに2種類の画像選択肢の提示と被験者による一方の選択が行われる(図2)。第一段階目に表示される画像選択肢は固定(緑の背景)であり、被験者は任意の画像を選択することができる。第二段階目で表示される画像選択肢は2パターン存在し(ピンクまたは青の背景)、被験者が第一段階で選択した画像によりどちらに遷移するかの確立が変動する。例えば、第一段階目で右を選んだ場合、70%の確率で青、30%の確率でピンクの選択肢へ遷移する。左を選んだ場合は、反対に70%の確率でピンク、30%の確率で青の選択肢へ遷移する。この時、確立の高い方へ遷移した場合を“common”低い方へ遷移した場合を“rare”と呼称する。

第二段階でも同様に、被験者は提示された画像選択肢のどちらかを選択する。各選択肢には、選択された場合に報酬獲得となる確率が独立して設定されており、それに従って報酬の有無が決定される。この確率は、ランダムウォークにより変動しており、課題の序盤と終盤では報酬獲得の期待値が大きく変動する場合もある。各試行において報酬が獲得された場合を“rewarded (win)”、獲得されなかった場合を“unrewarded (lose)”と呼称する。

この課題の評価には、N回目の試行のcommon/rare、rewarded/unrewardedの組み合わせと、N+1回目の試行の第一段階の選択がN回目と同じ(stay)かどうか、を主に用いる。Model-free型のアルゴリズムを用いてこの課題のシミュレーションを行った場合、N回目の画面遷移がcommon/rareに関わらずrewardedであればstay率が高く、unrewardedであればstay率が低い結果となる。これは、model-free型では第一段階の選択による画面遷移の確率を考慮せず、報酬獲得に結びついた選択だけが強化されるためである。一方でModel-based型のアルゴリズムを用いたシミュレーションでは、common-rewardedとrare-unrewardedの場合に、次の試行のstay確率が高くなる。これは、model-based型では第一段階での選択と画面遷移の因果関係を組み込んだモデル作製が行われており、rare遷移の後に報酬獲得が起こった際には、選ばなかった方の選択肢が強化されるためである。(つまり、rare遷移が繰り返される確率が低いことを予測した選択が行われる。)実際のヒトは、完全なmodel-based/model-free型学習ではなく、その両者が混在した意思決定パターンをとる。そのため、ロジスティック回帰などの手法により2種類の学習の寄与度を求め、被験者間の比較解析に使用する。

この手法では、回帰分析に任意の説明変数を追加することが可能であり、model-based/model-free型学習の寄与度に影響を及ぼす要因の検証を行うことが可能である。各精神疾患関連症状とmodel-based/model-free型学習の寄与を比較解析した研究も行われており、強迫性障害や摂食障害、アルコール依存症のような強迫行為・侵入性思考の精神症状が強く表れる疾患において、model-based型学習の寄与度が低下することが報告されている[22][24]。


 関与する脳領域 定義の項目で述べた通り、習慣行動は目的指向行動を反復することで徐々に形成されていく。こうした行動様式の推移は、神経科学的には目的指向性を担う脳領域から習慣性を担う脳領域へと、行動時に神経活動が優位となる領域が推移することに起因すると考えられている。中でも、皮質-線条体-視床-皮質回路(cortico-striato-thalamo-cortical [CSTC] circuit)のうち、連合学習を担う背内側線条体を含む回路(associative circuit)から、運動機能を担う背外側線条体を含む回路(motor circuit)へと優位な神経回路が推移することが習慣形成に中心的な役割を担っている[23][25]。 こうした目的指向性 対 習慣性の構造は前頭前皮質内の亜領域間である前辺縁皮質(prelimbic cortex)と下辺縁皮質(infralimbic cortex)の間でも議論されており、前辺縁皮質が目的指向性、下辺縁皮質が習慣性の発現に関与している[8] [24][5, 26]。前辺縁皮質は背内側線条体へと投射する一方、下辺縁皮質は側坐核に投射し背外側線条体への投射はほとんど検出されていない。そのため、下辺縁皮質と背外側線条体(およびmotor circuit)は習慣性の発現・維持に対し異なる役割を担う可能性が示唆されている[25][27]。 実験手法の項目で述べた通り、眼窩前頭皮質や前頭前皮質、背側線条体の活動性と目的指向性/習慣性の発現との関連性については数多くの報告がなされている[4][14] [15] [26][3,12,13,28]。一方で、その関与様式(神経活動の増加、減少のどちらが習慣行動に寄与するのか)については矛盾した結果も報告されている。例えば、眼窩前頭皮質に関しては、活動抑制によりdevaluation試験おける目的指向性が障害されるという報告と、活性化によりcontingency degradation試験における目的指向性が障害されるという報告の両方が存在する[4][27] [3,29]。こうした矛盾する結果の要因としては。試験デザインや動物種などが考えられる。先述の通り、目的指向行動の評価試験系はバリエーションが大きいため、注意して考察を行う必要がある。

 神経精神疾患による目的指向性/習慣性の調節障害 通常、習慣形成には、長期間にわたって同じ行動を反復して行う必要がある。そのため、不利益の大きい行動は習慣化される前に反復が中断され、習慣化に至ることは稀であるが、一旦習慣化されてしまうと、行動による益・不利益の判断(価値判断)に非依存的となるため、たとえ不利益の大きい行動であっても修正・消去することが困難となる。 近年、こうした不利益・不適切な状況下であっても特定の行動を反復する強迫症状の背景には、行動の習慣化促進が関与する可能性が示唆されている[28][30]。実際に強迫症状を示す疾患(強迫性障害、依存症、摂食障害など)では、model-free型学習への寄与度が大きく、より習慣的な行動を取りやすいことが報告されている[22][24]。また、チック障害や抜毛症などの身体関連性の反復症状にも行動の習慣化が関与していると考えられている。これらの疾患に対しては、習慣行動の認識、拮抗反応の学習などの複数のステップから構成される、習慣逆転法(habit reversal therapy)の有効性が報告されている[29][31]。 また、年齢によってもmodel-based型学習の寄与度が変化することが知られている。具体的には、幼年期から青年期にかけては年齢とともにmodel-based型学習の寄与度が上昇する一方、青年期と老年期の比較では老年期の方がmodel-based型学習の寄与度が低くなることが報告されている[30] [31][32,33]。

  1. Dolan, R.J., & Dayan, P. (2013).
    Goals and habits in the brain. Neuron, 80(2), 312-25. [PubMed:24139036] [PMC] [WorldCat] [DOI]
  2. Miller, K.J., Shenhav, A., & Ludvig, E.A. (2019).
    Habits without values. Psychological review, 126(2), 292-311. [PubMed:30676040] [PMC] [WorldCat] [DOI]
  3. Bradfield, L.A., & Balleine, B.W. (2017).
    Thalamic Control of Dorsomedial Striatum Regulates Internal State to Guide Goal-Directed Action Selection. The Journal of neuroscience : the official journal of the Society for Neuroscience, 37(13), 3721-3733. [PubMed:28242795] [PMC] [WorldCat] [DOI]
  4. 4.0 4.1 4.2 Gremel, C.M., & Costa, R.M. (2013).
    Orbitofrontal and striatal circuits dynamically encode the shift between goal-directed and habitual actions. Nature communications, 4, 2264. [PubMed:23921250] [PMC] [WorldCat] [DOI]
  5. Hart, G., & Balleine, B.W. (2016).
    Consolidation of Goal-Directed Action Depends on MAPK/ERK Signaling in Rodent Prelimbic Cortex. The Journal of neuroscience : the official journal of the Society for Neuroscience, 36(47), 11974-11986. [PubMed:27881782] [PMC] [WorldCat] [DOI]
  6. O'Hare, J.K., Ade, K.K., Sukharnikova, T., Van Hooser, S.D., Palmeri, M.L., Yin, H.H., & Calakos, N. (2016).
    Pathway-Specific Striatal Substrates for Habitual Behavior. Neuron, 89(3), 472-9. [PubMed:26804995] [PMC] [WorldCat] [DOI]
  7. 7.0 7.1 Parkes, S.L., & Balleine, B.W. (2013).
    Incentive memory: evidence the basolateral amygdala encodes and the insular cortex retrieves outcome values to guide choice between goal-directed actions. The Journal of neuroscience : the official journal of the Society for Neuroscience, 33(20), 8753-63. [PubMed:23678118] [PMC] [WorldCat] [DOI]
  8. 8.0 8.1 Smith, K.S., Virkud, A., Deisseroth, K., & Graybiel, A.M. (2012).
    Reversible online control of habitual behavior by optogenetic perturbation of medial prefrontal cortex. Proceedings of the National Academy of Sciences of the United States of America, 109(46), 18932-7. [PubMed:23112197] [PMC] [WorldCat] [DOI]
  9. Tran-Tu-Yen, D.A., Marchand, A.R., Pape, J.R., Di Scala, G., & Coutureau, E. (2009).
    Transient role of the rat prelimbic cortex in goal-directed behaviour. The European journal of neuroscience, 30(3), 464-71. [PubMed:19614748] [WorldCat] [DOI]
  10. Vandaele, Y., & Janak, P.H. (2023).
    Lack of action monitoring as a prerequisite for habitual and chunked behavior: Behavioral and neural correlates. iScience, 26(1), 105818. [PubMed:36636348] [PMC] [WorldCat] [DOI]
  11. Bradfield, L.A., Leung, B.K., Boldt, S., Liang, S., & Balleine, B.W. (2020).
    Goal-directed actions transiently depend on dorsal hippocampus. Nature neuroscience, 23(10), 1194-1197. [PubMed:32778789] [WorldCat] [DOI]
  12. Barker, J.M., Glen, W.B., Linsenbardt, D.N., Lapish, C.C., & Chandler, L.J. (2017).
    Habitual Behavior Is Mediated by a Shift in Response-Outcome Encoding by Infralimbic Cortex. eNeuro, 4(6). [PubMed:29302616] [PMC] [WorldCat] [DOI]
  13. Nadel, J.A., Pawelko, S.S., Scott, J.R., McLaughlin, R., Fox, M., Ghanem, M., ..., & Howard, C.D. (2021).
    Optogenetic stimulation of striatal patches modifies habit formation and inhibits dopamine release. Scientific reports, 11(1), 19847. [PubMed:34615966] [PMC] [WorldCat] [DOI]
  14. 14.0 14.1 Whyte, A.J., Kietzman, H.W., Swanson, A.M., Butkovich, L.M., Barbee, B.R., Bassell, G.J., ..., & Gourley, S.L. (2019).
    Reward-Related Expectations Trigger Dendritic Spine Plasticity in the Mouse Ventrolateral Orbitofrontal Cortex. The Journal of neuroscience : the official journal of the Society for Neuroscience, 39(23), 4595-4605. [PubMed:30940719] [PMC] [WorldCat] [DOI]
  15. 15.0 15.1 Zimmermann, K.S., Li, C.C., Rainnie, D.G., Ressler, K.J., & Gourley, S.L. (2018).
    Memory Retention Involves the Ventrolateral Orbitofrontal Cortex: Comparison with the Basolateral Amygdala. Neuropsychopharmacology : official publication of the American College of Neuropsychopharmacology, 43(3), 674. [PubMed:29326434] [PMC] [WorldCat] [DOI]
  16. 16.0 16.1 Gillan, C.M., Papmeyer, M., Morein-Zamir, S., Sahakian, B.J., Fineberg, N.A., Robbins, T.W., & de Wit, S. (2011).
    Disruption in the balance between goal-directed behavior and habit learning in obsessive-compulsive disorder. The American journal of psychiatry, 168(7), 718-26. [PubMed:21572165] [PMC] [WorldCat] [DOI]
  17. Chen, J., Liang, J., Lin, X., Zhang, Y., Zhang, Y., Lu, L., & Shi, J. (2017).
    Sleep Deprivation Promotes Habitual Control over Goal-Directed Control: Behavioral and Neuroimaging Evidence. The Journal of neuroscience : the official journal of the Society for Neuroscience, 37(49), 11979-11992. [PubMed:29109237] [PMC] [WorldCat] [DOI]
  18. Delorme, C., Salvador, A., Valabrègue, R., Roze, E., Palminteri, S., Vidailhet, M., ..., & Worbe, Y. (2016).
    Enhanced habit formation in Gilles de la Tourette syndrome. Brain : a journal of neurology, 139(Pt 2), 605-15. [PubMed:26490329] [WorldCat] [DOI]
  19. Smeets, T., van Ruitenbeek, P., Hartogsveld, B., & Quaedflieg, C.W.E.M. (2019).
    Stress-induced reliance on habitual behavior is moderated by cortisol reactivity. Brain and cognition, 133, 60-71. [PubMed:29807661] [WorldCat] [DOI]
  20. Worbe, Y., Savulich, G., de Wit, S., Fernandez-Egea, E., & Robbins, T.W. (2015).
    Tryptophan Depletion Promotes Habitual over Goal-Directed Control of Appetitive Responding in Humans. The international journal of neuropsychopharmacology, 18(10), pyv013. [PubMed:25663044] [PMC] [WorldCat] [DOI]
  21. Daw, N.D., Gershman, S.J., Seymour, B., Dayan, P., & Dolan, R.J. (2011).
    Model-based influences on humans' choices and striatal prediction errors. Neuron, 69(6), 1204-15. [PubMed:21435563] [PMC] [WorldCat] [DOI]
  22. 22.0 22.1 Gillan, C.M., Kosinski, M., Whelan, R., Phelps, E.A., & Daw, N.D. (2016).
    Characterizing a psychiatric symptom dimension related to deficits in goal-directed control. eLife, 5. [PubMed:26928075] [PMC] [WorldCat] [DOI]
  23. Lipton, D.M., Gonzales, B.J., & Citri, A. (2019).
    Dorsal Striatal Circuits for Habits, Compulsions and Addictions. Frontiers in systems neuroscience, 13, 28. [PubMed:31379523] [PMC] [WorldCat] [DOI]
  24. Hart, G., Bradfield, L.A., Fok, S.Y., Chieng, B., & Balleine, B.W. (2018).
    The Bilateral Prefronto-striatal Pathway Is Necessary for Learning New Goal-Directed Actions. Current biology : CB, 28(14), 2218-2229.e7. [PubMed:30056856] [WorldCat] [DOI]
  25. Smith, K.S., & Graybiel, A.M. (2013).
    A dual operator view of habitual behavior reflecting cortical and striatal dynamics. Neuron, 79(2), 361-74. [PubMed:23810540] [PMC] [WorldCat] [DOI]
  26. Valentin, V.V., Dickinson, A., & O'Doherty, J.P. (2007).
    Determining the neural substrates of goal-directed learning in the human brain. The Journal of neuroscience : the official journal of the Society for Neuroscience, 27(15), 4019-26. [PubMed:17428979] [PMC] [WorldCat] [DOI]
  27. Duan, L.Y., Horst, N.K., Cranmore, S.A.W., Horiguchi, N., Cardinal, R.N., Roberts, A.C., & Robbins, T.W. (2021).
    Controlling one's world: Identification of sub-regions of primate PFC underlying goal-directed behavior. Neuron, 109(15), 2485-2498.e5. [PubMed:34171290] [PMC] [WorldCat] [DOI]
  28. Robbins, T.W., Vaghi, M.M., & Banca, P. (2019).
    Obsessive-Compulsive Disorder: Puzzles and Prospects. Neuron, 102(1), 27-47. [PubMed:30946823] [WorldCat] [DOI]
  29. Bate, K.S., Malouff, J.M., Thorsteinsson, E.T., & Bhullar, N. (2011).
    The efficacy of habit reversal therapy for tics, habit disorders, and stuttering: a meta-analytic review. Clinical psychology review, 31(5), 865-71. [PubMed:21549664] [WorldCat] [DOI]
  30. Decker, J.H., Otto, A.R., Daw, N.D., & Hartley, C.A. (2016).
    From Creatures of Habit to Goal-Directed Learners: Tracking the Developmental Emergence of Model-Based Reinforcement Learning. Psychological science, 27(6), 848-58. [PubMed:27084852] [PMC] [WorldCat] [DOI]
  31. Eppinger, B., Walter, M., Heekeren, H.R., & Li, S.C. (2013).
    Of goals and habits: age-related and individual differences in goal-directed decision-making. Frontiers in neuroscience, 7, 253. [PubMed:24399925] [PMC] [WorldCat] [DOI]