17,548
回編集
細編集の要約なし |
細編集の要約なし |
||
| (同じ利用者による、間の5版が非表示) | |||
| 2行目: | 2行目: | ||
<font size="+1">[https://researchmap.jp/nozomiasaoka 浅岡 希美]</font><br> | <font size="+1">[https://researchmap.jp/nozomiasaoka 浅岡 希美]</font><br> | ||
''京都大学 大学院医学研究科 システム神経薬理学分野''<br> | ''京都大学 大学院医学研究科 システム神経薬理学分野''<br> | ||
DOI:<selfdoi /> | DOI:<selfdoi /> 原稿受付日:2023年4月25日 原稿完成日:2023年5月12日<br> | ||
担当編集委員:[ | 担当編集委員:[https://researchmap.jp/sadato 定藤 規弘](立命館大学 総合科学技術研究機構 )<br> | ||
</div> | </div> | ||
| 27行目: | 27行目: | ||
上記の通り、目的指向的な意思決定においては、行動の度に最適解の計算や価値判断が行われるため、認知的なコストは高く、意思決定に必要な時間は自動的な応答と比較すると遅い。 | 上記の通り、目的指向的な意思決定においては、行動の度に最適解の計算や価値判断が行われるため、認知的なコストは高く、意思決定に必要な時間は自動的な応答と比較すると遅い。 | ||
== | ==実験手法 == | ||
目的指向行動の実験的な評価は、R-O連合学習の評価(学習・遂行機能の評価)と学習済みの行動における目的指向性の評価(遂行様式の評価)に大別される。R-O学習には、[[オペラント条件づけ]]([[operant conditioning]]もしくは[[道具的条件づけ]][[instrumental conditioning]])を用いた[[強化学習]]法が主に用いられる。強化された行動を示す速度や回数、正確性などからR-O学習機能や学習の効率などが評価される。こうした行動課題の学習・遂行は、[[記憶]]力、[[報酬予測]]・評価能力、注意力、[[衝動性]]など様々な要因の影響を受けるため、目的とする評価項目に合わせて実験パラダイムの工夫が必要である。特に、神経精神疾患患者や病態[[モデル動物]]では、これらの機能自体に障害が認められる場合があり、その場合は強化学習に依存しない試験系の併用によるR-O連合学習障害の原因検証が必要となることもある。 | 目的指向行動の実験的な評価は、R-O連合学習の評価(学習・遂行機能の評価)と学習済みの行動における目的指向性の評価(遂行様式の評価)に大別される。R-O学習には、[[オペラント条件づけ]]([[operant conditioning]]もしくは[[道具的条件づけ]][[instrumental conditioning]])を用いた[[強化学習]]法が主に用いられる。強化された行動を示す速度や回数、正確性などからR-O学習機能や学習の効率などが評価される。こうした行動課題の学習・遂行は、[[記憶]]力、[[報酬予測]]・評価能力、注意力、[[衝動性]]など様々な要因の影響を受けるため、目的とする評価項目に合わせて実験パラダイムの工夫が必要である。特に、神経精神疾患患者や病態[[モデル動物]]では、これらの機能自体に障害が認められる場合があり、その場合は強化学習に依存しない試験系の併用によるR-O連合学習障害の原因検証が必要となることもある。 | ||
| 37行目: | 37行目: | ||
目的指向行動の動機である目的([[報酬]])の価値を低下させたときに行動の実行が抑制されるかどうかで目的指向性を評価する手法を[[価値減弱試験]](outcome devaluation test)と呼ぶ。例えば、[[オペラント条件づけ]]により、レバーを押すと報酬としてエサが獲得できるという学習を行った個体に対し、レバー押し実験前に報酬のエサを自由に摂食させると、満腹によってエサの報酬価値は相対的に低下する([[devaluation]])。この条件でレバー押し実験を行った時のレバー押し回数を、devaluationを行っていない条件でのレバー押し回数と比較する。仮に、実験個体のレバー押し行動が目的指向的であった場合、レバー押し行動(response)の動機はエサの獲得という結果(outcome)の相対的価値に依存するため、エサの報酬価値が低下するとレバー押し回数は減少すると予測される。一方で、習慣的にレバー押しを行っていた場合は、レバー押し実験装置への移動という状況刺激(stimulus)に応答してレバー押し行動(response)を行うというS-R連関に従っており、報酬価値の変動には影響されにくい。よって、devaluationによるレバー押し回数の変動は、目的指向行動と比較して小さくなる。 | 目的指向行動の動機である目的([[報酬]])の価値を低下させたときに行動の実行が抑制されるかどうかで目的指向性を評価する手法を[[価値減弱試験]](outcome devaluation test)と呼ぶ。例えば、[[オペラント条件づけ]]により、レバーを押すと報酬としてエサが獲得できるという学習を行った個体に対し、レバー押し実験前に報酬のエサを自由に摂食させると、満腹によってエサの報酬価値は相対的に低下する([[devaluation]])。この条件でレバー押し実験を行った時のレバー押し回数を、devaluationを行っていない条件でのレバー押し回数と比較する。仮に、実験個体のレバー押し行動が目的指向的であった場合、レバー押し行動(response)の動機はエサの獲得という結果(outcome)の相対的価値に依存するため、エサの報酬価値が低下するとレバー押し回数は減少すると予測される。一方で、習慣的にレバー押しを行っていた場合は、レバー押し実験装置への移動という状況刺激(stimulus)に応答してレバー押し行動(response)を行うというS-R連関に従っており、報酬価値の変動には影響されにくい。よって、devaluationによるレバー押し回数の変動は、目的指向行動と比較して小さくなる。 | ||
比較的単純な試験デザインであることから、[[げっ歯類]]でも行いやすい試験方法であり、[[破壊実験]]、[[オプトジェネティクス]]や[[ケモジェネティクス]]を用いた神経活動操作、[[Ca2+インジケーター]]を用いたin vivo神経活動記録などの多くの検討が行われている。[[眼窩前頭皮質]]、[[内側前頭前皮質]]、[[島皮質]]、[[線条体]]、[[視床]]、[[扁桃体]][[基底外側部]]、[[海馬]]など、様々な脳領域がdevaluationに対する感受性に関与することが報告されている<ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Tran-Tu-Yen2009><pubmed>19614748</pubmed></ref><ref name=Smith2012><pubmed>23112197</pubmed></ref><ref name=Hart2016><pubmed>27881782</pubmed></ref><ref name=Parkes2013><pubmed>23678118</pubmed></ref><ref name=Vandaele2023><pubmed>36636348</pubmed></ref><ref name=Bradfield2017><pubmed>28242795</pubmed></ref>。 | 比較的単純な試験デザインであることから、[[げっ歯類]]でも行いやすい試験方法であり、[[破壊実験]]、[[オプトジェネティクス]]や[[ケモジェネティクス]]を用いた神経活動操作、[[Ca2+インジケーター|Ca<sup>2+</sup>インジケーター]]を用いたin vivo神経活動記録などの多くの検討が行われている。[[眼窩前頭皮質]]、[[内側前頭前皮質]]、[[島皮質]]、[[線条体]]、[[視床]]、[[扁桃体]][[基底外側部]]、[[海馬]]など、様々な脳領域がdevaluationに対する感受性に関与することが報告されている<ref name=Gremel2013><pubmed>23921250</pubmed></ref><ref name=Tran-Tu-Yen2009><pubmed>19614748</pubmed></ref><ref name=Smith2012><pubmed>23112197</pubmed></ref><ref name=Hart2016><pubmed>27881782</pubmed></ref><ref name=Parkes2013><pubmed>23678118</pubmed></ref><ref name=OHare2016><pubmed>26804995</pubmed></ref><ref name=Vandaele2023><pubmed>36636348</pubmed></ref><ref name=Bradfield2017><pubmed>28242795</pubmed></ref>。 | ||
=== R-O連関変更時の柔軟性の評価 === | === R-O連関変更時の柔軟性の評価 === | ||
| 54行目: | 54行目: | ||
第三段階('''図1D''')では、第一段階で学習したS-R-O連関の「outcome画像」すべてが最初に提示される。そのうちいくつかには第二段階で学習した報酬無しの目印(×)がつけられている。続いて、「stimulus画像」が一つだけ提示される。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされていなければ、被験者は対応するスイッチを押すことで報酬が得られる。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされている場合は、スイッチを押さずに待機する必要があり、スイッチを押した場合は罰が与えられる。この時、「stimulus画像」の提示は短時間に設定されており、反応を急ぐことでエラーが起こりやすくなっている。S-R連関に依存した習慣的な意思決定が優位な場合、devaluationの有無にかかわらず「stimulus画像」の提示により対応したスイッチを押すresponseが行われやすい(Slips-of-Action)。第一段階、第二段階のスコアに差がない、つまりS-R-O連関の学習は正しく行われているにもかかわらず、第三段階でSlips-of-Actionの発生率が増えた場合、その被験者はより習慣的な意思決定に依存しやすいという考察が可能である。 | 第三段階('''図1D''')では、第一段階で学習したS-R-O連関の「outcome画像」すべてが最初に提示される。そのうちいくつかには第二段階で学習した報酬無しの目印(×)がつけられている。続いて、「stimulus画像」が一つだけ提示される。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされていなければ、被験者は対応するスイッチを押すことで報酬が得られる。提示された「stimulus画像」に対応する「outcome画像」がdevaluationされている場合は、スイッチを押さずに待機する必要があり、スイッチを押した場合は罰が与えられる。この時、「stimulus画像」の提示は短時間に設定されており、反応を急ぐことでエラーが起こりやすくなっている。S-R連関に依存した習慣的な意思決定が優位な場合、devaluationの有無にかかわらず「stimulus画像」の提示により対応したスイッチを押すresponseが行われやすい(Slips-of-Action)。第一段階、第二段階のスコアに差がない、つまりS-R-O連関の学習は正しく行われているにもかかわらず、第三段階でSlips-of-Actionの発生率が増えた場合、その被験者はより習慣的な意思決定に依存しやすいという考察が可能である。 | ||
健常者と患者の比較など、条件の異なる被験者集団間の比較に用いられ、[[強迫性障害]]、[[トゥレット障害]]といった精神疾患患者や[[ストレス]]負荷、[[睡眠]]妨害、[[セロトニン]]および[[ドパミン]]欠乏状態によって習慣的な意思決定が優位となることが報告されている<ref name=Gillan2011><pubmed>21572165</pubmed></ref><ref name=Delorme2016><pubmed>26490329</pubmed></ref> <ref name=Smeets2019><pubmed>29807661</pubmed></ref> <ref name=Worbe2015><pubmed>25663044</pubmed></ref><ref name=Chen2017><pubmed>29109237</pubmed></ref>。 | 健常者と患者の比較など、条件の異なる被験者集団間の比較に用いられ、[[強迫性障害]]、[[トゥレット障害]]といった精神疾患患者や[[ストレス]]負荷、[[睡眠]]妨害、[[セロトニン]]および[[ドパミン]]欠乏状態によって習慣的な意思決定が優位となることが報告されている<ref name=Gillan2011><pubmed>21572165</pubmed></ref><ref name=Delorme2016><pubmed>26490329</pubmed></ref><ref name=Smeets2019><pubmed>29807661</pubmed></ref><ref name=Worbe2015><pubmed>25663044</pubmed></ref><ref name=Chen2017><pubmed>29109237</pubmed></ref><ref name=deWit2012><pubmed>22134475</pubmed></ref>。 | ||
=== Two-Step Sequential Decision-Making Task === | === Two-Step Sequential Decision-Making Task === | ||
[[ファイル:Asaoka 目的指向行動Fig2.jpg|サムネイル|'''図2.Two-Step Sequential Decision-Making Task''']] | [[ファイル:Asaoka 目的指向行動Fig2.jpg|サムネイル|'''図2. Two-Step Sequential Decision-Making Task''']] | ||
[[Two-Step Sequential Decision-Making Task]]とはSlips-of-Action testと同様に主にヒトもしくは非ヒト霊長類の試験で用いられる課題であり、モニターに表示された画像に応じて手元のスイッチ(左右2つ)を押し分けることで報酬を獲得するという基本パラダイムは共通するが、こちらの課題では正解の選択があらかじめ明示されることはない。また、画像の提示や報酬の有無を含めたresponseは確率によって変動するなど、被験者に明確なルールが分からないように設計されている。このように正解の不確かな課題に対する行動戦略が心的モデルあり(model-based)かモデルなし(model-free)かを評価する <ref name=Daw2011><pubmed>21435563</pubmed></ref>。 | |||
この課題は2つの段階で構成された試行を繰り返し行う。試行の各段階では、それぞれに2種類の画像選択肢の提示と被験者による一方の選択が行われる('''図2''')。第一段階目に表示される画像選択肢は固定(緑の背景)であり、被験者は任意の画像を選択することができる。第二段階目で表示される画像選択肢は2パターン存在し(ピンクまたは青の背景)、被験者が第一段階で選択した画像によりどちらに遷移するかの確率が変動する。例えば、第一段階目で右を選んだ場合、70%の確率で青、30%の確率でピンクの選択肢へ遷移する。左を選んだ場合は、反対に70%の確率でピンク、30%の確率で青の選択肢へ遷移する。この時、確率の高い方へ遷移した場合を“common”低い方へ遷移した場合を“rare”と呼称する<ref name=Daw2011><pubmed>21435563</pubmed></ref>。 | この課題は2つの段階で構成された試行を繰り返し行う。試行の各段階では、それぞれに2種類の画像選択肢の提示と被験者による一方の選択が行われる('''図2''')。第一段階目に表示される画像選択肢は固定(緑の背景)であり、被験者は任意の画像を選択することができる。第二段階目で表示される画像選択肢は2パターン存在し(ピンクまたは青の背景)、被験者が第一段階で選択した画像によりどちらに遷移するかの確率が変動する。例えば、第一段階目で右を選んだ場合、70%の確率で青、30%の確率でピンクの選択肢へ遷移する。左を選んだ場合は、反対に70%の確率でピンク、30%の確率で青の選択肢へ遷移する。この時、確率の高い方へ遷移した場合を“common”低い方へ遷移した場合を“rare”と呼称する<ref name=Daw2011><pubmed>21435563</pubmed></ref>。 | ||
| 68行目: | 68行目: | ||
この手法では、[[回帰分析]]に任意の説明変数を追加することが可能であり、model-based/model-free型学習の寄与度に影響を及ぼす要因の検証を行うことが可能である。各精神疾患関連症状とmodel-based/model-free型学習の寄与を比較解析した研究も行われており、強迫性障害や[[摂食障害]]、[[アルコール依存症]]のような強迫行為・[[侵入性思考]]の精神症状が強く表れる疾患において、model-based型学習の寄与度が低下することが報告されている<ref name=Gillan2016><pubmed>26928075</pubmed></ref>。 | この手法では、[[回帰分析]]に任意の説明変数を追加することが可能であり、model-based/model-free型学習の寄与度に影響を及ぼす要因の検証を行うことが可能である。各精神疾患関連症状とmodel-based/model-free型学習の寄与を比較解析した研究も行われており、強迫性障害や[[摂食障害]]、[[アルコール依存症]]のような強迫行為・[[侵入性思考]]の精神症状が強く表れる疾患において、model-based型学習の寄与度が低下することが報告されている<ref name=Gillan2016><pubmed>26928075</pubmed></ref>。 | ||
== | ==関与する脳領域 == | ||
定義で述べた通り、目的指向行動はR-O連合学習の結果形成される。連合学習における[[背内側線条体]]、およびこれを中心とした[[連合回路]](associative circuit)とも呼ばれる[[皮質-線条体-視床-皮質回路]](cortico-striato-thalamo-cortical [CSTC] circuit)の重要性は、[[実験動物]]およびヒトの研究の両面から検証されてきた<ref name=Balleine2010><pubmed>19776734</pubmed></ref>。 | 定義で述べた通り、目的指向行動はR-O連合学習の結果形成される。連合学習における[[背内側線条体]]、およびこれを中心とした[[連合回路]](associative circuit)とも呼ばれる[[皮質-線条体-視床-皮質回路]](cortico-striato-thalamo-cortical [CSTC] circuit)の重要性は、[[実験動物]]およびヒトの研究の両面から検証されてきた<ref name=Balleine2010><pubmed>19776734</pubmed></ref>。 | ||
| 81行目: | 81行目: | ||
=== 目的指向性/習慣性の調節障害 === | === 目的指向性/習慣性の調節障害 === | ||
通常、目的指向行動の習慣化には、長期間にわたって同じ行動を反復して行う必要がある。そのため、不利益の大きい行動は習慣化される前に反復が中断され、習慣化されることは稀であるが、一旦習慣化されてしまうと、行動による益・不利益の判断(価値判断)に非依存的となるため、たとえ不利益の大きい行動であっても修正・消去することが困難となる。 | 通常、目的指向行動の習慣化には、長期間にわたって同じ行動を反復して行う必要がある。そのため、不利益の大きい行動は習慣化される前に反復が中断され、習慣化されることは稀であるが、一旦習慣化されてしまうと、行動による益・不利益の判断(価値判断)に非依存的となるため、たとえ不利益の大きい行動であっても修正・消去することが困難となる。 | ||
近年、こうした不利益・不適切な状況下であっても特定の行動を反復する強迫症状の背景には、行動の習慣化促進が関与する可能性が示唆されている<ref name=Robbins2019><pubmed>30946823</pubmed></ref>。実際に強迫症状を示す疾患(強迫性障害、[[依存症]]、摂食障害など)では、model-free型学習への寄与が大きく、より習慣的な行動を取りやすいことが報告されている<ref name=Gillan2016 />。 | |||
また、年齢によってもmodel-based型学習の寄与度が変化することが知られている。具体的には、幼年期から青年期にかけては年齢とともにmodel-based型学習の寄与が上昇する一方、青年期と老年期の比較では老年期の方がmodel-based型学習の寄与が低くなることが報告されている<ref name=Decker2016><pubmed>27084852</pubmed></ref><ref name=Eppinger2013><pubmed>24399925</pubmed></ref>。 | また、年齢によってもmodel-based型学習の寄与度が変化することが知られている。具体的には、幼年期から青年期にかけては年齢とともにmodel-based型学習の寄与が上昇する一方、青年期と老年期の比較では老年期の方がmodel-based型学習の寄与が低くなることが報告されている<ref name=Decker2016><pubmed>27084852</pubmed></ref><ref name=Eppinger2013><pubmed>24399925</pubmed></ref>。 | ||