「ドリフト拡散モデル」の版間の差分

提供:脳科学辞典
ナビゲーションに移動 検索に移動
編集の要約なし
(2人の利用者による、間の55版が非表示)
1行目: 1行目:
<div align="right">   
<div align="right">   
<font size="+1">[https://researchmap.jp/7000006268 片平 健太郎]</font><br>
<font size="+1">[https://researchmap.jp/7000006268 片平 健太郎]</font><br>
''産業技術総合研究所人間情報インタラクション研究部門''<br>
''国立研究開発法人 産業技術総合研究所 人間情報インタラクション研究部門''<br>
<font size="+1">[https://researchmap.jp/ykunisato 国里 愛彦]</font><br>
<font size="+1">[https://researchmap.jp/ykunisato 国里 愛彦]</font><br>
''専修大学人間科学部心理学科''<br>
''専修大学 人間科学部心理学科''<br>
DOI:<selfdoi /> 原稿受付日:2021年7月14日 原稿完成日:2021年8月26日<br>
 
担当編集委員:[https://researchmap.jp/kkitajo 北城 圭一](生理学研究所)<br>
</div>
</div>


英:drift diffusion model 独:Drift-Diffusionsmodell
英語名:drift diffusion model


類義語:逐次サンプリングモデル (sequential sampling model)
類義語:逐次サンプリングモデル (sequential sampling model)


{{box|text= ドリフト拡散モデルは、刺激呈示から反応が起こるまでの意思決定プロセスを説明する数理モデルの一つである。反応選択と反応時間を説明するモデルとして、心理学や神経科学の研究において幅広く用いられている。その性質は確率過程に関する数学的理論や計算機シミュレーションにより詳細に調べられている。実際の反応データからモデルのパラメータを推定することも可能であり、パラメータの個人差や群間差も検討されている。モデルの振る舞いに対応する神経活動も観測されており、意思決定の神経基盤のモデルとしても用いられている。
{{box|text=
ドリフト拡散モデルは,刺激呈示から反応が起こるまでの意思決定プロセスを説明する数理モデルの一つである。反応選択と反応時間を説明するモデルとして,心理学や神経科学の研究において幅広く用いられている。その性質は確率過程に関する数学的理論や計算機シミュレーションにより詳細に調べられている。実際の反応データからモデルのパラメータを推定することも可能であり,その個人差や群間差も検討されている。また,モデルの振る舞いに対応する神経活動も観測されており,意思決定の神経基盤のモデルとしても注目されている。
}}
}}


==概要==
==ドリフト拡散モデルの概要==
 
[[Image:DDMの概要.png|thumb|520px|<b>図1.ドリフト拡散モデルにおける反応と反応時間の生成過程</b>]]
 ドリフト拡散モデルは、刺激呈示から反応が起こるまでの経過時間([[反応時間]])と反応選択の分布を説明するモデルである。Ratcliff
<ref name=Ratclif1978><b>Ratcliff, R.(1978).</b><br>A theory of memory retrieval.<br><i>Psychological Review</i> 1978, 85(2);59–108</ref>により提案され、心理学や神経科学における反応時間のモデリングにおいて、幅広く用いられている<ref name=Ratclif2016><pubmed>26952739</pubmed></ref>。


 ドリフト拡散モデルが適用されるのは、刺激の呈示後1秒から2秒程度の時間内に2種類の反応から一つを選択することが求められるようなタイプの意思決定である。熟考の末判断を下すような時間のかかる意思決定は適用対象ではないとされる。また、いずれかの反応が正解であり、もう片方の反応は不正解とされる場合が多いが、必ずしもその限りではない。適用される意思決定のタイプとしては、呈示された刺激が以前にも呈示されたものであるか新規なものであるかを判断する[[記憶]]課題<ref name=Ratclif1978 />、明るさや動きなどの刺激の物理的特徴について判断する[[知覚]]的判断<ref><pubmed> 12812276</pubmed></ref><ref><pubmed>15066392</pubmed></ref>、その他、[[語彙]]判断<ref><pubmed>14756592</pubmed></ref>、数量的判断<ref><pubmed>24446719</pubmed></ref>、文章処理<ref><pubmed>20431690</pubmed></ref>、選好判断<ref><pubmed>20835253</pubmed></ref>など多岐にわたる。
[[Image:DDMの概要.png|thumb|420px|<b>図1.ドリフト拡散モデルにおける反応と反応時間の生成過程</b>]]
 ドリフト拡散モデルは,刺激呈示から反応が起こるまでの経過時間(反応時間)と反応選択の分布を説明するモデルである。ドリフト拡散モデルは,Ratcliff
<ref name=Ratclif1978><b>Ratcliff, R.(1978).</b><br>A theory of memory retrieval.<br><i>Psychological Review</i> 1978, 85(2);59–108</ref>により提案され,心理学や神経科学における反応時間のモデリングにおいて,幅広く用いられている<ref name=Ratclif2016><pubmed> 26952739 </pubmed></ref>


 ドリフト拡散モデルは、[[逐次サンプリングモデル]] (sequential sampling model) の一種である。逐次サンプリングモデルでは、刺激が呈示されると生体は時間経過とともに感覚入力やこれまでの経験の記憶など、判断に必要な情報 (エビデンス) を蓄積していき、その蓄積が境界 ([[閾値]]) を越えた時に反応が出力されると仮定する。蓄積されるエビデンスはノイジーであり、確率的な揺らぎを伴うと仮定される (刺激自体がノイズを含む場合もあるが、その入力情報を伝える[[神経細胞]]の活動にもノイズが含まれると考えられる)。
 ドリフト拡散モデルが適用されるのは,刺激の呈示後から1秒から2秒程度の時間内に2種類の反応から一つを選択することが求められるようなタイプの意思決定である。熟考の末判断を下すような時間のかかる意思決定は適用対象ではないとされる。また,いずれかの反応が正解であり,もう片方の反応は不正解とされる場合が多いが,必ずしもその限りではない。適用される意思決定のタイプとしては,呈示された刺激が以前にも呈示されたものであるか新規なものであるかを判断する記憶課題<ref name=Ratclif1978 />,明るさや動きなどの刺激の物理的特徴について判断する知覚的判断<ref><pubmed> 12812276</pubmed></ref><ref><pubmed>15066392</pubmed></ref>,その他,語彙判断<ref><pubmed>14756592</pubmed></ref>,数量的判断<ref><pubmed>24446719</pubmed></ref>,文章処理,<ref><pubmed>20431690</pubmed></ref>,選好判断<ref><pubmed>20835253</pubmed></ref>など多岐にわたる。


 行動課題を実施した際に反応までにかかる時間は、'''図1'''に示すように、(1)刺激の読み込み、(2)エビデンスの蓄積、(3)反応 (ボタン押しなどの運動) に分解することができる。(1)刺激の読み込みと(3)反応は、判断に関わる過程ではないので、それにかかる時間は[[非決定時間]] (non decision time) と呼ばれる。(2)エビデンスの蓄積にかかる時間は、[[決定時間]] (decision time) と呼ばれる。ドリフト拡散モデルをはじめとする逐次サンプリングモデルを用いることで、非決定時間の推定と決定時間の生成に関わるパラメータの推定を行うことができる。
 ドリフト拡散モデルは,逐次サンプリングモデル (sequential sampling model) の一種である。逐次サンプリングモデルでは,刺激が呈示されると生体は時間経過とともに感覚入力やこれまでの経験の記憶など,判断に必要な情報 (エビデンス) を蓄積していき,その蓄積が境界 (閾値) を越えた時に反応が出力されると仮定する。蓄積されるエビデンスはノイジーであり,確率的な揺らぎを伴うと仮定される (刺激自体がノイズを含む場合もあるが,その入力情報を伝える神経細胞の活動にもノイズが含まれると考えられる)。行動課題を実施した際に反応までにかかる時間は,図1に示すように,(1)刺激の読み込み,(2)エビデンスの蓄積,(3)反応 (ボタン押しなどの運動) に分解することができる。(1)刺激の読み込みと(3)反応は,判断に関わる過程ではないので,それにかかる時間は非決定時間 (non decision time) と呼ばれる。(2)エビデンスの蓄積にかかる時間は,決定時間 (decision time) と呼ばれる。ドリフト拡散モデルをはじめとする逐次サンプリングモデルを用いることで,非決定時間の推定と決定時間の生成に関わるパラメータの推定を行うことができる。


 ドリフト拡散モデルにおけるエビデンスの蓄積過程は、開始点 <math>z</math> から始まり、一定の[[ドリフト率]]に従ってエビデンスが蓄積される ('''図1''')。そして、上下いずれかの境界までエビデンスが蓄積されると反応が出力される。'''図1'''の場合、上側の境界<math>a</math>に到達すると反応Aが出力され、下側の境界0に到達すると反応Bが出力される。開始点から境界<math>a</math>または0までの距離が長いほど、エビデンスの蓄積にかかる時間が長くなる。また、開始点から境界までの蓄積過程における速度は、ドリフト率に依存する。反応Aが正解である場合は、ドリフト率は正の値をとると仮定される。ドリフト率が大きいほど、境界まで到達する時間は短くなる。開始点、ドリフト率、境界、そして非決定時間がドリフト拡散モデルの振る舞いを決定する主なパラメータである。
 ドリフト拡散モデルにおけるエビデンスの蓄積過程は,開始点<math>z</math>から始まり,一定のドリフト率に従ってエビデンスが蓄積される (図1)。そして,上下いずれかの境界までエビデンスが蓄積されると反応が出力される。図1の場合,上側の境界<math>a</math>に到達すると反応Aが出力され,下側の境界0に到達すると反応Bが出力される。開始点と境界<math>a</math>の距離が長いほど,エビデンスの蓄積にかかる時間が長くなる。また,開始点から境界までの蓄積過程における速度は,ドリフト率に依存する。ドリフト率が大きいほど,境界まで到達する時間は短くなる。開始点,ドリフト率,境界,そして非決定時間がドリフト拡散モデルの振る舞いを決定する主なパラメータである。


 これらのパラメータの値には個人差 (個体差) があると考えられ、また、個人の中でも状態や実験条件などによって変化すると仮定される。例えば、生体が注意深く反応するほど[[境界パラメータ]]<math>a</math>は大きくなり、開始点と境界の間は広がると仮定される<ref name=Ratclif2016 />。逆に、素早い反応が求められる場合は<math>a</math>は小さくなると仮定される。一般に、意思決定におけるスピードと正確性の間には、片方を重視するともう片方が損なわれるというトレードオフがある。境界パラメータ<math>a</math>の変化を通して、ドリフト拡散モデルはそのようなスピードと正確性のトレードオフをとらえることができる。開始点パラメータ<math>z</math>は刺激に関する事前の期待に対応する。例えば、反応Aを起こすべき刺激の出現が期待される場合は、開始点パラメータは大きい (<math>a</math>に近い) 値をとると仮定される。
 これらのパラメータの値には個人差 (個体差) があると考えられ,また,個人の中でも状態や実験条件などによって変化すると仮定される。例えば,生体が注意深く反応するほど境界パラメータ<math>a</math>は大きくなり,開始点と境界の間は広がると仮定される。逆に,素早い反応が求められる場合は<math>a</math>は小さくなると仮定される。一般に,意思決定におけるスピードと正確性の間には,片方を重視するともう片方が損なわれるというトレードオフがある。境界パラメータ<math>a</math>の変化を通して,ドリフト拡散モデルはそのようなスピードと正確性のトレードオフをとらえることができる。開始点パラメータ<math>z</math>は刺激に関する事前の期待に対応する。例えば,反応Aを起こすべき刺激の出現が期待される場合は,開始点パラメータは大きい (<math>a</math>に近い) 値をとると仮定される。


==モデルの定式化==
==モデルの定式化==
[[Image:DDM_animation.gif|thumb|400px|<b>図2. ドリフト拡散モデルのエビデンス蓄積過程と、反応時間分布</b><br>ドリフト率や開始点、境界は試行間で固定している (<math>v = 1, z = 0.5, a = 1</math>)。]]
 ここでは、反応Aと反応Bのいずれかの反応が求められる[[強制二肢選択課題]]を想定し、基本的なドリフト拡散モデルを考える。上側の境界を<math>a</math>、下側の境界を0, 開始点を<math>z</math>とする。上側の境界にエビデンスを表す変数<math>x</math>が到達した場合、そのタイミングで反応Aが起こり、下側の境界である0に到達したらそのタイミングで反応Bが起こると仮定する。
 刺激が呈示されてから、刺激情報の読み込みや反応の準備に必要な時間が経過してからエビデンスの蓄積が開始され、<math>x</math>が変化する。エビデンスの蓄積過程は以下の式のように連続時間上で定義される確率過程である、[[ウィーナー過程]] ([[ブラウン運動]]) に従うとする。
:<math>dx = v dt + \sigma dW</math>


ここで、<math>dx</math> は微小な時間間隔 <math>dt</math>の間の<math>x</math>の変化を表す。<math>v</math>はドリフト率である。反応Aが正解である場合は<math>v > 0</math>、反応Bが正解である場合は<math>v < 0</math>とする。<math>\sigma dW</math>は平均が0で分散が<math>\sigma^2 dt</math>となる正規分布に従うホワイトノイズを表す。
[[Image:DDM_animation.gif|thumb|320px|<b>図2.ドリフト拡散モデルのエビデンス蓄積過程と,反応時間分布。</b>ドリフト率や開始点,境界は試行間で固定している (<math>v = 1, z = 0.5, a = 1</math> )。]]


 ウィーナー過程は<math>dt \to 0</math>という極限における連続時間上で定義されるが、計算機上でシミュレーションする場合は、離散時間で近似する必要がある。例えばシンプルな近似法としては以下のようなものがある。微小な時間幅<math>\Delta t</math>を考え (例えば<math>\Delta t = 0.001</math> (秒)とする)、平均0, 分散1の[[wj:標準正規分布|標準正規分布]]に従う[[wj:正規乱数|正規乱数]]<math>\epsilon</math>を用いて、この時間幅<math>\Delta t</math>あたりの変数<math>x</math>の変化量を、以下の式で決定する。
 ここでは,反応Aと反応Bのいずれかの反応が求められる強制二肢選択課題を想定し,基本的なドリフト拡散モデルを考える。上側の境界を<math>a</math>,下側の境界を0, 開始点を<math>z</math>とする。上側の境界に決定変数 (decision variable) <math>x</math>が到達した場合,そのタイミングで反応Aが起こり,下側の境界である0に到達したらそのタイミングで反応Bが起こると仮定する。刺激が呈示されてから,刺激情報の読み込みや反応の準備に必要な時間が経過してからエビデンスの蓄積が開始され,<math>x</math>が変化する。エビデンスの蓄積過程は以下の式のように連続時間上で定義される確率過程である,ウィーナー過程 (ブラウン運動) に従うとする。


:<math>\Delta x = v \Delta t + \sigma \epsilon \sqrt{\Delta t} </math>
<math>dx = v dt + \sigma dW</math>


この式で<math>x</math>を更新していくことによりエビデンスの蓄積過程をシミュレートできる。'''図2'''の各軌道はこの方法により得られたものである。
ここで,<math>dx</math> は微小な時間間隔 <math>dt</math>の間の<math>x</math>の変化を表す。<math>v</math>はドリフト率である。反応Aが正解である場合は<math>v > 0</math>,反応Bが正解である場合は<math>v < 0</math>とする。<math>\sigma dW</math>は平均が0で分散が<math>\sigma^2 dt</math>となる正規分布に従うホワイトノイズを表す。ウィーナー過程は連続時間上で定義されるが,計算機上でシミュレーションする場合は,離散時間で近似する必要がある。例えばシンプルな近似法としては以下のようなものがある。微小な時間幅<math>\Delta t</math>を考え,平均0, 分散1の標準正規分布に従う正規乱数<math> \epsilon</math>を用いて,この時間幅<math>\Delta t</math>あたりの変数<math>x</math>の変化量を,以下の式で設定する。


 標準的なドリフト拡散モデルでは、開始点とドリフト率、および非決定時間は、試行間で変動すると仮定される<ref name=Ratclif1978 />。ドリフト率の試行間変動は、刺激に対する注意の変動などに対応すると考えられ、標準偏差<math>\eta</math>の正規分布に従って変動すると仮定される。この変動を仮定することで、正反応より誤反応の方が反応時間が長くなるという現象が説明可能となる。これは、ドリフト率が小さくなる試行において、ノイズの影響が強くなるため誤反応が起こりやすくなり、かつ反応時間が長くなるためである。
<math>\Delta x = v \Delta t + \sigma \epsilon \sqrt{\Delta t} </math>


 開始点の試行間変動は区間<math>[z-s_{z}, z+s_{z}]</math>の一様分布に従うと仮定される。これは、ある特定の刺激がどの程度呈示されやすいかについての期待が試行間で変動することを表現する。この変動により、誤反応が起こる試行で反応時間が短くなることが説明できる。これは、開始点が誤反応側の境界に寄っているときに、早い時間帯で誤反応が起きやすくなるためである。一度正反応の方に<math>x</math>が近づけば、開始点の影響はなくなるため、遅い時間帯では開始点の影響による誤反応は生じにくい。また、非決定時間も区間<math>[T_{er}-s_{t}, T_{er}+s_{t}]</math>の一様分布に従うと仮定される。
この式で<math>x</math>を更新していくことによりエビデンスの蓄積過程をシミュレートできる。図2の各軌道はこの計算により得られたものである。


 以上のように、標準的なドリフト拡散モデルのパラメータは、開始点の平均 (<math>z</math>)、開始点の試行間変動 (<math>s_{z}</math>)、ドリフト率の平均 (<math>v</math>)、ドリフト率の[[wj:標準偏差|標準偏差]] (<math>\eta</math>)、境界 (<math>a</math>)、非決定時間の平均 (<math>T_{er}</math>)、非決定時間の試行間変動 (<math>s_{t}</math>) の7つとなる。
 標準的なドリフト拡散モデルでは,開始点とドリフト率,および非決定時間は,試行間で変動すると仮定される<ref name=Ratclif1978 />。ドリフト率の試行間変動は,刺激に対する注意の変動などに対応すると考えられ,標準偏差<math>\eta</math>の正規分布に従って変動すると仮定される。この変動を仮定することで,正反応より誤反応の方が反応時間が長くなるという現象が説明可能となる。これは,ドリフト率が小さくなる試行において,誤反応が起こりやすくなり,かつ反応時間が長くなるためである。開始点の試行間変動は区間<math>[z-s_{z}, z+s_{z}]</math>の一様分布に従うと仮定される。これは,ある特定の刺激がどの程度呈示されやすいかについての期待が試行間で変動することを表現する。この変動により,誤反応が起こる試行で反応時間が短くなることが説明できる。これは,開始点が誤反応側の境界に寄っているときに,早い時間帯で誤反応が起きやすくなるためである。また,非決定時間も区間<math>[T_{er}-s_{t}, T_{er}+s_{t}]</math>の一様分布に従うと仮定される。


==選択確率および反応時間分布の理論解==
 以上より,標準的なドリフト拡散モデルのパラメータは,開始点の平均 (<math>z</math>),開始点の試行間変動 (<math>s_{z}</math>),ドリフト率の平均 (<math>v</math>),ドリフト率の標準偏差 (<math>\eta</math>),境界 (<math>a</math>),非決定時間の平均 (<math>T_{er}</math>),非決定時間の試行間変動 (<math>s_{t}</math>) の7つとなる。
 ドリフト拡散モデルの性質を調べるにはモデルのパラメータと反応時間の分布や選択確率の関係を知る必要がある。上述のようなドリフト拡散過程の計算機シミュレーションを多数回繰り返すことでそれらを数値的に得ることも可能であるが、それには大きな計算コストがかかる。


 ドリフト拡散モデルの利点は、確率過程等の数学の理論により理論的な選択確率や反応時間分布が解析的に求められることである。解析的に得られた選択確率や分布を用いることで、計算機シミュレーションをせずともパラメータが分布に及ぼす影響を調べることができる。また、理論的な選択確率や反応時間分布が実際のデータに合うようにパラメータを調整することで、パラメータを効率的に推定することも可能である。
==反応時間分布および選択確率の理論解==
 ドリフト拡散モデルの性質を調べるにはモデルのパラメータと選択確率や反応時間の分布の関係を理解する必要がある。上述のようなドリフト拡散過程の計算機シミュレーションを多数回繰り返すことでそれらを数値的に得ることも可能であるが,それには大きな計算コストがかかる。ドリフト拡散モデルのメリットは,確率過程等の数学的理論により理論的な選択確率や反応時間分布が解析的に求められることである。そのように得られた選択確率や分布を用いることで,計算機シミュレーションをせずともパラメータが分布に及ぼす影響を調べることができる。また,理論的な選択確率や反応時間分布が実際のデータに合うようにパラメータを調整することで,パラメータを効率的に推定することも可能である。


 上述のドリフト拡散モデルにおいて、各パラメータを固定した場合 (試行間変動は仮定しない場合) には、それぞれの選択肢を選ぶ確率、およびその反応時間の分布は以下のように求められる <ref name=Ratclif1978 />。下側の境界 (0) に到達し、反応Bが起こる確率は、ドリフト率<math>v</math>、境界<math>a</math>、開始点<math>z</math>の関数として、
 上述のドリフト拡散モデルにおいて,各パラメータを固定した場合 (試行間変動は仮定しない場合) には,それぞれの選択肢を選ぶ確率,およびその反応時間の分布は以下のように求められる <ref name=Ratclif1978 />。下側の境界 (0) に到達し,反応Bが起こる確率は,ドリフト率<math>v</math>,境界<math>a</math>,開始点<math>z</math>の関数として,


:<math>P(v, a, z) = \frac{e^{-2va/\sigma^2}-e^{-2vz/\sigma^2}}{e^{-2va/\sigma^2}-1}</math>
<math>P(v, a, z) = \frac{e^{-2va/\sigma^2}-e^{-2vz/\sigma^2}}{e^{-2va/\sigma^2}-1}</math>


で与えられる。ただしドリフト率<math>v</math>が0だった場合はこの確率は
と与えられる。ただしドリフト率<math>v</math>が0だった場合はこの確率は
:<math>P(v, a, z) = 1 - z/a</math>
<math>P(v, a, z) = 1 - z/a</math>
となる。反応Bが起こり、かつ非決定時間を除いた反応時間が<math>t</math>となる条件付き確率密度は
となる。さらに,反応Bが起こり,かつ非決定時間を除いた反応時間が<math>t </math>となる条件付き確率密度は


:<math>G(t, v, a, z) = \frac{\pi \sigma^2}{a^2} e^{-zv/\sigma^2} \sum_{k=1}^\infty k \sin \left(\frac{\pi z k}{a}\right) e^{-\frac{1}{2} (v^2 / \sigma^2 + \pi^2 k^2 \sigma^2/a^2)t} </math>
<math>G(t, v, a, z) = \frac{\pi \sigma^2}{a^2} e^{-zv/\sigma^2} \sum_{k=1}^\infty k \sin \left(\frac{\pi z k}{a}\right) e^{-\frac{1}{2} (v^2 / \sigma^2 + \pi^2 k^2 \sigma^2/a^2)t} </math>


で与えられる。境界<math>a</math>に到達し反応Aが起こり、かつその反応時間が<math>t</math>となる確率密度は、上の式において<math>v</math>を<math>-v</math>で, <math>z</math> を<math>a -z</math>で置き換えることで得られる。'''図2'''の上下の曲線はこれらの式により得られた条件付きの確率密度関数である。シミュレーションにより得た反応時間のヒストグラムも試行数が増えるにつれてこの分布に近づいていくことがわかる。
で与えられる。境界<math>a</math>に到達し反応Aが起こり,かつその反応時間が<math>t</math>となる確率密度は,上の式において<math>v</math>を<math>-v</math>で, <math>z</math> を<math>a -z</math>で置き換えることで得られる。図2の上下の曲線はこれらの式により得られた条件付きの確率密度関数である。シミュレーションにより得た反応時間のヒストグラムもサンプルが増えるにつれてこの分布に近づいていくことがわかる。


==モデルフィッティング==
==モデルフィッティング==


 上記のように解析的に得られる反応時間の分布が実際のデータに近づくようにパラメータを調整することで、モデルのパラメータを推定することができる。また、複数ある候補のモデルからデータをよりよく説明するモデルを選択することも可能となる。パラメータの推定やモデル選択をする作業を総称してモデルフィッティングと呼ぶ。
 上記のように解析的に得られる反応時間の分布が実際のデータに近づくようにパラメータを調整することで,明示的にドリフト拡散過程をシミュレートせずともモデルのパラメータを推定することができる。また,複数ある候補のモデルからデータをよりよく説明するモデルを選択することも可能となる。パラメータの推定やモデル選択をする作業を総称してモデルフィッティングと呼ぶ。


 実験で収集された反応データに対して、モデルフィッティングをする方法として、[[&chi;2最小化|&chi;<sup>2</sup>最小化]]、[[最尤法]]、[[重み付き最小二乗法]]、[[ベイズ推定]]等がある<ref><pubmed> 12412886</pubmed></ref>。モデルフィッティング用のソフトウェアとしては、以下がある。
実験で収集された反応データに対して,モデルフィッティングをする方法として,<math>\chi^{2}</math>最小化,最尤法,重み付き最小二乗法,ベイズ推定等がある<ref><pubmed> 12412886</pubmed></ref>。モデルフィッティング用のソフトウェアとしては,以下がある。


* Fast-dm<ref><pubmed>18183889</pubmed></ref>: Windowsで動作するソフトウェア。[[最尤推定]]、[[Kolmogorov-Smirnov]]、&chi;<sup>2</sup>最小化などの方法が可能である。
* Fast-dm<ref><pubmed>18183889</pubmed></ref>: Windowsで動作するソフトウェア。最尤推定,Kolmogorov-Smirnov,<math>\chi^{2}</math>最小化などの方法が可能である。
* DMAT<ref><pubmed>18411528</pubmed></ref>:ドリフト拡散モデル用MATLABツールボックス。
* DMAT<ref><pubmed>18411528</pubmed></ref>:ドリフト拡散モデル用MATLABツールボックス。
* EZ2<ref><pubmed>17546727</pubmed></ref>: ドリフト拡散モデルから試行間変動の推定を除いたシンプルなEZ拡散モデルを用いてモデルフィッティングするRパッケージ。
* EZ2<ref><pubmed>17546727</pubmed></ref>: ドリフト拡散モデルから試行間変動の推定を除いたシンプルなEZ拡散モデルを用いてモデルフィッティングするRパッケージ。
* HDDM<ref><pubmed>23935581</pubmed></ref>: ドリフト拡散モデルを用いて[[階層ベイズ推定]]を行うPythonパッケージ。
* HDDM<ref><pubmed>23935581</pubmed></ref>: ドリフト拡散モデルを階層ベイズ推定するPythonパッケージ。
* hBayesDM<ref><pubmed>29601060</pubmed></ref>: 意思決定課題に対して階層ベイズ推定を行うRパッケージ。ドリフト拡散モデル以外にも様々な意思決定のモデルを用いることができる。
* hBayesDM<ref><pubmed>29601060</pubmed></ref>: 意思決定課題に対して階層ベイズモデリングを行うRパッケージ。
* rtdists<ref>'''https://github.com/rtdists/rtdists/</ref>: ドリフト拡散モデルをはじめとする反応時間のモデリングに有用な関数が含められたRパッケージ。
* rtdists<ref>'''https://github.com/rtdists/rtdists/</ref>: ドリフト拡散モデルをはじめとする反応時間のモデリングに有用な関数が含められたRパッケージ。


 それぞれのモデルや推定方法には仮定がおかれていることがあり、モデルフィッティングに用いるデータがその仮定に合っているかどうかは事前に確認する必要がある。各種推定法に関する専門家による推奨については、Boehmらの論文<ref name=Boehm2018><b>Boehm, U., Annis, J., Frank, M. J., Hawkins, G. E., Heathcote, A., Kellen, D., Krypotos, A.-M., Lerche, V., Logan, G. D., Palmeri, T. J., van Ravenzwaaij, D., Servant, M., Singmann, H., Starns, J. J., Voss, A., Wiecki, T. V., Matzke, D., & Wagenmakers, E.-J.(2018). </b><br>Estimating across-trial variability parameters of the Diffusion Decision Model: Expert advice and recommendations. <i>Journal of Mathematical Psychology</i>, 87, 46–75</ref>にまとめられている。
 それぞれのモデルや推定方法には仮定がおかれていることがあり,モデルフィッティングに用いるデータがその仮定に合っているかどうかは事前に確認する必要がある。各種推定法に関する専門家による推奨については,Boehmらの論文<ref name=Boehm2018><b>Boehm, U., Annis, J., Frank, M. J., Hawkins, G. E., Heathcote, A., Kellen, D., Krypotos, A.-M., Lerche, V., Logan, G. D., Palmeri, T. J., van Ravenzwaaij, D., Servant, M., Singmann, H., Starns, J. J., Voss, A., Wiecki, T. V., Matzke, D., & Wagenmakers, E.-J.(2018). </b><br>Estimating across-trial variability parameters of the Diffusion Decision Model: Expert advice and recommendations.<br><i>Journal of Mathematical Psychology</i>, 87, 46–75</ref>にまとめられている。また,ドリフト拡散モデルでのモデルフィッティングにあたっては,十分なデータ数が必要になる。特に反応時間の分布の情報を用いてパラメータ推定する方法の場合は,試行数が100程度の場合は,ドリフト拡散モデルの試行間変動性にかかわるパラメータの推定が真値からずれることが示されている<ref><pubmed>18229471</pubmed></ref>。そのため,試行間変動性にかかわるパラメータの推定を行う場合は,できるだけ多くの試行数が必要になるが,試行数を増やすと参加者の動機づけが低下する,疲れの影響が出る,などの問題も生じる。また,そもそも試行数を増やすことが難しい実験状況も多い<ref name=Boehm2018 />。そこで,パラメータ推定にあたり,参加者集団のパタメータの分布も仮定した階層ベイズ推定を行うことで,各参加者の試行数は少なくとも安定した推定する方法も提案されている<ref><pubmed>23935581</pubmed></ref><ref><pubmed>29601060</pubmed></ref>。
 
 ドリフト拡散モデルでのモデルフィッティングにあたっては、十分なデータ数が必要になる。特に反応時間の分布の情報を用いてパラメータ推定をする方法では、試行数が100程度の場合はドリフト拡散モデルの試行間変動性にかかわるパラメータの推定が真値からずれることが示されている<ref><pubmed>18229471</pubmed></ref>。試行間変動性のパラメータの推定にはできるだけ多くの試行数が必要になるが、試行数を増やすと参加者の動機づけが低下する、疲れの影響が出る、などの問題も生じる。また、そもそも試行数を増やすことが難しい実験状況も多い<ref name=Boehm2018 />。そこで、パラメータ推定にあたり、参加者集団のパタメータの分布も仮定した階層ベイズ推定を行うことで、各参加者の試行数は少なくとも安定した推定をする方法も提案されている<ref><pubmed>23935581</pubmed></ref><ref><pubmed>29601060</pubmed></ref>。


==適用事例==
==適用事例==


[[Image:DDM_z_vs_v.png|thumb|520px|<b>図3.反応時間分布に及ぼすドリフト率 (左) 開始点パラメータ (右) の影響</b><br>破線は比較のための基準となるモデル (<math>v = 1.0</math>, <math>z = 0.5</math>, <math>a = 1.0</math>) を表す。縦軸のスケールが異なるが、左右のパネルで同じ分布である。左のパネルではドリフト率を大きくした場合 (<math>v = 2.0</math>) 、右のパネルでは開始点を高くした場合 (<math>z = 0.7</math>) の結果をそれぞれ実線で表している。]]
[[Image:DDM_z_vs_v.png|thumb|420px|<b>図3.反応時間分布に及ぼすドリフト率 (左) 開始点パラメータ (右) の影響。</b>破線は参照となるベースのモデル (<math>v = 1.0, z = 0.5, a = 1.0</math>) を表す。左のパネルではドリフト率を大きくした場合 (<math>v = 2.0</math>) ,右のパネルでは開始点を高くした場合 (<math>z = 0.7</math>) の結果をそれぞれ実線で表している。]]
 
 ドリフト拡散モデルを用いることで、反応分布の形状の情報を利用することが可能となり、単純な平均反応時間の解析では取りこぼされていた情報を利用して詳細なプロセスを検討することができる。


 例えば、開始点パラメータ<math>z</math>を増加させることと、ドリフト率<math>v</math>を増加させることはいずれも反応Aの選択確率を増加させ、その平均的な反応時間を短くする効果があるが、その反応時間分布の形状に与える影響が異なる。'''図3'''の左のパネルでは、開始点パラメータ<math>z</math>を固定し、ドリフト率を増加させている (実線が増加後)。この場合、反応Aの確率が高くなり、速い反応時間の密度が増加するため平均反応時間は短くなるが、反応時間の分布のピーク (最も密度が高くなる位置) はほとんど変化しない。一方、開始点パラメータ<math>z</math>を<math>a</math>に近づけた場合 ('''図3右''') は、反応Aの反応時間分布のピークが早い時間帯にシフトし、分布の歪みが大きくなっている。
 ドリフト拡散モデルを用いることで,反応分布の形状の情報を利用することが可能となり,単純な平均反応時間の解析では取りこぼされていた情報を利用して詳細なプロセスを検討することができる。例えば,開始点パラメータ<math>z</math>を増加させることと,ドリフト率<math>v</math>を増加させることはいずれも反応Aの選択確率を増加させ,その平均的な反応時間を短くする効果があるが,その反応時間分布の形状に与える影響が異なる。図3の左のパネルでは,開始点パラメータ<math>z</math>を固定し,ドリフト率を増加させている (実線が増加後)。この場合,反応Aの確率が高くなり,速い反応時間の密度が増加するため平均反応時間は短くなるが,反応時間の分布のピーク (最も密度が高くなる位置) はほとんど変化しない。一方,開始点パラメータ<math>z</math>を<math>a</math>に近づけた場合 (図3右) は,反応Aの反応時間分布のピークが速い時間帯にシフトし,分布の歪みが大きくなっている。


 ヒトやその他の動物の意思決定には、現在の感覚入力や過去の選択の結果のみならず、過去の選択履歴が次の選択に影響することが知られている。同じ選択を繰り返す傾向は選択の[[慣性]] (inertia) や[[固執性]] (perseverance) と呼ばれている<ref><pubmed>24333055</pubmed></ref>。そのような傾向はドリフト拡散モデルにおいてエビデンスの蓄積の開始点にバイアスを与えるという解釈が可能である。
 ヒトやその他の動物の意思決定には,現在の感覚入力や過去の選択の結果のみならず,過去の選択履歴が次の選択に影響することが知られている。同じ選択を繰り返す傾向は選択の慣性 (inertia) や固執性 (perseverance) と呼ばれている<ref><pubmed>24333055</pubmed></ref>。そのような傾向はドリフト拡散モデルではエビデンスの蓄積の開始点にバイアスを与えるという解釈が可能である。しかし,実際の知覚的意思決定課題における選択データにおいては,過去と同じ選択肢が選ばれる効果は,図3左のように比較的反応が遅い場合でも見られ,そのようなデータは開始点よりはむしろドリフト率が過去と同じ選択をする方向にバイアスがかかるとするモデルでよく説明されることが報告されている<ref><pubmed>31264959</pubmed></ref>。この結果は,選択履歴の効果が,知覚的なエビデンスの蓄積過程に影響するということを示唆している。


 しかし、実際の知覚的意思決定課題における選択データにおいては、過去と同じ選択肢が選ばれる効果は、'''図3左'''のように比較的反応が遅い場合でも見られ、そのようなデータは開始点よりはむしろドリフト率が過去と同じ選択をする方向にバイアスがかかると仮定するモデルでよく説明される<ref><pubmed>31264959</pubmed></ref>。この事実は、選択履歴の効果が、知覚的なエビデンスの蓄積過程に影響するということを示唆している。
 ドリフト拡散モデルのパラメータの推定値を利用して,選択に関するプロセスの個人差に影響する要因も検討されている。代表的な事例は加齢の効果について調べたものである。例えば高齢者は一般に多くの認知課題において反応が遅くなることが示されているが,ドリフト拡散モデルを適用して検討した研究では,高齢者の反応には長い非決定時間,そして境界の間隔が大きいという特徴はあるものの,ドリフト率には若年者との違いはないということが報告されている<ref><pubmed>19962693</pubmed></ref>。一方で,幼児では境界分離が大きく,非決定時間が長いことに加え,ドリフト率も比較的小さいことが示されている<ref><pubmed>22188547</pubmed></ref>。また,注意欠如・多動症 (ADHD) や読字障害 (dyslexia) を有する若年者はそうでない統制群に比べ,ドリフト率が低い傾向があることを示した研究もある<ref><pubmed>20926067</pubmed></ref><ref><pubmed>22010894</pubmed></ref>。一般知能 (IQ) との関係に関しては,高IQ群は低IQ群よりドリフト率が2倍程度高いという結果が報告されている <ref><pubmed>19962693</pubmed></ref> <ref><pubmed>21707207</pubmed></ref> 。


 ドリフト拡散モデルのパラメータの推定値を利用して、選択に関するプロセスの個人差に影響する要因も検討されている。代表的な事例は加齢の効果について調べたものである。例えば高齢者は一般に多くの認知課題において若年者に比べて反応が遅くなることが示されているが、ドリフト拡散モデルを適用して検討した研究では、高齢者の反応には長い非決定時間、そして境界の間隔が大きいという特徴はあるものの、ドリフト率には若年者との違いはないということが報告されている<ref><pubmed>19962693</pubmed></ref>。
==神経活動との対応==


 一方で、幼児では境界パラメータが大きく、非決定時間が長いことに加え、ドリフト率も比較的小さいことが示されている<ref><pubmed>22188547</pubmed></ref>。また、[[注意欠如・多動症]] ([[ADHD]]) や[[読字障害]] ([[dyslexia]]) を有する若年者はそうでない統制群に比べ、ドリフト率が低い傾向があることを示した研究もある<ref><pubmed>20926067</pubmed></ref><ref><pubmed>22010894</pubmed></ref>。[[知能指数]] ([[IQ]]) に関しては、高IQ群は低IQ群よりドリフト率が2倍程度高いという結果が報告されている <ref><pubmed>19962693</pubmed></ref> <ref><pubmed>21707207</pubmed></ref> 。
 主にサルを対象とした単一細胞レベルでの神経活動記録により,エビデンスの蓄積過程に対応する神経活動が検討されてきた。例えば視線でターゲットを選択することで反応する意思決定課題においては,ターゲットの方向へのサッケード時に選択的に活動するLIP野 (lateral intraparietal cortex) の細胞は刺激の呈示とともに徐々に活動が増加し,ある閾値に到達したときにサッケード反応が起こるということが観測されており,その振る舞いはエビデンスの蓄積を表現する逐次サンプリングモデルと対応付けられて議論されている<ref><pubmed>8570606</pubmed></ref>。
 
==神経活動との関連==
 
 主に[[サル]]を被験体とした単一細胞レベルでの神経活動記録により、エビデンスの蓄積過程に対応する神経活動が検討されてきた。例えば視線でターゲットを選択することで反応する意思決定課題においては、ターゲットの方向へのサッケード時に選択的に活動する[[LIP野]] ([[lateral intraparietal cortex]]) の細胞は刺激の呈示とともに徐々に活動が増加し、その発火率 (単位時間あたりの活動電位の数) がある閾値に到達したときに[[サッケード]]反応が起こるということが観測されている。その振る舞いはドリフト拡散モデルをはじめとする逐次サンプリングモデルと対応付けられて議論されている<ref><pubmed>8570606</pubmed></ref>。
 
 ヒトを対象とした研究においては、[[fMRI]]や[[脳波]]でとらえられた神経活動とドリフト拡散モデルが関連づけられて分析されている。fMRIや脳波ではドリフト拡散モデルの試行内のダイナミクスに対応するような細胞単位の活動の変化を計測することは難しい。そのため、主にドリフト拡散モデルのパラメータの試行間変動と神経活動の試行間変動の関連に注目した分析がなされている <ref name=Frank2015><pubmed>25589744</pubmed></ref> <ref><pubmed>25844875</pubmed></ref>。例えば、fMRIで観測される[[視床下核]]の活動を反映する[[BOLD信号]]や、脳波から観測される前頭正中線[[θリズム]]等がドリフト拡散モデルの境界パラメータに影響することを仮定した分析が行われている <ref name= Frank2015 />。


==その他の逐次サンプリングモデル==
==その他の逐次サンプリングモデル==


[[Image:逐次サンプリングモデルの図.png|thumb|520px|<b>図4.逐次サンプリングモデルの種類</b><br>Ratcliff et al.,2016<ref name=Ratclif2016 />を元に一部改変。]]
[[Image:逐次サンプリングモデルの図.png|thumb|520px|<b>図4.逐次サンプリングモデルの種類</b>(Ratcliff et al.,2016<ref name=Ratclif2016 />を元に一部改変)]]
 逐次サンプリングモデルは、ドリフト拡散モデルだけではない。'''図4'''に示すように、逐次サンプリングモデルは、エビデンスの蓄積に関する基準が絶対的 (選択肢ごとに独立にエビデンスを蓄積する) か相対的 (選択肢の間のエビデンスの差を蓄積する) か、対象とする時間が連続的か離散的か、蓄積するエビデンスが連続的か離散的か、ドリフト率が固定か変化するかなどによって分類することができる。
 逐次サンプリングモデルは,ドリフト拡散モデルだけではない。図4に示すように,逐次サンプリングモデルは,エビデンスの蓄積に関する基準が絶対的 (選択肢ごとに独立にエビデンスを蓄積する) か相対的 (選択肢の間のエビデンスの差を蓄積する) か,対象とする時間が連続的か離散的か,蓄積するエビデンスが連続的か離散的か,ドリフト率が固定か変化するかなどによって分類することができる。ドリフト拡散モデルは,逐次サンプリングモデルの代表的なモデルであるが,モデルの設定においては複数あるモデルの1つの形式であると言える(代表的な逐次サンプリングモデルのモデル間の差異については,Ratcliff & Smith(2004)<ref><pubmed>15065913</pubmed></ref>を参照)。
 
 ドリフト拡散モデルは、逐次サンプリングモデルの代表的なモデルであるが、モデルの設定においては複数あるモデルの1つの形式であると言える(代表的な逐次サンプリングモデルのモデル間の差異については、Ratcliff & Smith (2004)<ref><pubmed>15065913</pubmed></ref>を参照)。
 
[[Image:LBAの概要.png|thumb|420px|<b>図5.線形弾道蓄積モデルにおける反応と反応時間の生成過程</b>]]
 
 ドリフト拡散モデル以外の代表的な逐次サンプリングモデルとして、[[線形弾道蓄積モデル]]<ref><pubmed>18243170</pubmed></ref>がある。'''図5'''にあるように、線形弾道蓄積モデルは、ドリフト拡散モデルと類似しているが、エビデンスの蓄積の基準が絶対的なことと確率的ではない点が異なる。
 
 ドリフト拡散モデルでは、反応はエビデンス蓄積が上の境界と下の境界のどちらに到達するかで決まる相対的なものであった。一方、線形弾道蓄積モデルでは、それぞれの反応は独立してエビデンスの蓄積を行って、最終的に先に閾値(<math>b</math>)に到達した反応が出力される('''図5'''の場合、先に<math>b</math>に到達した反応Aが出力される)。
 
 エビデンスの蓄積が始まる点を開始点(<math>a</math>)と呼び、選択肢で同一のこともあるが、異なることもある。開始点の位置の違いは、エビデンスの蓄積の前に存在する選択肢に対するバイアスとして解釈される。ドリフト拡散モデルと同様にエビデンスの蓄積の速さはドリフト率(<math>d</math>)が決めるが、蓄積過程は線形かつ非確率的である。各試行のドリフト率(<math>d</math>)は、平均<math>v</math>、標準偏差<math>s</math>の正規分布に従い、各試行の開始点(<math>a</math>)は、0から<math>A</math>(開始点の上限)の一様分布に従う。決定時間は、<math>(b-a)/d</math>で求めることができ、非決定時間 (<math>\tau</math>)は、全試行で一定とする。


 <math>a</math>と<math>d</math>は、推定するパラメータではなく、<math>v, b, A, s, \tau</math>が推定するパラメータになる。線形弾道蓄積モデルは、ドリフト拡散モデルよりも推定するパラメータが少なく、選択肢が3つ以上ある状況にも適用できるという利点がある。
[[Image:LBAの概要.png|thumb|420px|<b>図5.線形弾道蓄積モデルにおける反応と反応時間の生成過程</b>]]<br>


==強化学習モデルとの統合==
 ドリフト拡散モデル以外の代表的な逐次サンプリングモデルとして,線形弾道蓄積モデル<ref><pubmed>18243170</pubmed></ref>がある。図5にあるように,線形弾道蓄積モデルは,ドリフト拡散モデルと類似しているが,エビデンスの蓄積の基準が絶対的なことと確率的ではない点が異なる。ドリフト拡散モデルでは,反応はエビデンス蓄積が上の境界と下の境界のどちらに到達するかで決まる相対的なものであった。一方,線形弾道蓄積モデルでは,それぞれの反応は独立してエビデンスの蓄積を行って,最終的に先に閾値(<math>b</math>)に到達した反応が出力される(図5の場合,先に<math>b</math>に到達した反応Aが出力される)。エビデンスの蓄積が始まる点を開始点(<math>a</math>)と呼び,選択肢で同一のこともあるが,異なることもある。開始点の位置の違いは,エビデンスの蓄積の前に存在する選択肢に対するバイアスとして解釈される。ドリフト拡散モデルと同様にエビデンスの蓄積の速さはドリフト率(<math>d</math>)が決めるが,蓄積過程は線形かつ非確率的である。各試行のドリフト率(<math>d</math>)は,平均<math>v</math>,標準偏差<math>s</math>の正規分布に従い,各試行の開始点(<math>a</math>)は,0から<math>A</math>(開始点の上限)の一様分布に従う。決定時間は,<math>(b-a)/d</math>で求めることができ,非決定時間 (<math>\tau</math>)は,全試行で一定とする。<math>a</math>と<math>d</math>は,推定するパラメータではなく,<math>v, b, A, s, \tau</math>が推定するパラメータになる。線形弾道蓄積モデルは,ドリフト拡散モデルよりも推定するパラメータが少なく,2選択肢以外の状況にも適用できるという利点がある。


 ドリフト拡散モデルは試行内の刺激呈示から反応出力 (選択) までのプロセスを表現するモデルであるが、試行間の選択傾向の変化を表す他の数理モデルと組み合わせることもできる。例えば、報酬に基づく学習のプロセスを表現する代表的なモデルである[[強化学習モデル]]と組み合わせた枠組みが提案されている<ref><pubmed>27966103</pubmed></ref><ref><pubmed>25589744</pubmed></ref>。
==モデルの拡張 (強化学習モデルとの統合)==


 一般の強化学習モデルでは、行動の結果与えられる報酬に基づいて各行動の価値が計算され、価値の高い行動が高い確率で選択される。ドリフト拡散モデルのドリフト率をこの行動の価値の関数にすることで、選択肢の価値の差が小さいほど反応が競合し、反応時間が長くなるという効果を表すことができる。このように強化学習モデルを組み合わせて用いることで、ドリフト拡散モデルによる反応時間や選択の予測が改善できる。また、逆にドリフト拡散モデルにより反応時間の情報を用いることで、強化学習モデルのパラメータの信頼性も改善されるという報告もある <ref><pubmed>30759077</pubmed></ref>。
 ドリフト拡散モデルは試行内の刺激呈示から反応出力 (選択) までのプロセスを表現するモデルであるが,試行間の選択傾向の変化を表す他の数理モデルと組み合わせることもできる。例えば,報酬に基づく学習のプロセスを表現する代表的なモデルである強化学習モデルと組み合わせた枠組みが提案されている<ref><pubmed>27966103</pubmed></ref><ref><pubmed>25589744</pubmed></ref>。一般の強化学習モデルでは,行動の結果与えられる報酬に基づいて各行動の価値が計算され,価値の高い行動が高い確率で選択される。ドリフト拡散モデルのドリフト率をこの行動の価値の関数にすることで,選択肢の価値の差が小さいほど反応が競合し,反応時間が長くなるという効果を表すことができる。このように強化学習モデルを組み合わせて用いることで,ドリフト拡散モデルによる反応時間や選択の予測が改善できる。また,逆にドリフト拡散モデルにより反応時間の情報を用いることで,強化学習モデルのパラメータの信頼性も改善されるという報告もある <ref><pubmed>30759077</pubmed></ref>。


==参考文献==
==参考文献==
<references />
<references />

2021年7月9日 (金) 14:34時点における版

片平 健太郎
国立研究開発法人 産業技術総合研究所 人間情報インタラクション研究部門
国里 愛彦
専修大学 人間科学部心理学科

英語名:drift diffusion model

類義語:逐次サンプリングモデル (sequential sampling model)

ドリフト拡散モデルは,刺激呈示から反応が起こるまでの意思決定プロセスを説明する数理モデルの一つである。反応選択と反応時間を説明するモデルとして,心理学や神経科学の研究において幅広く用いられている。その性質は確率過程に関する数学的理論や計算機シミュレーションにより詳細に調べられている。実際の反応データからモデルのパラメータを推定することも可能であり,その個人差や群間差も検討されている。また,モデルの振る舞いに対応する神経活動も観測されており,意思決定の神経基盤のモデルとしても注目されている。

ドリフト拡散モデルの概要

図1.ドリフト拡散モデルにおける反応と反応時間の生成過程

 ドリフト拡散モデルは,刺激呈示から反応が起こるまでの経過時間(反応時間)と反応選択の分布を説明するモデルである。ドリフト拡散モデルは,Ratcliff [1]により提案され,心理学や神経科学における反応時間のモデリングにおいて,幅広く用いられている[2]

 ドリフト拡散モデルが適用されるのは,刺激の呈示後から1秒から2秒程度の時間内に2種類の反応から一つを選択することが求められるようなタイプの意思決定である。熟考の末判断を下すような時間のかかる意思決定は適用対象ではないとされる。また,いずれかの反応が正解であり,もう片方の反応は不正解とされる場合が多いが,必ずしもその限りではない。適用される意思決定のタイプとしては,呈示された刺激が以前にも呈示されたものであるか新規なものであるかを判断する記憶課題[1],明るさや動きなどの刺激の物理的特徴について判断する知覚的判断[3][4],その他,語彙判断[5],数量的判断[6],文章処理,[7],選好判断[8]など多岐にわたる。

 ドリフト拡散モデルは,逐次サンプリングモデル (sequential sampling model) の一種である。逐次サンプリングモデルでは,刺激が呈示されると生体は時間経過とともに感覚入力やこれまでの経験の記憶など,判断に必要な情報 (エビデンス) を蓄積していき,その蓄積が境界 (閾値) を越えた時に反応が出力されると仮定する。蓄積されるエビデンスはノイジーであり,確率的な揺らぎを伴うと仮定される (刺激自体がノイズを含む場合もあるが,その入力情報を伝える神経細胞の活動にもノイズが含まれると考えられる)。行動課題を実施した際に反応までにかかる時間は,図1に示すように,(1)刺激の読み込み,(2)エビデンスの蓄積,(3)反応 (ボタン押しなどの運動) に分解することができる。(1)刺激の読み込みと(3)反応は,判断に関わる過程ではないので,それにかかる時間は非決定時間 (non decision time) と呼ばれる。(2)エビデンスの蓄積にかかる時間は,決定時間 (decision time) と呼ばれる。ドリフト拡散モデルをはじめとする逐次サンプリングモデルを用いることで,非決定時間の推定と決定時間の生成に関わるパラメータの推定を行うことができる。

 ドリフト拡散モデルにおけるエビデンスの蓄積過程は,開始点から始まり,一定のドリフト率に従ってエビデンスが蓄積される (図1)。そして,上下いずれかの境界までエビデンスが蓄積されると反応が出力される。図1の場合,上側の境界に到達すると反応Aが出力され,下側の境界0に到達すると反応Bが出力される。開始点と境界の距離が長いほど,エビデンスの蓄積にかかる時間が長くなる。また,開始点から境界までの蓄積過程における速度は,ドリフト率に依存する。ドリフト率が大きいほど,境界まで到達する時間は短くなる。開始点,ドリフト率,境界,そして非決定時間がドリフト拡散モデルの振る舞いを決定する主なパラメータである。

 これらのパラメータの値には個人差 (個体差) があると考えられ,また,個人の中でも状態や実験条件などによって変化すると仮定される。例えば,生体が注意深く反応するほど境界パラメータは大きくなり,開始点と境界の間は広がると仮定される。逆に,素早い反応が求められる場合はは小さくなると仮定される。一般に,意思決定におけるスピードと正確性の間には,片方を重視するともう片方が損なわれるというトレードオフがある。境界パラメータの変化を通して,ドリフト拡散モデルはそのようなスピードと正確性のトレードオフをとらえることができる。開始点パラメータは刺激に関する事前の期待に対応する。例えば,反応Aを起こすべき刺激の出現が期待される場合は,開始点パラメータは大きい (に近い) 値をとると仮定される。

モデルの定式化

図2.ドリフト拡散モデルのエビデンス蓄積過程と,反応時間分布。ドリフト率や開始点,境界は試行間で固定している ( )。

 ここでは,反応Aと反応Bのいずれかの反応が求められる強制二肢選択課題を想定し,基本的なドリフト拡散モデルを考える。上側の境界を,下側の境界を0, 開始点をとする。上側の境界に決定変数 (decision variable) が到達した場合,そのタイミングで反応Aが起こり,下側の境界である0に到達したらそのタイミングで反応Bが起こると仮定する。刺激が呈示されてから,刺激情報の読み込みや反応の準備に必要な時間が経過してからエビデンスの蓄積が開始され,が変化する。エビデンスの蓄積過程は以下の式のように連続時間上で定義される確率過程である,ウィーナー過程 (ブラウン運動) に従うとする。

ここで, は微小な時間間隔 の間のの変化を表す。はドリフト率である。反応Aが正解である場合は,反応Bが正解である場合はとする。は平均が0で分散がとなる正規分布に従うホワイトノイズを表す。ウィーナー過程は連続時間上で定義されるが,計算機上でシミュレーションする場合は,離散時間で近似する必要がある。例えばシンプルな近似法としては以下のようなものがある。微小な時間幅を考え,平均0, 分散1の標準正規分布に従う正規乱数を用いて,この時間幅あたりの変数の変化量を,以下の式で設定する。

この式でを更新していくことによりエビデンスの蓄積過程をシミュレートできる。図2の各軌道はこの計算により得られたものである。

 標準的なドリフト拡散モデルでは,開始点とドリフト率,および非決定時間は,試行間で変動すると仮定される[1]。ドリフト率の試行間変動は,刺激に対する注意の変動などに対応すると考えられ,標準偏差の正規分布に従って変動すると仮定される。この変動を仮定することで,正反応より誤反応の方が反応時間が長くなるという現象が説明可能となる。これは,ドリフト率が小さくなる試行において,誤反応が起こりやすくなり,かつ反応時間が長くなるためである。開始点の試行間変動は区間の一様分布に従うと仮定される。これは,ある特定の刺激がどの程度呈示されやすいかについての期待が試行間で変動することを表現する。この変動により,誤反応が起こる試行で反応時間が短くなることが説明できる。これは,開始点が誤反応側の境界に寄っているときに,早い時間帯で誤反応が起きやすくなるためである。また,非決定時間も区間の一様分布に従うと仮定される。

 以上より,標準的なドリフト拡散モデルのパラメータは,開始点の平均 (),開始点の試行間変動 (),ドリフト率の平均 (),ドリフト率の標準偏差 (),境界 (),非決定時間の平均 (),非決定時間の試行間変動 () の7つとなる。

反応時間分布および選択確率の理論解

 ドリフト拡散モデルの性質を調べるにはモデルのパラメータと選択確率や反応時間の分布の関係を理解する必要がある。上述のようなドリフト拡散過程の計算機シミュレーションを多数回繰り返すことでそれらを数値的に得ることも可能であるが,それには大きな計算コストがかかる。ドリフト拡散モデルのメリットは,確率過程等の数学的理論により理論的な選択確率や反応時間分布が解析的に求められることである。そのように得られた選択確率や分布を用いることで,計算機シミュレーションをせずともパラメータが分布に及ぼす影響を調べることができる。また,理論的な選択確率や反応時間分布が実際のデータに合うようにパラメータを調整することで,パラメータを効率的に推定することも可能である。

 上述のドリフト拡散モデルにおいて,各パラメータを固定した場合 (試行間変動は仮定しない場合) には,それぞれの選択肢を選ぶ確率,およびその反応時間の分布は以下のように求められる [1]。下側の境界 (0) に到達し,反応Bが起こる確率は,ドリフト率,境界,開始点の関数として,

と与えられる。ただしドリフト率が0だった場合はこの確率は となる。さらに,反応Bが起こり,かつ非決定時間を除いた反応時間がとなる条件付き確率密度は

で与えられる。境界に到達し反応Aが起こり,かつその反応時間がとなる確率密度は,上の式においてで, で置き換えることで得られる。図2の上下の曲線はこれらの式により得られた条件付きの確率密度関数である。シミュレーションにより得た反応時間のヒストグラムもサンプルが増えるにつれてこの分布に近づいていくことがわかる。

モデルフィッティング

 上記のように解析的に得られる反応時間の分布が実際のデータに近づくようにパラメータを調整することで,明示的にドリフト拡散過程をシミュレートせずともモデルのパラメータを推定することができる。また,複数ある候補のモデルからデータをよりよく説明するモデルを選択することも可能となる。パラメータの推定やモデル選択をする作業を総称してモデルフィッティングと呼ぶ。

実験で収集された反応データに対して,モデルフィッティングをする方法として,最小化,最尤法,重み付き最小二乗法,ベイズ推定等がある[9]。モデルフィッティング用のソフトウェアとしては,以下がある。

  • Fast-dm[10]: Windowsで動作するソフトウェア。最尤推定,Kolmogorov-Smirnov,最小化などの方法が可能である。
  • DMAT[11]:ドリフト拡散モデル用MATLABツールボックス。
  • EZ2[12]: ドリフト拡散モデルから試行間変動の推定を除いたシンプルなEZ拡散モデルを用いてモデルフィッティングするRパッケージ。
  • HDDM[13]: ドリフト拡散モデルを階層ベイズ推定するPythonパッケージ。
  • hBayesDM[14]: 意思決定課題に対して階層ベイズモデリングを行うRパッケージ。
  • rtdists[15]: ドリフト拡散モデルをはじめとする反応時間のモデリングに有用な関数が含められたRパッケージ。

 それぞれのモデルや推定方法には仮定がおかれていることがあり,モデルフィッティングに用いるデータがその仮定に合っているかどうかは事前に確認する必要がある。各種推定法に関する専門家による推奨については,Boehmらの論文[16]にまとめられている。また,ドリフト拡散モデルでのモデルフィッティングにあたっては,十分なデータ数が必要になる。特に反応時間の分布の情報を用いてパラメータ推定する方法の場合は,試行数が100程度の場合は,ドリフト拡散モデルの試行間変動性にかかわるパラメータの推定が真値からずれることが示されている[17]。そのため,試行間変動性にかかわるパラメータの推定を行う場合は,できるだけ多くの試行数が必要になるが,試行数を増やすと参加者の動機づけが低下する,疲れの影響が出る,などの問題も生じる。また,そもそも試行数を増やすことが難しい実験状況も多い[16]。そこで,パラメータ推定にあたり,参加者集団のパタメータの分布も仮定した階層ベイズ推定を行うことで,各参加者の試行数は少なくとも安定した推定する方法も提案されている[18][19]

適用事例

図3.反応時間分布に及ぼすドリフト率 (左) 開始点パラメータ (右) の影響。破線は参照となるベースのモデル () を表す。左のパネルではドリフト率を大きくした場合 () ,右のパネルでは開始点を高くした場合 () の結果をそれぞれ実線で表している。

 ドリフト拡散モデルを用いることで,反応分布の形状の情報を利用することが可能となり,単純な平均反応時間の解析では取りこぼされていた情報を利用して詳細なプロセスを検討することができる。例えば,開始点パラメータを増加させることと,ドリフト率を増加させることはいずれも反応Aの選択確率を増加させ,その平均的な反応時間を短くする効果があるが,その反応時間分布の形状に与える影響が異なる。図3の左のパネルでは,開始点パラメータを固定し,ドリフト率を増加させている (実線が増加後)。この場合,反応Aの確率が高くなり,速い反応時間の密度が増加するため平均反応時間は短くなるが,反応時間の分布のピーク (最も密度が高くなる位置) はほとんど変化しない。一方,開始点パラメータに近づけた場合 (図3右) は,反応Aの反応時間分布のピークが速い時間帯にシフトし,分布の歪みが大きくなっている。

 ヒトやその他の動物の意思決定には,現在の感覚入力や過去の選択の結果のみならず,過去の選択履歴が次の選択に影響することが知られている。同じ選択を繰り返す傾向は選択の慣性 (inertia) や固執性 (perseverance) と呼ばれている[20]。そのような傾向はドリフト拡散モデルではエビデンスの蓄積の開始点にバイアスを与えるという解釈が可能である。しかし,実際の知覚的意思決定課題における選択データにおいては,過去と同じ選択肢が選ばれる効果は,図3左のように比較的反応が遅い場合でも見られ,そのようなデータは開始点よりはむしろドリフト率が過去と同じ選択をする方向にバイアスがかかるとするモデルでよく説明されることが報告されている[21]。この結果は,選択履歴の効果が,知覚的なエビデンスの蓄積過程に影響するということを示唆している。

 ドリフト拡散モデルのパラメータの推定値を利用して,選択に関するプロセスの個人差に影響する要因も検討されている。代表的な事例は加齢の効果について調べたものである。例えば高齢者は一般に多くの認知課題において反応が遅くなることが示されているが,ドリフト拡散モデルを適用して検討した研究では,高齢者の反応には長い非決定時間,そして境界の間隔が大きいという特徴はあるものの,ドリフト率には若年者との違いはないということが報告されている[22]。一方で,幼児では境界分離が大きく,非決定時間が長いことに加え,ドリフト率も比較的小さいことが示されている[23]。また,注意欠如・多動症 (ADHD) や読字障害 (dyslexia) を有する若年者はそうでない統制群に比べ,ドリフト率が低い傾向があることを示した研究もある[24][25]。一般知能 (IQ) との関係に関しては,高IQ群は低IQ群よりドリフト率が2倍程度高いという結果が報告されている [26] [27]

神経活動との対応

 主にサルを対象とした単一細胞レベルでの神経活動記録により,エビデンスの蓄積過程に対応する神経活動が検討されてきた。例えば視線でターゲットを選択することで反応する意思決定課題においては,ターゲットの方向へのサッケード時に選択的に活動するLIP野 (lateral intraparietal cortex) の細胞は刺激の呈示とともに徐々に活動が増加し,ある閾値に到達したときにサッケード反応が起こるということが観測されており,その振る舞いはエビデンスの蓄積を表現する逐次サンプリングモデルと対応付けられて議論されている[28]

その他の逐次サンプリングモデル

図4.逐次サンプリングモデルの種類(Ratcliff et al.,2016[2]を元に一部改変)

 逐次サンプリングモデルは,ドリフト拡散モデルだけではない。図4に示すように,逐次サンプリングモデルは,エビデンスの蓄積に関する基準が絶対的 (選択肢ごとに独立にエビデンスを蓄積する) か相対的 (選択肢の間のエビデンスの差を蓄積する) か,対象とする時間が連続的か離散的か,蓄積するエビデンスが連続的か離散的か,ドリフト率が固定か変化するかなどによって分類することができる。ドリフト拡散モデルは,逐次サンプリングモデルの代表的なモデルであるが,モデルの設定においては複数あるモデルの1つの形式であると言える(代表的な逐次サンプリングモデルのモデル間の差異については,Ratcliff & Smith(2004)[29]を参照)。

図5.線形弾道蓄積モデルにおける反応と反応時間の生成過程


 ドリフト拡散モデル以外の代表的な逐次サンプリングモデルとして,線形弾道蓄積モデル[30]がある。図5にあるように,線形弾道蓄積モデルは,ドリフト拡散モデルと類似しているが,エビデンスの蓄積の基準が絶対的なことと確率的ではない点が異なる。ドリフト拡散モデルでは,反応はエビデンス蓄積が上の境界と下の境界のどちらに到達するかで決まる相対的なものであった。一方,線形弾道蓄積モデルでは,それぞれの反応は独立してエビデンスの蓄積を行って,最終的に先に閾値()に到達した反応が出力される(図5の場合,先にに到達した反応Aが出力される)。エビデンスの蓄積が始まる点を開始点()と呼び,選択肢で同一のこともあるが,異なることもある。開始点の位置の違いは,エビデンスの蓄積の前に存在する選択肢に対するバイアスとして解釈される。ドリフト拡散モデルと同様にエビデンスの蓄積の速さはドリフト率()が決めるが,蓄積過程は線形かつ非確率的である。各試行のドリフト率()は,平均,標準偏差の正規分布に従い,各試行の開始点()は,0から(開始点の上限)の一様分布に従う。決定時間は,で求めることができ,非決定時間 ()は,全試行で一定とする。は,推定するパラメータではなく,が推定するパラメータになる。線形弾道蓄積モデルは,ドリフト拡散モデルよりも推定するパラメータが少なく,2選択肢以外の状況にも適用できるという利点がある。

モデルの拡張 (強化学習モデルとの統合)

 ドリフト拡散モデルは試行内の刺激呈示から反応出力 (選択) までのプロセスを表現するモデルであるが,試行間の選択傾向の変化を表す他の数理モデルと組み合わせることもできる。例えば,報酬に基づく学習のプロセスを表現する代表的なモデルである強化学習モデルと組み合わせた枠組みが提案されている[31][32]。一般の強化学習モデルでは,行動の結果与えられる報酬に基づいて各行動の価値が計算され,価値の高い行動が高い確率で選択される。ドリフト拡散モデルのドリフト率をこの行動の価値の関数にすることで,選択肢の価値の差が小さいほど反応が競合し,反応時間が長くなるという効果を表すことができる。このように強化学習モデルを組み合わせて用いることで,ドリフト拡散モデルによる反応時間や選択の予測が改善できる。また,逆にドリフト拡散モデルにより反応時間の情報を用いることで,強化学習モデルのパラメータの信頼性も改善されるという報告もある [33]

参考文献

  1. 1.0 1.1 1.2 1.3 Ratcliff, R.(1978).
    A theory of memory retrieval.
    Psychological Review 1978, 85(2);59–108
  2. 2.0 2.1 Ratcliff, R., Smith, P.L., Brown, S.D., & McKoon, G. (2016).
    Diffusion Decision Model: Current Issues and History. Trends in cognitive sciences, 20(4), 260-281. [PubMed:26952739] [PMC] [WorldCat] [DOI]
  3. Ratcliff, R., Thapar, A., & McKoon, G. (2003).
    A diffusion model analysis of the effects of aging on brightness discrimination. Perception & psychophysics, 65(4), 523-35. [PubMed:12812276] [PMC] [WorldCat] [DOI]
  4. Smith, P.L., Ratcliff, R., & Wolfgang, B.J. (2004).
    Attention orienting and the time course of perceptual decisions: response time distributions with masked and unmasked displays. Vision research, 44(12), 1297-320. [PubMed:15066392] [WorldCat] [DOI]
  5. Ratcliff, R., Gomez, P., & McKoon, G. (2004).
    A diffusion model account of the lexical decision task. Psychological review, 111(1), 159-82. [PubMed:14756592] [PMC] [WorldCat] [DOI]
  6. Ratcliff, R. (2014).
    Measuring psychometric functions with the diffusion model. Journal of experimental psychology. Human perception and performance, 40(2), 870-88. [PubMed:24446719] [PMC] [WorldCat] [DOI]
  7. White, C.N., Ratcliff, R., Vasey, M.W., & McKoon, G. (2010).
    Using diffusion models to understand clinical disorders. Journal of mathematical psychology, 54(1), 39-52. [PubMed:20431690] [PMC] [WorldCat] [DOI]
  8. Krajbich, I., Armel, C., & Rangel, A. (2010).
    Visual fixations and the computation and comparison of value in simple choice. Nature neuroscience, 13(10), 1292-8. [PubMed:20835253] [WorldCat] [DOI]
  9. Ratcliff, R., & Tuerlinckx, F. (2002).
    Estimating parameters of the diffusion model: approaches to dealing with contaminant reaction times and parameter variability. Psychonomic bulletin & review, 9(3), 438-81. [PubMed:12412886] [PMC] [WorldCat] [DOI]
  10. Voss, A., & Voss, J. (2007).
    Fast-dm: a free program for efficient diffusion model analysis. Behavior research methods, 39(4), 767-75. [PubMed:18183889] [WorldCat] [DOI]
  11. Vandekerckhove, J., & Tuerlinckx, F. (2008).
    Diffusion model analysis with MATLAB: a DMAT primer. Behavior research methods, 40(1), 61-72. [PubMed:18411528] [WorldCat] [DOI]
  12. Wagenmakers, E.J., van der Maas, H.L., & Grasman, R.P. (2007).
    An EZ-diffusion model for response time and accuracy. Psychonomic bulletin & review, 14(1), 3-22. [PubMed:17546727] [WorldCat] [DOI]
  13. Wiecki, T.V., Sofer, I., & Frank, M.J. (2013).
    HDDM: Hierarchical Bayesian estimation of the Drift-Diffusion Model in Python. Frontiers in neuroinformatics, 7, 14. [PubMed:23935581] [PMC] [WorldCat] [DOI]
  14. Ahn, W.Y., Haines, N., & Zhang, L. (2017).
    Revealing Neurocomputational Mechanisms of Reinforcement Learning and Decision-Making With the hBayesDM Package. Computational psychiatry (Cambridge, Mass.), 1, 24-57. [PubMed:29601060] [PMC] [WorldCat] [DOI]
  15. https://github.com/rtdists/rtdists/
  16. 16.0 16.1 Boehm, U., Annis, J., Frank, M. J., Hawkins, G. E., Heathcote, A., Kellen, D., Krypotos, A.-M., Lerche, V., Logan, G. D., Palmeri, T. J., van Ravenzwaaij, D., Servant, M., Singmann, H., Starns, J. J., Voss, A., Wiecki, T. V., Matzke, D., & Wagenmakers, E.-J.(2018).
    Estimating across-trial variability parameters of the Diffusion Decision Model: Expert advice and recommendations.
    Journal of Mathematical Psychology, 87, 46–75
  17. Vandekerckhove, J., & Tuerlinckx, F. (2007).
    Fitting the Ratcliff diffusion model to experimental data. Psychonomic bulletin & review, 14(6), 1011-26. [PubMed:18229471] [WorldCat] [DOI]
  18. Wiecki, T.V., Sofer, I., & Frank, M.J. (2013).
    HDDM: Hierarchical Bayesian estimation of the Drift-Diffusion Model in Python. Frontiers in neuroinformatics, 7, 14. [PubMed:23935581] [PMC] [WorldCat] [DOI]
  19. Ahn, W.Y., Haines, N., & Zhang, L. (2017).
    Revealing Neurocomputational Mechanisms of Reinforcement Learning and Decision-Making With the hBayesDM Package. Computational psychiatry (Cambridge, Mass.), 1, 24-57. [PubMed:29601060] [PMC] [WorldCat] [DOI]
  20. Akaishi, R., Umeda, K., Nagase, A., & Sakai, K. (2014).
    Autonomous mechanism of internal choice estimate underlies decision inertia. Neuron, 81(1), 195-206. [PubMed:24333055] [WorldCat] [DOI]
  21. Urai, A.E., de Gee, J.W., Tsetsos, K., & Donner, T.H. (2019).
    Choice history biases subsequent evidence accumulation. eLife, 8. [PubMed:31264959] [PMC] [WorldCat] [DOI]
  22. Ratcliff, R., Thapar, A., & McKoon, G. (2010).
    Individual differences, aging, and IQ in two-choice tasks. Cognitive psychology, 60(3), 127-57. [PubMed:19962693] [PMC] [WorldCat] [DOI]
  23. Ratcliff, R., Love, J., Thompson, C.A., & Opfer, J.E. (2011).
    Children are not like older adults: a diffusion model analysis of developmental changes in speeded responses. Child development, 83(1), 367-81. [PubMed:22188547] [PMC] [WorldCat] [DOI]
  24. Mulder, M.J., Bos, D., Weusten, J.M., van Belle, J., van Dijk, S.C., Simen, P., ..., & Durston, S. (2010).
    Basic impairments in regulating the speed-accuracy tradeoff predict symptoms of attention-deficit/hyperactivity disorder. Biological psychiatry, 68(12), 1114-9. [PubMed:20926067] [WorldCat] [DOI]
  25. Zeguers, M.H., Snellings, P., Tijms, J., Weeda, W.D., Tamboer, P., Bexkens, A., & Huizenga, H.M. (2011).
    Specifying theories of developmental dyslexia: a diffusion model analysis of word recognition. Developmental science, 14(6), 1340-54. [PubMed:22010894] [WorldCat] [DOI]
  26. Ratcliff, R., Thapar, A., & McKoon, G. (2010).
    Individual differences, aging, and IQ in two-choice tasks. Cognitive psychology, 60(3), 127-57. [PubMed:19962693] [PMC] [WorldCat] [DOI]
  27. Ratcliff, R., Thapar, A., & McKoon, G. (2011).
    Effects of aging and IQ on item and associative memory. Journal of experimental psychology. General, 140(3), 464-87. [PubMed:21707207] [PMC] [WorldCat] [DOI]
  28. Shadlen, M.N., & Newsome, W.T. (1996).
    Motion perception: seeing and deciding. Proceedings of the National Academy of Sciences of the United States of America, 93(2), 628-33. [PubMed:8570606] [PMC] [WorldCat] [DOI]
  29. Ratcliff, R., & Smith, P.L. (2004).
    A comparison of sequential sampling models for two-choice reaction time. Psychological review, 111(2), 333-67. [PubMed:15065913] [PMC] [WorldCat] [DOI]
  30. Brown, S.D., & Heathcote, A. (2008).
    The simplest complete model of choice response time: linear ballistic accumulation. Cognitive psychology, 57(3), 153-78. [PubMed:18243170] [WorldCat] [DOI]
  31. Pedersen, M.L., Frank, M.J., & Biele, G. (2017).
    The drift diffusion model as the choice rule in reinforcement learning. Psychonomic bulletin & review, 24(4), 1234-1251. [PubMed:27966103] [PMC] [WorldCat] [DOI]
  32. Frank, M.J., Gagne, C., Nyhus, E., Masters, S., Wiecki, T.V., Cavanagh, J.F., & Badre, D. (2015).
    fMRI and EEG predictors of dynamic decision parameters during human reinforcement learning. The Journal of neuroscience : the official journal of the Society for Neuroscience, 35(2), 485-94. [PubMed:25589744] [PMC] [WorldCat] [DOI]
  33. Shahar, N., Hauser, T.U., Moutoussis, M., Moran, R., Keramati, M., NSPN consortium, & Dolan, R.J. (2019).
    Improving the reliability of model-based decision-making estimates in the two-stage decision task with reaction-times and drift-diffusion modeling. PLoS computational biology, 15(2), e1006803. [PubMed:30759077] [PMC] [WorldCat] [DOI]