「ドリフト拡散モデル」の版間の差分

ドリフト拡散モデル (ソースを閲覧)

2021年7月14日 (水) 16:05時点における版

27 バイト除去、 2021年7月14日 (水)

細

→‎モデルの拡張 (強化学習モデルとの統合)

Kentaro Katahira

135

回編集

@@ 100行目: / 100行目: @@
 　ドリフト拡散モデル以外の代表的な逐次サンプリングモデルとして，線形弾道蓄積モデル<ref><pubmed>18243170</pubmed></ref>がある。図5にあるように，線形弾道蓄積モデルは，ドリフト拡散モデルと類似しているが，エビデンスの蓄積の基準が絶対的なことと確率的ではない点が異なる。ドリフト拡散モデルでは，反応はエビデンス蓄積が上の境界と下の境界のどちらに到達するかで決まる相対的なものであった。一方，線形弾道蓄積モデルでは，それぞれの反応は独立してエビデンスの蓄積を行って，最終的に先に閾値(<math>b</math>)に到達した反応が出力される（図5の場合，先に<math>b</math>に到達した反応Aが出力される）。エビデンスの蓄積が始まる点を開始点(<math>a</math>)と呼び，選択肢で同一のこともあるが，異なることもある。開始点の位置の違いは，エビデンスの蓄積の前に存在する選択肢に対するバイアスとして解釈される。ドリフト拡散モデルと同様にエビデンスの蓄積の速さはドリフト率(<math>d</math>)が決めるが，蓄積過程は線形かつ非確率的である。各試行のドリフト率(<math>d</math>)は，平均<math>v</math>，標準偏差<math>s</math>の正規分布に従い，各試行の開始点(<math>a</math>)は，0から<math>A</math>(開始点の上限)の一様分布に従う。決定時間は，<math>(b-a)/d</math>で求めることができ，非決定時間 (<math>\tau</math>)は，全試行で一定とする。<math>a</math>と<math>d</math>は，推定するパラメータではなく，<math>v, b, A, s, \tau</math>が推定するパラメータになる。線形弾道蓄積モデルは，ドリフト拡散モデルよりも推定するパラメータが少なく，２選択肢以外の状況にも適用できるという利点がある。
-==モデルの拡張 (強化学習モデルとの統合)==
+==他のモデルとの統合==
 　ドリフト拡散モデルは試行内の刺激呈示から反応出力 (選択) までのプロセスを表現するモデルであるが，試行間の選択傾向の変化を表す他の数理モデルと組み合わせることもできる。例えば，報酬に基づく学習のプロセスを表現する代表的なモデルである強化学習モデルと組み合わせた枠組みが提案されている<ref><pubmed>27966103</pubmed></ref><ref><pubmed>25589744</pubmed></ref>。一般の強化学習モデルでは，行動の結果与えられる報酬に基づいて各行動の価値が計算され，価値の高い行動が高い確率で選択される。ドリフト拡散モデルのドリフト率をこの行動の価値の関数にすることで，選択肢の価値の差が小さいほど反応が競合し，反応時間が長くなるという効果を表すことができる。このように強化学習モデルを組み合わせて用いることで，ドリフト拡散モデルによる反応時間や選択の予測が改善できる。また，逆にドリフト拡散モデルにより反応時間の情報を用いることで，強化学習モデルのパラメータの信頼性も改善されるという報告もある <ref><pubmed>30759077</pubmed></ref>。