「ドリフト拡散モデル」の版間の差分

101行目: 101行目:
==モデルの拡張 (強化学習モデルとの統合)==
==モデルの拡張 (強化学習モデルとの統合)==


 ドリフト拡散モデルは,個々の試行内で刺激呈示から反応出力 (選択) までのプロセスを表現するモデルであるが,試行間の選択の変化を表す他の数理モデルと組み合わせることもできる。例えば,報酬に基づく学習のプロセスを表現する代表的なモデルである強化学習モデルとドリフト拡散モデルを組み合わせたモデルが提案されている<ref><pubmed>27966103</pubmed></ref><ref><pubmed>25589744</pubmed></ref>。一般の強化学習モデルでは,行動の結果与えられる報酬に基づいて各行動の価値を計算され,価値の高い行動が高い確率で選択される。この行動価値をドリフト拡散モデルのドリフト率に用いることで,選択肢の価値の差が小さいほど反応が競合し,反応時間が長くなるという仮定を置くことができる。そのように強化学習モデルを用いることでドリフト拡散モデルによる反応時間や選択の予測が改善できる。また,逆に反応時間をドリフト拡散モデルでモデル化することで,強化学習のパラメータの信頼性の改善も期待できる<ref><pubmed>30759077</pubmed></ref>。このように選択傾向の変化と反応時間を同時にモデル化して行動の背後にあるプロセスを探るというアプローチは,実験的に観測される情報をフルに活用できる枠組みとして今後の発展が期待される。
 ドリフト拡散モデルは試行内の刺激呈示から反応出力 (選択) までのプロセスを表現するモデルであるが,試行間の選択傾向の変化を表す他の数理モデルと組み合わせることもできる。例えば,報酬に基づく学習のプロセスを表現する代表的なモデルである強化学習モデルと組み合わせた枠組みが提案されている<ref><pubmed>27966103</pubmed></ref><ref><pubmed>25589744</pubmed></ref>。一般の強化学習モデルでは,行動の結果与えられる報酬に基づいて各行動の価値が計算され,価値の高い行動が高い確率で選択される。ドリフト拡散モデルのドリフト率をこの行動価値の関数にすることで,選択肢の価値の差が小さいほど反応が競合し,反応時間が長くなるという効果を表すことができる。そのように強化学習モデルを用いることで,ドリフト拡散モデルによる反応時間や選択の予測が改善できる。また,逆にドリフト拡散モデルにより反応時間の情報を用いることで,強化学習のパラメータの信頼性も改善される <ref><pubmed>30759077</pubmed></ref>。このように選択傾向の変化と反応時間を同時にモデル化して行動の背後にあるプロセスを探るというアプローチは,実験的に観測される情報をフルに活用できる枠組みとしてさらなる発展が期待される。
 


==参考文献==
==参考文献==
<references />
<references />
135

回編集