135
回編集
Kentaro Katahira (トーク | 投稿記録) |
Kentaro Katahira (トーク | 投稿記録) |
||
101行目: | 101行目: | ||
==モデルの拡張 (強化学習モデルとの統合)== | ==モデルの拡張 (強化学習モデルとの統合)== | ||
ドリフト拡散モデルは試行内の刺激呈示から反応出力 (選択) までのプロセスを表現するモデルであるが,試行間の選択傾向の変化を表す他の数理モデルと組み合わせることもできる。例えば,報酬に基づく学習のプロセスを表現する代表的なモデルである強化学習モデルと組み合わせた枠組みが提案されている<ref><pubmed>27966103</pubmed></ref><ref><pubmed>25589744</pubmed></ref>。一般の強化学習モデルでは,行動の結果与えられる報酬に基づいて各行動の価値が計算され,価値の高い行動が高い確率で選択される。ドリフト拡散モデルのドリフト率をこの行動価値の関数にすることで,選択肢の価値の差が小さいほど反応が競合し,反応時間が長くなるという効果を表すことができる。そのように強化学習モデルを用いることで,ドリフト拡散モデルによる反応時間や選択の予測が改善できる。また,逆にドリフト拡散モデルにより反応時間の情報を用いることで,強化学習のパラメータの信頼性も改善される <ref><pubmed>30759077</pubmed></ref>。このように選択傾向の変化と反応時間を同時にモデル化して行動の背後にあるプロセスを探るというアプローチは,実験的に観測される情報をフルに活用できる枠組みとしてさらなる発展が期待される。 | |||
==参考文献== | ==参考文献== | ||
<references /> | <references /> |
回編集