A theoretical framework for probabilistic reinforcement learning in the basal ganglia
基底神经节概率强化学习的理论框架
基本信息
- 批准号:10460155
- 负责人:
- 金额:$ 53.39万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2019
- 资助国家:美国
- 起止时间:2019-08-15 至 2024-07-31
- 项目状态:已结题
- 来源:
- 关键词:Adaptive BehaviorsAddressAnimalsArchitectureBasal GangliaBehaviorBeliefCellsCorpus striatum structureDataData AnalysesDopamineDorsalExperimental DesignsFutureGoalsLearningLinkLocationModelingNeuronsOutputPathway interactionsPatternPlayPoliciesProbabilityPsychological reinforcementRampRattusRewardsRodentRoleSignal TransductionSpecific qualifier valueSynapsesTestingTimeUncertaintyUpdateWeightWidthWorkbasedesignflexibilityinnovationinsightmathematical modelmotor behaviorneurobiological mechanismpredictive modelingsuccesstheories
项目摘要
Project abstract
According to the standard reinforcement learning framework, the basal ganglia implements estimation of long-
term future reward and the control of actions to maximize future reward. Dopamine (DA) plays a central role by
providing the learning signal (reward prediction error, or RPE) that guides updating of reward predictions and
the action policy. Despite its success, the reinforcement learning framework has been challenged from a
number of directions. Some studies have suggested that DA encodes reward predictions themselves, rather
than reward prediction errors, and other studies have suggested that DA may play a role in invigorating action
selection independently from its contribution to learning. A major goal of this project is to develop a
reinforcement learning theory of basal ganglia function that addresses these challenges, and more broadly
presents a unifying view of how learning, probabilistic inference, and action selection work together to produce
adaptive behavior. Our theoretical innovation can be divided into three components. First, we argue that
cortical inputs to the striatum encode a probability distribution over hidden states, known as the belief state.
Second, we argue that striatal projection neurons transform this input through a set of basis functions, whose
purpose is to facilitate reward prediction. The synaptic weights that parametrize these predictions are updated
based on the DA RPE signal. Third, we argue that action selection circuits in the dorsal striatum use
probabilistic information about rewards to implement uncertainty-guided exploration.
项目摘要
根据标准增强学习框架,基底神经节实施了长期的估计
术语未来的奖励和对最大化未来奖励的行动的控制。多巴胺(DA)扮演着核心角色
提供指导更新奖励预测和的学习信号(奖励预测错误或RPE)
行动政策。尽管取得了成功,但增强学习框架已从
方向数。一些研究表明,DA本身编码奖励预测,而是
而不是奖励预测错误,其他研究表明,DA可能在振兴行动中发挥作用
选择独立于其对学习的贡献。该项目的主要目标是开发
基础神经节功能的强化学习理论解决这些挑战,更广泛地解决这些挑战
对学习,概率推理和行动选择如何共同生产的统一观点
自适应行为。我们的理论创新可以分为三个组成部分。首先,我们认为
纹状体的皮质输入对隐藏状态(称为信仰状态)的概率分布编码。
其次,我们认为纹状体投影神经元通过一组基础函数转化了此输入,
目的是促进奖励预测。参数化这些预测的突触权重更新了
基于DA RPE信号。第三,我们认为背纹状体中的动作选择电路
有关奖励的概率信息,以实施不确定性引导的探索。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Samuel J Gershman其他文献
Samuel J Gershman的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Samuel J Gershman', 18)}}的其他基金
A theoretical framework for probabilistic reinforcement learning in the basal ganglia
基底神经节概率强化学习的理论框架
- 批准号:
10226986 - 财政年份:2019
- 资助金额:
$ 53.39万 - 项目类别:
A theoretical framework for probabilistic reinforcement learning in the basal ganglia
基底神经节概率强化学习的理论框架
- 批准号:
10687830 - 财政年份:2019
- 资助金额:
$ 53.39万 - 项目类别:
相似国自然基金
时空序列驱动的神经形态视觉目标识别算法研究
- 批准号:61906126
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
本体驱动的地址数据空间语义建模与地址匹配方法
- 批准号:41901325
- 批准年份:2019
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
大容量固态硬盘地址映射表优化设计与访存优化研究
- 批准号:61802133
- 批准年份:2018
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
IP地址驱动的多径路由及流量传输控制研究
- 批准号:61872252
- 批准年份:2018
- 资助金额:64.0 万元
- 项目类别:面上项目
针对内存攻击对象的内存安全防御技术研究
- 批准号:61802432
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Integrative Analysis of Adaptive Information Processing and Learning-Dependent Circuit Reorganization in the Auditory System
听觉系统中自适应信息处理和学习依赖电路重组的综合分析
- 批准号:
10715925 - 财政年份:2023
- 资助金额:
$ 53.39万 - 项目类别:
Deciphering dopaminergic circuits required for food anticipatory activity in mice
破译小鼠食物预期活动所需的多巴胺能回路
- 批准号:
10629786 - 财政年份:2023
- 资助金额:
$ 53.39万 - 项目类别:
Neural mechanisms of behavioral coordination in Hydra
水螅行为协调的神经机制
- 批准号:
10505359 - 财政年份:2022
- 资助金额:
$ 53.39万 - 项目类别:
Uncovering cell type-specific prefrontal neural mechanisms of visuospatial selective attention in freely behaving mice using a high-throughput touchscreen-based training system
使用基于高通量触摸屏的训练系统揭示自由行为小鼠视觉空间选择性注意的细胞类型特异性前额神经机制
- 批准号:
10652656 - 财政年份:2022
- 资助金额:
$ 53.39万 - 项目类别:
Mesoscale dynamics underlying expectation bias in the orbitofrontal cortex
眶额皮层期望偏差的中尺度动力学
- 批准号:
10571994 - 财政年份:2022
- 资助金额:
$ 53.39万 - 项目类别: