Distributional value coding and reinforcement learning in the brain

大脑中的分布值编码和强化学习

基本信息

  • 批准号:
    10311130
  • 负责人:
  • 金额:
    $ 3.96万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-08-01 至 2024-07-31
  • 项目状态:
    已结题

项目摘要

ABSTRACT Making predictions about future rewards in the environment, and taking actions to obtain those rewards, is critical for survival. When these predictions are overly optimistic — for example, in the case of gambling addiction — or overly pessimistic — as in anxiety and depression — maladaptive behavior can result and present a significant disease burden. A fundamental challenge for making reward predictions is that the world is inherently stochastic, and events on the tails of a distribution need not reflect the average. Therefore, it may be useful to predict not only the mean, but also the complete probability distribution of upcoming rewards. Indeed, recent advances in machine learning have demonstrated that making this shift from the average reward to the complete reward distribution can dramatically improve performance in complex task domains. Despite its apparent complexity, such “distributional reinforcement learning” can be achieved computationally with a remarkably simple and biologically plausible learning rule. A recent study found that the structure of dopamine neuron activity may be consistent with distributional reinforcement learning, but it is unknown whether additional neuronal circuity is involved — most notably the ventral striatum (VS) and orbitofrontal cortex (OFC), both of which receive dopamine input and are thought to represent anticipated reward, also called “value”. Here, we propose to investigate whether value coding in these downstream regions is consistent with distributional reinforcement learning. In particular, we will record from these brain regions while mice perform classical conditioning with odors and water rewards. In the first task, we will hold the mean reward constant while changing the reward variance or higher- order moments, and ask whether neurons in the VS and OFC represent information over and above the mean, consistent with distributional reinforcement learning. In principle, this should enable us to decode the complete reward distribution purely from neural activity. In the second task, we will present mice with a panel of odors predicting the same reward amount with differing probabilities. The simplicity of these Bernoulli distributions will allow us to compare longstanding theories of population coding in the brain — that is, how probability distributions can be instantiated in neural activity to guide behavior. In addition to high-density silicon probe recordings, we will perform two-photon calcium imaging in these tasks to assess whether genetically and molecularly distinct subpopulations of neurons in the striatum contribute differentially to distributional reinforcement learning. Finally, we will combine these recordings with simultaneous imaging of dopamine dynamics in the striatum to ask how dopamine affects striatal activity in vivo. Together, these studies will help clarify dopamine’s role in learning distributions of reward, as well as its dysregulation in addiction, anxiety, depression, and bipolar disorder.
摘要 预测环境中未来的回报,并采取行动获得这些回报,这一点至关重要 为了生存当这些预测过于乐观时-例如,在赌博成瘾的情况下-或者 过度悲观-如焦虑和抑郁-适应不良行为可能导致并呈现出显著的 疾病负担。做出奖励预测的一个基本挑战是,世界本质上是随机的, 分布尾部的事件不需要反映平均值。因此,预测不 不仅是平均值,还有即将到来的奖励的完整概率分布。事实上, 机器学习已经证明,从平均奖励到完全奖励的转变 分布式可以显著提高复杂任务域的性能。尽管它看起来很复杂, 这种“分布式强化学习”可以通过非常简单的计算来实现, 生物学上合理的学习规则。最近的一项研究发现,多巴胺神经元活动的结构可能是 与分布式强化学习一致,但尚不清楚是否有额外的神经元回路。 最明显的是腹侧纹状体(VS)和眶额皮质(OFC),两者都接受多巴胺 输入并被认为代表预期回报,也称为“价值”。在这里,我们建议调查 这些下游区域中的值编码是否与分布式强化学习一致。在 特别是,我们将记录这些大脑区域,而老鼠执行经典条件反射与气味和水 奖励在第一个任务中,我们将保持平均奖励不变,同时改变奖励方差或更高- 顺序矩,并询问VS和OFC中的神经元是否表示高于平均值的信息, 与分布式强化学习一致。原则上,这将使我们能够解码完整的 奖励分配纯粹来自神经活动。在第二个任务中,我们将给老鼠一组气味, 用不同的概率预测相同的奖励金额。这些伯努利分布的简单性将 让我们比较长期存在的大脑群体编码理论-也就是说,概率分布如何 可以在神经活动中实例化以指导行为。除了高密度硅探针记录,我们 将在这些任务中进行双光子钙成像,以评估是否在遗传和分子上不同, 纹状体中的神经元亚群对分布式强化学习有不同的贡献。最后, 我们将联合收割机将这些记录与纹状体中多巴胺动力学的同步成像相结合,以探讨 多巴胺在体内影响纹状体活性。这些研究将有助于阐明多巴胺在学习中的作用 奖励的分布,以及成瘾,焦虑,抑郁和双相情感障碍中的失调。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Adam Stanley Lowet其他文献

Adam Stanley Lowet的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Adam Stanley Lowet', 18)}}的其他基金

Distributional value coding and reinforcement learning in the brain
大脑中的分布值编码和强化学习
  • 批准号:
    10539251
  • 财政年份:
    2021
  • 资助金额:
    $ 3.96万
  • 项目类别:
Distributional Value Coding and Reinforcement Learning in the Brain
大脑中的分布值编码和强化学习
  • 批准号:
    10668487
  • 财政年份:
    2021
  • 资助金额:
    $ 3.96万
  • 项目类别:

相似国自然基金

"胚胎/生殖细胞发育特性激活”促进“神经胶质瘤恶变”的机制及其临床价值研究
  • 批准号:
    82372327
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
OBSL1功能缺失导致多指(趾)畸形的分子机制及其临床诊断价值
  • 批准号:
    82372328
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
基于时间序列间分位相依性(quantile dependence)的风险值(Value-at-Risk)预测模型研究
  • 批准号:
    71903144
  • 批准年份:
    2019
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目
基于VaR的水资源短缺风险综合模型体系与应用
  • 批准号:
    51279006
  • 批准年份:
    2012
  • 资助金额:
    80.0 万元
  • 项目类别:
    面上项目
基于VFM视角的公共基础设施项目PPP模式选择模型及应用研究
  • 批准号:
    71102091
  • 批准年份:
    2011
  • 资助金额:
    22.0 万元
  • 项目类别:
    青年科学基金项目
支持价值觉察的服务供应链运作模型及分析方法
  • 批准号:
    71171066
  • 批准年份:
    2011
  • 资助金额:
    42.0 万元
  • 项目类别:
    面上项目
多核系统下调控模式识别的MapReduce模型及算法研究
  • 批准号:
    61173025
  • 批准年份:
    2011
  • 资助金额:
    55.0 万元
  • 项目类别:
    面上项目
有约束多项分布转录因子结合位点识别
  • 批准号:
    60705004
  • 批准年份:
    2007
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
不可压流体力学方程中的一些问题
  • 批准号:
    10771177
  • 批准年份:
    2007
  • 资助金额:
    17.0 万元
  • 项目类别:
    面上项目
Circle Packing理论与正规族理论研究
  • 批准号:
    10701084
  • 批准年份:
    2007
  • 资助金额:
    15.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Mapping the non-coding RNA landscape in skeletal muscle health and disease
绘制骨骼肌健康和疾病中非编码 RNA 的图谱
  • 批准号:
    10666261
  • 财政年份:
    2023
  • 资助金额:
    $ 3.96万
  • 项目类别:
The assembly of population coding networks
群体编码网络的组装
  • 批准号:
    10668566
  • 财政年份:
    2023
  • 资助金额:
    $ 3.96万
  • 项目类别:
Defining role of Long non-coding RNA (LncRNA) Gm15417 in iNKT development and subset differentiation
长非编码 RNA (LncRNA) Gm15417 在 iNKT 发育和亚群分化中的定义作用
  • 批准号:
    10616812
  • 财政年份:
    2022
  • 资助金额:
    $ 3.96万
  • 项目类别:
Distributional value coding and reinforcement learning in the brain
大脑中的分布值编码和强化学习
  • 批准号:
    10539251
  • 财政年份:
    2021
  • 资助金额:
    $ 3.96万
  • 项目类别:
Distributional Value Coding and Reinforcement Learning in the Brain
大脑中的分布值编码和强化学习
  • 批准号:
    10668487
  • 财政年份:
    2021
  • 资助金额:
    $ 3.96万
  • 项目类别:
Calcium coding mechanisms in plant cell growth and immunity
植物细胞生长和免疫中的钙编码机制
  • 批准号:
    10581257
  • 财政年份:
    2020
  • 资助金额:
    $ 3.96万
  • 项目类别:
Emergence of valence coding in the ventral striatum
腹侧纹状体价编码的出现
  • 批准号:
    10577864
  • 财政年份:
    2019
  • 资助金额:
    $ 3.96万
  • 项目类别:
Epigenetic Regulation of a non-coding RNA, nc886
非编码 RNA nc886 的表观遗传调控
  • 批准号:
    9760657
  • 财政年份:
    2019
  • 资助金额:
    $ 3.96万
  • 项目类别:
Impact of Coding Variation on Transcription Factor - DNA Recognition
编码变异对转录因子 - DNA 识别的影响
  • 批准号:
    10112946
  • 财政年份:
    2019
  • 资助金额:
    $ 3.96万
  • 项目类别:
Impact of Coding Variation on Transcription Factor - DNA Recognition
编码变异对转录因子 - DNA 识别的影响
  • 批准号:
    9923713
  • 财政年份:
    2019
  • 资助金额:
    $ 3.96万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了