Reinforcement Learning Algorithms Designed to Persist

旨在持久的强化学习算法

基本信息

  • 批准号:
    RGPIN-2022-04035
  • 负责人:
  • 金额:
    $ 2.04万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2022
  • 资助国家:
    加拿大
  • 起止时间:
    2022-01-01 至 2023-12-31
  • 项目状态:
    已结题

项目摘要

The field of reinforcement learning is concerned with understanding how intelligent agents can, from trial and error, learn to make decisions that lead to the best outcomes. In silico, its techniques have been applied to wide range of domains, producing computer programs that surpass the world's human champions at the game of Go (2016), can autonomously navigate balloons in the stratosphere (2020), and can design electronics in a fraction of the time taken by human experts (2021). To achieve this level of performance, however, these programs require weeks or even months or training. This is because the most effective reinforcement learning methods are designed to learn to solve a given task from scratch. Using present algorithms it is difficult, if not downright impossible to carry over the learnings from one version of the program to the next. This makes it hard, for example, to support a learning system that evolves and learns over a period of years - a common scenario in practical applications, where a research and development team might continue to improve the learning software over time. The research in this proposal aims to address this shortcoming by studying methods and principles with which previously-acquired experience may be carried across iterations of a learning system. Doing so requires understanding how an agent's immediate experience can be synthesized into a more permanent form called a representation of state, and also how an agent can purposefully act to acquire new information that helps it gains a better understanding of its environment. Fundamental advances in this direction will make it possible to design learning systems that benefit from years, if not decades of experience and can therefore make substantially better decisions.
强化学习领域关注的是理解智能代理如何从试错中学习做出导致最佳结果的决策。在计算机中,其技术已应用于广泛的领域,产生的计算机程序在围棋比赛中超过了世界人类冠军(2016年),可以在平流层中自主导航气球(2020年),并且可以在人类专家所需时间的一小部分内设计电子产品(2021年)。然而,要达到这种水平的性能,这些程序需要数周甚至数月的培训。这是因为最有效的强化学习方法旨在从头开始学习解决给定的任务。使用目前的算法是困难的,如果不是完全不可能的,从一个版本的程序进行学习到下一个。这使得它很难,例如,支持一个学习系统,演变和学习在一段时间内-在实际应用中,一个研究和开发团队可能会继续改进学习软件随着时间的推移,一个常见的场景。 本提案中的研究旨在通过研究方法和原则来解决这一缺点,这些方法和原则可以在学习系统的迭代中携带先前获得的经验。要做到这一点,就需要了解智能体的即时体验如何被合成为一种更持久的形式,称为状态表征,以及智能体如何有目的地采取行动来获取新信息,以帮助它更好地了解其环境。这方面的根本性进展将使设计学习系统成为可能,这些系统将受益于多年甚至数十年的经验,因此可以做出更好的决策。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Bellemare, Marc其他文献

Bellemare, Marc的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Bellemare, Marc', 18)}}的其他基金

Reinforcement Learning Algorithms Designed to Persist
旨在持久的强化学习算法
  • 批准号:
    DGECR-2022-00390
  • 财政年份:
    2022
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Launch Supplement

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Understanding structural evolution of galaxies with machine learning
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
  • 批准号:
    62003314
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
  • 批准号:
    61902016
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
  • 批准号:
    61806040
  • 批准年份:
    2018
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
具有时序处理能力的Spiking-Deep Learning(脉冲深度学习)方法研究
  • 批准号:
    61573081
  • 批准年份:
    2015
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
基于有向超图的大型个性化e-learning学习过程模型的自动生成与优化
  • 批准号:
    61572533
  • 批准年份:
    2015
  • 资助金额:
    66.0 万元
  • 项目类别:
    面上项目
E-Learning中学习者情感补偿方法的研究
  • 批准号:
    61402392
  • 批准年份:
    2014
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

CAREER: Robust Reinforcement Learning Under Model Uncertainty: Algorithms and Fundamental Limits
职业:模型不确定性下的鲁棒强化学习:算法和基本限制
  • 批准号:
    2337375
  • 财政年份:
    2024
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Continuing Grant
Collaborative Research: SLES: Safe Distributional-Reinforcement Learning-Enabled Systems: Theories, Algorithms, and Experiments
协作研究:SLES:安全的分布式强化学习系统:理论、算法和实验
  • 批准号:
    2331781
  • 财政年份:
    2023
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Standard Grant
CIF: SMALL: Theoretical Foundations of Partially Observable Reinforcement Learning: Minimax Sample Complexity and Provably Efficient Algorithms
CIF:SMALL:部分可观察强化学习的理论基础:最小最大样本复杂性和可证明有效的算法
  • 批准号:
    2315725
  • 财政年份:
    2023
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Standard Grant
CAREER: Reinforcement Learning-Based Control of Heterogeneous Multi-Agent Systems in Structured Environments: Algorithms and Complexity
职业:结构化环境中异构多智能体系统的基于强化学习的控制:算法和复杂性
  • 批准号:
    2237830
  • 财政年份:
    2023
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Continuing Grant
Collaborative Research: SLES: Safe Distributional-Reinforcement Learning-Enabled Systems: Theories, Algorithms, and Experiments
协作研究:SLES:安全的分布式强化学习系统:理论、算法和实验
  • 批准号:
    2331780
  • 财政年份:
    2023
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Standard Grant
Collaborative Research: SLES: Safe Distributional-Reinforcement Learning-Enabled Systems: Theories, Algorithms, and Experiments
协作研究:SLES:安全的分布式强化学习系统:理论、算法和实验
  • 批准号:
    2331782
  • 财政年份:
    2023
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Standard Grant
Theory and Algorithms for Relation between Stochastic Control and Reinforcement Learning
随机控制与强化学习关系的理论和算法
  • 批准号:
    2741077
  • 财政年份:
    2022
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Studentship
Developing robust and scalable reinforcement learning algorithms
开发强大且可扩展的强化学习算法
  • 批准号:
    2740739
  • 财政年份:
    2022
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Studentship
Parameter-free Algorithms for Reinforcement Learning
强化学习的无参数算法
  • 批准号:
    558512-2021
  • 财政年份:
    2022
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Doctoral
Reinforcement Learning Algorithms Designed to Persist
旨在持久的强化学习算法
  • 批准号:
    DGECR-2022-00390
  • 财政年份:
    2022
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Launch Supplement
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了