CIF: Small: How Much of Reinforcement Learning is Gradient Descent?

CIF:小:强化学习中有多少是梯度下降?

基本信息

  • 批准号:
    2245059
  • 负责人:
  • 金额:
    $ 30.12万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-06-01 至 2026-05-31
  • 项目状态:
    未结题

项目摘要

In the past decade, reinforcement learning has achieved remarkable success in a wide range of applications, from games such as chess and go to advanced applications such as chip design and aerial navigation. There is now ample evidence that reinforcement learning represents one of the most promising research directions to deliver the next generation of autonomous systems. However, many popular reinforcement-learning methods often fail to converge, making the use of reinforcement learning in practice more an art than a science. This project will explore a novel approach to analyzing and designing convergent reinforcement-learning methods based on a recently discovered connection to gradient descent. This connection will not only improve the analysis of existing algorithms but also lead to the development of new methods.This project builds on a novel concept, gradient splitting, which allows classical reinforcement-learning methods to be viewed as modifications of stochastic-gradient-descent updates, which inherit many key properties of gradient descent. We will use this connection to develop variations of temporal difference learning and Q-learning which, when given a dataset sampled from a Markov decision process, will converge geometrically to the statistically optimal estimate of the true value function. Coupled with neural-network approximation, our methods will approximate the true value function with an additional error that is inversely proportional to a power of the width of the underlying neural network. These results will then be used to develop a provably convergent neural actor-critic method. The new methods we will develop will not only provide rigorous bounds on the performance of neural networks in reinforcement learning but also will result in significantly faster training times compared to existing methods.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
在过去的十年中,强化学习在广泛的应用中取得了显着的成功,从国际象棋、围棋等游戏到芯片设计和航空导航等高级应用。现在有充分的证据表明强化学习是下一代自主系统最有前途的研究方向之一。然而,许多流行的强化学习方法往往无法收敛,使得强化学习在实践中的使用更像是一门艺术而不是一门科学。该项目将探索一种基于最近发现的与梯度下降的联系来分析和设计收敛强化学习方法的新方法。这种联系不仅会改进现有算法的分析,还会导致新方法的开发。该项目建立在一个新颖的概念“梯度分裂”的基础上,它允许经典的强化学习方法被视为随机梯度下降更新的修改,它继承了梯度下降的许多关键属性。我们将使用这种连接来开发时间差异学习和 Q 学习的变体,当给定从马尔可夫决策过程采样的数据集时,它们将几何收敛到真值函数的统计最优估计。与神经网络近似相结合,我们的方法将近似真实值函数,并带有与底层神经网络宽度的幂成反比的附加误差。然后,这些结果将用于开发可证明收敛的神经演员-评论家方法。我们将开发的新方法不仅将为强化学习中神经网络的性能提供严格的限制,而且与现有方法相比,还将显着缩短训练时间。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Distributed TD(0) With Almost No Communication
  • DOI:
    10.1109/lcsys.2023.3287952
  • 发表时间:
    2021-04
  • 期刊:
  • 影响因子:
    3
  • 作者:
    R. Liu;Alexander Olshevsky
  • 通讯作者:
    R. Liu;Alexander Olshevsky
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Alexander Olshevsky其他文献

Limitations and Tradeoffs in Minimum Input Selection Problems
最小输入选择问题的限制和权衡
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Jadbabaie;Alexander Olshevsky;Milad Siami
  • 通讯作者:
    Milad Siami
Network Lifetime and Power Assignment in ad hoc Wireless Networks
自组织无线网络中的网络生命周期和功率分配
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    G. Călinescu;S. Kapoor;Alexander Olshevsky;A. Zelikovsky
  • 通讯作者:
    A. Zelikovsky
Asymptotic Network Independence and Step-Size for A Distributed Subgradient Method
  • DOI:
  • 发表时间:
    2020-03
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Alexander Olshevsky
  • 通讯作者:
    Alexander Olshevsky
Improved Approximation Algorithms for the Quality of Service Multicast Tree Problem
  • DOI:
    10.1007/s00453-004-1133-y
  • 发表时间:
    2005-03-02
  • 期刊:
  • 影响因子:
    0.700
  • 作者:
    Marek Karpinski;Ion I. Mandoiu;Alexander Olshevsky;Alexander Zelikovsky
  • 通讯作者:
    Alexander Zelikovsky
Minimum input selection for structural controllability

Alexander Olshevsky的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Alexander Olshevsky', 18)}}的其他基金

CPS: Medium: Federated Learning for Predicting Electricity Consumption with Mixed Global/Local Models
CPS:中:使用混合全局/本地模型预测电力消耗的联合学习
  • 批准号:
    2317079
  • 财政年份:
    2024
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Computationally Efficient Methods for Control of Epidemics on Networks
控制网络流行病的计算有效方法
  • 批准号:
    2240848
  • 财政年份:
    2023
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Efficiently Distributing Optimization over Large-Scale Networks
在大规模网络上高效分布优化
  • 批准号:
    1933027
  • 财政年份:
    2019
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
CAREER: Algorithms and Fundamental Limitations for Sparse Control
职业:稀疏控制的算法和基本限制
  • 批准号:
    1740451
  • 财政年份:
    2017
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Achieving Consensus Among Autonomous Dynamic Agents using Control Laws that Maintain Performance as Network Size Increases
使用随着网络规模增加而保持性能的控制律在自治动态代理之间达成共识
  • 批准号:
    1740452
  • 财政年份:
    2016
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Achieving Consensus Among Autonomous Dynamic Agents using Control Laws that Maintain Performance as Network Size Increases
使用随着网络规模增加而保持性能的控制律在自治动态代理之间达成共识
  • 批准号:
    1463262
  • 财政年份:
    2015
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
CAREER: Algorithms and Fundamental Limitations for Sparse Control
职业:稀疏控制的算法和基本限制
  • 批准号:
    1351684
  • 财政年份:
    2014
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CIF: Small: NSF-DST: Zak-OTFS - How to Make Communication and Radar Sensing More Predictable in 6G
CIF:小型:NSF-DST:Zak-OTFS - 如何使 6G 中的通信和雷达传感更具可预测性
  • 批准号:
    2342690
  • 财政年份:
    2024
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
CPS: Small: Learning How to Control: A Meta-Learning Approach for the Adaptive Control of Cyber-Physical Systems
CPS:小:学习如何控制:网络物理系统自适应控制的元学习方法
  • 批准号:
    2228092
  • 财政年份:
    2023
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Tourism and Disaster Planning in Small Island Communities: How Japan can contribute to other island cities
小岛屿社区的旅游和灾害规划:日本如何为其他岛屿城市做出贡献
  • 批准号:
    23K17117
  • 财政年份:
    2023
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
CISE-ANR: HCC: Small: Omnidirectional BatVision: Learning How to Navigate from Cell Phone Audios
CISE-ANR:HCC:小型:全向 BatVision:学习如何通过手机音频进行导航
  • 批准号:
    2215542
  • 财政年份:
    2023
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
RI: Small: Visual How: Task Understanding and Description in the Real World
RI:小:视觉方式:现实世界中的任务理解和描述
  • 批准号:
    2143197
  • 财政年份:
    2022
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Collaborative Research: SaTC: CORE: Small: Understanding how visual features of misinformation influence credibility perceptions
协作研究:SaTC:核心:小:了解错误信息的视觉特征如何影响可信度认知
  • 批准号:
    2150723
  • 财政年份:
    2022
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Collaborative Research: SaTC: CORE: Small: Understanding how visual features of misinformation influence credibility perceptions
协作研究:SaTC:核心:小:了解错误信息的视觉特征如何影响可信度认知
  • 批准号:
    2150716
  • 财政年份:
    2022
  • 资助金额:
    $ 30.12万
  • 项目类别:
    Standard Grant
Probing How Living Bacterial Membranes Control Small Molecule Uptake
探究活细菌膜如何控制小分子摄取
  • 批准号:
    10276142
  • 财政年份:
    2021
  • 资助金额:
    $ 30.12万
  • 项目类别:
Probing How Living Bacterial Membranes Control Small Molecule Uptake
探究活细菌膜如何控制小分子摄取
  • 批准号:
    10649663
  • 财政年份:
    2021
  • 资助金额:
    $ 30.12万
  • 项目类别:
Probing How Living Bacterial Membranes Control Small Molecule Uptake
探究活细菌膜如何控制小分子摄取
  • 批准号:
    10794509
  • 财政年份:
    2021
  • 资助金额:
    $ 30.12万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了