CIF: Small: How Much of Reinforcement Learning is Gradient Descent?
CIF:小:强化学习中有多少是梯度下降?
基本信息
- 批准号:2245059
- 负责人:
- 金额:$ 30.12万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-06-01 至 2026-05-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
In the past decade, reinforcement learning has achieved remarkable success in a wide range of applications, from games such as chess and go to advanced applications such as chip design and aerial navigation. There is now ample evidence that reinforcement learning represents one of the most promising research directions to deliver the next generation of autonomous systems. However, many popular reinforcement-learning methods often fail to converge, making the use of reinforcement learning in practice more an art than a science. This project will explore a novel approach to analyzing and designing convergent reinforcement-learning methods based on a recently discovered connection to gradient descent. This connection will not only improve the analysis of existing algorithms but also lead to the development of new methods.This project builds on a novel concept, gradient splitting, which allows classical reinforcement-learning methods to be viewed as modifications of stochastic-gradient-descent updates, which inherit many key properties of gradient descent. We will use this connection to develop variations of temporal difference learning and Q-learning which, when given a dataset sampled from a Markov decision process, will converge geometrically to the statistically optimal estimate of the true value function. Coupled with neural-network approximation, our methods will approximate the true value function with an additional error that is inversely proportional to a power of the width of the underlying neural network. These results will then be used to develop a provably convergent neural actor-critic method. The new methods we will develop will not only provide rigorous bounds on the performance of neural networks in reinforcement learning but also will result in significantly faster training times compared to existing methods.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
在过去的十年中,强化学习在广泛的应用中取得了显着的成功,从国际象棋等游戏到芯片设计和航空导航等高级应用。现在有充分的证据表明,强化学习是提供下一代自主系统的最有前途的研究方向之一。然而,许多流行的强化学习方法往往无法收敛,这使得强化学习在实践中的使用更像是一门艺术,而不是一门科学。该项目将探索一种新的方法来分析和设计基于最近发现的梯度下降连接的收敛迭代学习方法。这种联系不仅会改善现有算法的分析,而且会导致新方法的发展。这个项目建立在一个新的概念,梯度分裂,它允许经典的迭代学习方法被视为随机梯度下降更新的修改,它继承了梯度下降的许多关键属性。我们将使用这种连接来开发时间差异学习和Q学习的变体,当给定从马尔可夫决策过程中采样的数据集时,它们将几何收敛到真值函数的统计最优估计。再加上神经网络近似,我们的方法将近似真值函数,其误差与底层神经网络宽度的幂成反比。然后,这些结果将被用来开发一个可证明收敛的神经演员-评论家方法。我们将开发的新方法不仅将为神经网络在强化学习中的性能提供严格的界限,而且与现有方法相比,还将显著加快训练时间。该奖项反映了NSF的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Distributed TD(0) With Almost No Communication
- DOI:10.1109/lcsys.2023.3287952
- 发表时间:2021-04
- 期刊:
- 影响因子:3
- 作者:R. Liu;Alexander Olshevsky
- 通讯作者:R. Liu;Alexander Olshevsky
{{
                item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi }} 
- 发表时间:{{ item.publish_year }} 
- 期刊:
- 影响因子:{{ item.factor }}
- 作者:{{ item.authors }} 
- 通讯作者:{{ item.author }} 
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.author }} 
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.author }} 
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.author }} 
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.author }} 
数据更新时间:{{ patent.updateTime }}
Alexander Olshevsky其他文献
Limitations and Tradeoffs in Minimum Input Selection Problems
最小输入选择问题的限制和权衡
- DOI:
- 发表时间:2018 
- 期刊:
- 影响因子:0
- 作者:A. Jadbabaie;Alexander Olshevsky;Milad Siami 
- 通讯作者:Milad Siami 
Asymptotic Network Independence and Step-Size for A Distributed Subgradient Method
- DOI:
- 发表时间:2020-03 
- 期刊:
- 影响因子:0
- 作者:Alexander Olshevsky 
- 通讯作者:Alexander Olshevsky 
Network Lifetime and Power Assignment in ad hoc Wireless Networks
自组织无线网络中的网络生命周期和功率分配
- DOI:
- 发表时间:2003 
- 期刊:
- 影响因子:0
- 作者:G. Călinescu;S. Kapoor;Alexander Olshevsky;A. Zelikovsky 
- 通讯作者:A. Zelikovsky 
Improved Approximation Algorithms for the Quality of Service Multicast Tree Problem
- DOI:10.1007/s00453-004-1133-y 
- 发表时间:2005-03-02 
- 期刊:
- 影响因子:0.700
- 作者:Marek Karpinski;Ion I. Mandoiu;Alexander Olshevsky;Alexander Zelikovsky 
- 通讯作者:Alexander Zelikovsky 
Minimum input selection for structural controllability
- DOI:10.1109/acc.2015.7171062 
- 发表时间:2014-07 
- 期刊:
- 影响因子:0
- 作者:Alexander Olshevsky 
- 通讯作者:Alexander Olshevsky 
Alexander Olshevsky的其他文献
{{
              item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi }} 
- 发表时间:{{ item.publish_year }} 
- 期刊:
- 影响因子:{{ item.factor }}
- 作者:{{ item.authors }} 
- 通讯作者:{{ item.author }} 
{{ truncateString('Alexander Olshevsky', 18)}}的其他基金
CPS: Medium: Federated Learning for Predicting Electricity Consumption with Mixed Global/Local Models
CPS:中:使用混合全局/本地模型预测电力消耗的联合学习
- 批准号:2317079 
- 财政年份:2024
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
Computationally Efficient Methods for Control of Epidemics on Networks
控制网络流行病的计算有效方法
- 批准号:2240848 
- 财政年份:2023
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
Efficiently Distributing Optimization over Large-Scale Networks
在大规模网络上高效分布优化
- 批准号:1933027 
- 财政年份:2019
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
CAREER: Algorithms and Fundamental Limitations for Sparse Control
职业:稀疏控制的算法和基本限制
- 批准号:1740451 
- 财政年份:2017
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
Achieving Consensus Among Autonomous Dynamic Agents using Control Laws that Maintain Performance as Network Size Increases
使用随着网络规模增加而保持性能的控制律在自治动态代理之间达成共识
- 批准号:1740452 
- 财政年份:2016
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
Achieving Consensus Among Autonomous Dynamic Agents using Control Laws that Maintain Performance as Network Size Increases
使用随着网络规模增加而保持性能的控制律在自治动态代理之间达成共识
- 批准号:1463262 
- 财政年份:2015
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
CAREER: Algorithms and Fundamental Limitations for Sparse Control
职业:稀疏控制的算法和基本限制
- 批准号:1351684 
- 财政年份:2014
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
CIF: Small: NSF-DST: Zak-OTFS - How to Make Communication and Radar Sensing More Predictable in 6G
CIF:小型:NSF-DST:Zak-OTFS - 如何使 6G 中的通信和雷达传感更具可预测性
- 批准号:2342690 
- 财政年份:2024
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
CPS: Small: Learning How to Control: A Meta-Learning Approach for the Adaptive Control of Cyber-Physical Systems
CPS:小:学习如何控制:网络物理系统自适应控制的元学习方法
- 批准号:2228092 
- 财政年份:2023
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
Tourism and Disaster Planning in Small Island Communities: How Japan can contribute to other island cities
小岛屿社区的旅游和灾害规划:日本如何为其他岛屿城市做出贡献
- 批准号:23K17117 
- 财政年份:2023
- 资助金额:$ 30.12万 
- 项目类别:Grant-in-Aid for Early-Career Scientists 
CISE-ANR: HCC: Small: Omnidirectional BatVision: Learning How to Navigate from Cell Phone Audios
CISE-ANR:HCC:小型:全向 BatVision:学习如何通过手机音频进行导航
- 批准号:2215542 
- 财政年份:2023
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
RI: Small: Visual How: Task Understanding and Description in the Real World
RI:小:视觉方式:现实世界中的任务理解和描述
- 批准号:2143197 
- 财政年份:2022
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
Collaborative Research: SaTC: CORE: Small: Understanding how visual features of misinformation influence credibility perceptions
协作研究:SaTC:核心:小:了解错误信息的视觉特征如何影响可信度认知
- 批准号:2150723 
- 财政年份:2022
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
Collaborative Research: SaTC: CORE: Small: Understanding how visual features of misinformation influence credibility perceptions
协作研究:SaTC:核心:小:了解错误信息的视觉特征如何影响可信度认知
- 批准号:2150716 
- 财政年份:2022
- 资助金额:$ 30.12万 
- 项目类别:Standard Grant 
Probing How Living Bacterial Membranes Control Small Molecule Uptake
探究活细菌膜如何控制小分子摄取
- 批准号:10276142 
- 财政年份:2021
- 资助金额:$ 30.12万 
- 项目类别:
Probing How Living Bacterial Membranes Control Small Molecule Uptake
探究活细菌膜如何控制小分子摄取
- 批准号:10794509 
- 财政年份:2021
- 资助金额:$ 30.12万 
- 项目类别:
Probing How Living Bacterial Membranes Control Small Molecule Uptake
探究活细菌膜如何控制小分子摄取
- 批准号:10649663 
- 财政年份:2021
- 资助金额:$ 30.12万 
- 项目类别:

 刷新
              刷新
            
















 {{item.name}}会员
              {{item.name}}会员
            



