CIF: Small: Reinforcement Learning with Function Approximation: Convergent Algorithms and Finite-sample Analysis

CIF:小型:带有函数逼近的强化学习:收敛算法和有限样本分析

基本信息

  • 批准号:
    2007783
  • 负责人:
  • 金额:
    $ 33万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

The recent success of a machine-learning technique called reinforcement learning in benchmark tasks suggests a potential revolutionary advance in practical applications, and has dramatically boosted the interest in this technique. However, common algorithms that use this approach are highly data-inefficient, leading to impressive results only on simulated systems, where an infinite amount of data can be simulated. For example, for online tasks that most humans pick up within a few minutes, reinforcement learning algorithms take much longer to reach human-level performance. A good reinforcement learning algorithm called "Rainbow deep Q-network" needs about 18 million frames of simulation data to beat human in performance for the simplest of online tasks. This amount of data corresponds to about 80 person-hours of online experience. This level of data requirements limits the application of reinforcement learning algorithms in many practical applications that only have a limited amount of data. Theoretical understanding of how much data is needed for effective reinforcement learning is still very limited. This project aims to reduce the data requirements to train reinforcement learning algorithms by developing a comprehensive methodology for reinforcement learning algorithm design and analyzing convergence rates, which will in turn motivate design of fast and stable reinforcement learning algorithms. This project will have a direct impact on various engineering and science applications, e.g., the financial market, business strategy planning, industrial automation and online advertising.This project will take a fresh perspective of using tools and concepts from both optimization and reinforcement learning. The following thrusts will be investigated in an increasing order of difficulty. 1) Linear function approximation: tools and insights will be developed to tackle challenges of non-smoothness and non-convexity in control problems. 2) General function approximation: new challenge of non-linearity will be addressed. 3) Neural function approximation: convergence to globally and/or universally optimal solutions will be investigated. In each of the three thrusts, new algorithms will be designed, and their convergence rates will be characterized. These results will be further used as guideline for parameter tuning, and to motivate design of fast and convergent algorithms.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
最近,一种名为强化学习的机器学习技术在基准任务中取得了成功,这表明它在实际应用中有着潜在的革命性进展,并极大地提高了人们对这项技术的兴趣。然而,使用这种方法的常见算法数据效率极低,仅在模拟系统上才能产生令人印象深刻的结果,其中可以模拟无限数量的数据。例如,对于大多数人在几分钟内完成的在线任务,强化学习算法需要更长的时间才能达到人类水平的性能。一个好的强化学习算法“彩虹深度Q网络”需要大约1800万帧的模拟数据才能在最简单的在线任务中击败人类。这一数据量相当于约80人小时的在线体验。这种数据要求限制了强化学习算法在许多实际应用中的应用,这些应用只有有限的数据量。对于有效的强化学习需要多少数据的理论理解仍然非常有限。该项目旨在通过开发一种用于强化学习算法设计和分析收敛速度的综合方法来减少训练强化学习算法的数据需求,这反过来又会激励快速稳定的强化学习算法的设计。该项目将对各种工程和科学应用产生直接影响,例如,金融市场,商业战略规划,工业自动化和在线广告。该项目将采用优化和强化学习的工具和概念的新视角。下面的重点将按照难度递增的顺序进行研究。1)线性函数近似:将开发工具和见解,以解决控制问题中的非光滑性和非凸性挑战。2)一般函数逼近:非线性的新挑战将得到解决。3)神经函数逼近:收敛到全局和/或普遍最优解将被研究。在每一个三个推力,新的算法将被设计,其收敛速度将被表征。这些结果将进一步用作参数调整的指导方针,并激励快速收敛算法的设计。该奖项反映了NSF的法定使命,并已被认为是值得通过使用基金会的智力价值和更广泛的影响审查标准进行评估的支持。

项目成果

期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Robust Average-Reward Markov Decision Processes
鲁棒平均奖励马尔可夫决策过程
A Robust and Constrained Multi-Agent Reinforcement Learning Electric Vehicle Rebalancing Method in AMoD Systems
Model-Free Robust Average-Reward Reinforcement Learning
  • DOI:
    10.48550/arxiv.2305.10504
  • 发表时间:
    2023-05
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yue Wang;Alvaro Velasquez;George K. Atia;Ashley Prater-Bennette;Shaofeng Zou
  • 通讯作者:
    Yue Wang;Alvaro Velasquez;George K. Atia;Ashley Prater-Bennette;Shaofeng Zou
Data-Driven Robust Multi-Agent Reinforcement Learning
Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence Analysis
  • DOI:
  • 发表时间:
    2020-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shaocong Ma;Yi Zhou;Shaofeng Zou
  • 通讯作者:
    Shaocong Ma;Yi Zhou;Shaofeng Zou
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Shaofeng Zou其他文献

Model-Free Robust Reinforcement Learning with Sample Complexity Analysis
具有样本复杂性分析的无模型鲁棒强化学习
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yudan Wang;Shaofeng Zou;Yue Wang
  • 通讯作者:
    Yue Wang
Near-infrared quantum cutting in Bi3+/Yb3+ co-doped oxyfluoride glasses via cooperative energy transfer for solar cells
Bi3/Yb3共掺杂氟氧化物玻璃的近红外量子切割通过太阳能电池的协同能量转移
  • DOI:
    10.1016/j.optmat.2014.10.047
  • 发表时间:
    2014-12
  • 期刊:
  • 影响因子:
    3.9
  • 作者:
    Weirong Wang;Shaofeng Zou;Xiao Lei;Huiping Gao;Yanli Mao*
  • 通讯作者:
    Yanli Mao*
Nonparametric Anomaly Detection and Secure Communication
非参数异常检测和安全通信
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shaofeng Zou
  • 通讯作者:
    Shaofeng Zou
An Information Theoretic Approach to Secret Sharing
秘密共享的信息论方法
A kernel-based nonparametric test for anomaly detection over line networks
用于线路网络异常检测的基于内核的非参数测试

Shaofeng Zou的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Shaofeng Zou', 18)}}的其他基金

CAREER: Robust Reinforcement Learning Under Model Uncertainty: Algorithms and Fundamental Limits
职业:模型不确定性下的鲁棒强化学习:算法和基本限制
  • 批准号:
    2337375
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Continuing Grant
Collaborative Research: CIF: Medium: Emerging Directions in Robust Learning and Inference
协作研究:CIF:媒介:稳健学习和推理的新兴方向
  • 批准号:
    2106560
  • 财政年份:
    2021
  • 资助金额:
    $ 33万
  • 项目类别:
    Continuing Grant
CCSS: Collaborative Research: Quickest Threat Detection in Adversarial Sensor Networks
CCSS:协作研究:对抗性传感器网络中最快的威胁检测
  • 批准号:
    2112693
  • 财政年份:
    2021
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
CRII: CIF: Dynamic Network Event Detection with Time-Series Data
CRII:CIF:使用时间序列数据进行动态网络事件检测
  • 批准号:
    1948165
  • 财政年份:
    2020
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CPS: Small: NSF-DST: Safety-Aware Behaviour-Driven Reinforcement Learning Based Autonomous Driving Solution for Urban Areas
CPS:小型:NSF-DST:基于安全意识行为驱动的强化学习的城市自动驾驶解决方案
  • 批准号:
    2343167
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
FET/SHF: Small: Reinforcement learning and transformer inspired smart photonics inverse design
FET/SHF:小型:强化学习和变压器启发的智能光子逆设计
  • 批准号:
    2309403
  • 财政年份:
    2023
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
CISE-ANR: RI: Small: Numerically efficient reinforcement learning for constrained systems with super-linear convergence (NERL)
CISE-ANR:RI:小:具有超线性收敛 (NERL) 的约束系统的数值高效强化学习
  • 批准号:
    2315396
  • 财政年份:
    2023
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
CIF: SMALL: Theoretical Foundations of Partially Observable Reinforcement Learning: Minimax Sample Complexity and Provably Efficient Algorithms
CIF:SMALL:部分可观察强化学习的理论基础:最小最大样本复杂性和可证明有效的算法
  • 批准号:
    2315725
  • 财政年份:
    2023
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
CIF: Small: Inverse Reinforcement Learning for Cognitive Sensing
CIF:小:认知感知的逆强化学习
  • 批准号:
    2312198
  • 财政年份:
    2023
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
CIF: Small: How Much of Reinforcement Learning is Gradient Descent?
CIF:小:强化学习中有多少是梯度下降?
  • 批准号:
    2245059
  • 财政年份:
    2023
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
CIF: Small: Adversarially Robust Reinforcement Learning: Attack, Defense, and Analysis
CIF:小型:对抗性鲁棒强化学习:攻击、防御和分析
  • 批准号:
    2232907
  • 财政年份:
    2023
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
CIF: Small: Accelerating Stochastic Approximation for Optimization and Reinforcement Learning
CIF:小型:加速优化和强化学习的随机逼近
  • 批准号:
    2306023
  • 财政年份:
    2023
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
RI: Small: Approximate Inference for Planning and Reinforcement Learning
RI:小:规划和强化学习的近似推理
  • 批准号:
    2246261
  • 财政年份:
    2023
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
Development and implementation of a small-scale and highly efficient genomic selection method using "look-ahead" based on reinforcement learning
基于强化学习的“前瞻”小规模高效基因组选择方法的开发和实施
  • 批准号:
    22H02306
  • 财政年份:
    2022
  • 资助金额:
    $ 33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了