RI: Medium: Provable Reinforcement Learning with Function Approximation and Neural Networks
RI:中:使用函数逼近和神经网络的可证明强化学习
基本信息
- 批准号:2107304
- 负责人:
- 金额:$ 120万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-10-01 至 2024-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Reinforcement Learning (RL) is a generic and flexible framework for sequential decision-making problems. Modern RL commonly engages practical problems with an enormous number of states, where function approximation must be deployed to generalize knowledge from the visited states to the unvisited ones. Function approximation, particularly in the form of deep neural networks, lies at the heart of the recent practical successes of RL in domains such as robotics, autonomous vehicles, business management, and production systems. However, most existing theoretical understanding of RL has been restricted to the problems with a small number of states without using function approximation, and a significant gap remains between theory and practice of RL. This project seeks to bridge this gap by identifying and addressing the fundamental challenges that are persistent in RL with function approximation.To accomplish this goal, this project will develop a comprehensive set of fundamental theory and methodologies for RL with function approximation, with a special emphasis on its applicability to modern deep RL. Concretely, this project will proceed with two parallel thrusts. The first thrust investigates model-free RL with general function approximation. This thrust will identify the general structure of the function classes where RL problems are tractable, design new provably efficient algorithms for those general function classes, and address the challenging issues such as model misspecification. This thrust will further integrate these results with recent advances in representation, optimization and generalization of deep learning. The second thrust concerns model-based RL to incorporate domain knowledge. This thrust will first develop a general-purpose model-based RL method using the idea of value-targeted system identification. This thrust will also develop stochastic-approximation variants of the methods for tractable computation, and deep model reduction or feature learning methods for analyzing off-policy data prior to on-policy model-based RL. Important outcomes of this project will be new general and reliable RL algorithms that are guaranteed to perform well for a wide range of applications with both computational and statistical efficiency.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
强化学习(RL)是一个通用的和灵活的框架顺序决策问题。现代强化学习通常涉及具有大量状态的实际问题,其中必须部署函数近似以将知识从访问状态推广到未访问状态。函数逼近,特别是以深度神经网络的形式,是RL在机器人、自动驾驶汽车、企业管理和生产系统等领域最近取得实际成功的核心。然而,目前对强化学习的理论认识大多局限于少数状态的问题,没有采用函数逼近的方法,强化学习的理论与实践之间还存在着很大的差距。该项目旨在通过识别和解决RL与函数近似的基本挑战来弥合这一差距。为了实现这一目标,该项目将开发一套全面的RL与函数近似的基础理论和方法,特别强调其对现代深度RL的适用性。具体而言,该项目将进行两个平行的推力。第一个推力研究无模型RL与一般函数近似。这个推力将确定RL问题易于处理的函数类的一般结构,为这些一般函数类设计新的可证明有效的算法,并解决具有挑战性的问题,如模型错误指定。这一推动力将进一步将这些结果与深度学习的表示、优化和泛化方面的最新进展相结合。第二个推力涉及基于模型的强化学习,以纳入领域知识。这个推力将首先开发一个通用的基于模型的RL方法使用的价值目标系统识别的想法。这一推力还将开发用于易处理计算的方法的随机近似变体,以及用于在基于策略模型的RL之前分析非策略数据的深度模型简化或特征学习方法。该项目的重要成果将是新的通用和可靠的强化学习算法,保证在计算和统计效率方面都能在广泛的应用中表现良好。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms
- DOI:
- 发表时间:2021-02
- 期刊:
- 影响因子:0
- 作者:Chi Jin;Qinghua Liu;Sobhan Miryoosefi
- 通讯作者:Chi Jin;Qinghua Liu;Sobhan Miryoosefi
A Simple Reward-free Approach to Constrained Reinforcement Learning
约束强化学习的简单无奖励方法
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Sobhan Miryoosefi, Chi Jin
- 通讯作者:Sobhan Miryoosefi, Chi Jin
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Chi Jin其他文献
Learning Markov Games with Adversarial Opponents: Efficient Algorithms and Fundamental Limits
与对抗性对手学习马尔可夫博弈:高效算法和基本限制
- DOI:
10.48550/arxiv.2203.06803 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
Qinghua Liu;Yuanhao Wang;Chi Jin - 通讯作者:
Chi Jin
The stability control for isolated wind‐diesel power system based on the cross coupling effect model
基于交叉耦合效应模型的离风柴油发电系统稳定控制
- DOI:
10.1049/gtd2.12089 - 发表时间:
2020-12 - 期刊:
- 影响因子:2.5
- 作者:
Yang Mi;Lang Zhongjie;Chen Xin;Yang Fu;Chi Jin;Shi Shuai;Zhao Yao;Enyu Jiang - 通讯作者:
Enyu Jiang
Image Annotation by Object Hypotheses-oriented Deep Neural Networks
面向对象假设的深度神经网络进行图像注释
- DOI:
10.12783/dtcse/smce2017/12419 - 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Fang Ma;Shaohe Lv;Ke;Chi Jin;Fei Chen;Ke Yang;Y. Dou - 通讯作者:
Y. Dou
Representation Learning for General-sum Low-rank Markov Games
广义和低秩马尔可夫博弈的表示学习
- DOI:
10.48550/arxiv.2210.16976 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
Chengzhuo Ni;Yuda Song;Xuezhou Zhang;Chi Jin;Mengdi Wang - 通讯作者:
Mengdi Wang
Achieving excellent strength-ductility balance in the lightweight refractory high-entropy alloy by incorporating aluminum
- DOI:
10.1016/j.msea.2024.147248 - 发表时间:
2024-11-01 - 期刊:
- 影响因子:
- 作者:
Chi Jin;Xiaolin Li;Junhong Kang;Haifeng Wang - 通讯作者:
Haifeng Wang
Chi Jin的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Chi Jin', 18)}}的其他基金
Collaborative Research: Frameworks: hpcGPT: Enhancing Computing Center User Support with HPC-enriched Generative AI
协作研究:框架:hpcGPT:通过 HPC 丰富的生成式 AI 增强计算中心用户支持
- 批准号:
2411299 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Standard Grant
CAREER: Foundations of Reinforcement Learning under Partial Observability
职业:部分可观察性下强化学习的基础
- 批准号:
2239297 - 财政年份:2023
- 资助金额:
$ 120万 - 项目类别:
Continuing Grant
相似国自然基金
基于水头损失效应的溶洞-管流-裂隙-孔隙介质中水动力学渗流模型
- 批准号:JCZRYB202501319
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
新型石榴石基高熵微波介质陶瓷结构与性能调控研究
- 批准号:JCZRLH202500653
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
高超声速飞行器跨介质超视距电波传播机理与统一信道建模方法研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
面向冶炼中高温余热利用的熔融介质模块式储换热一体化技术研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
多孔介质中全/多氟化合物污染物迁移机制及模型研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
跨介质量子增强探测技术-跨介质量子增强探测技术研究
- 批准号:2025C02029
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
炉内非均匀多物理场中声线弯曲传播机理及泄漏声定位研究
- 批准号:QN25A040003
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
极地海域跨介质零功耗温度感知的热-电-力耦合机制研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于变磁通记忆电机的跨介质飞行器一
体化电推进技术研究
- 批准号:
- 批准年份:2025
- 资助金额:100.0 万元
- 项目类别:省市级项目
面向肺部疾病无创快速诊断的多孔介质
电渗诱导EBC微流控方法研究
- 批准号:
- 批准年份:2025
- 资助金额:10.0 万元
- 项目类别:省市级项目
相似海外基金
Collaborative Research: CyberTraining: Implementation: Medium: Training Users, Developers, and Instructors at the Chemistry/Physics/Materials Science Interface
协作研究:网络培训:实施:媒介:在化学/物理/材料科学界面培训用户、开发人员和讲师
- 批准号:
2321102 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Standard Grant
RII Track-4:@NASA: Bluer and Hotter: From Ultraviolet to X-ray Diagnostics of the Circumgalactic Medium
RII Track-4:@NASA:更蓝更热:从紫外到 X 射线对环绕银河系介质的诊断
- 批准号:
2327438 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Standard Grant
Collaborative Research: Topological Defects and Dynamic Motion of Symmetry-breaking Tadpole Particles in Liquid Crystal Medium
合作研究:液晶介质中对称破缺蝌蚪粒子的拓扑缺陷与动态运动
- 批准号:
2344489 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Standard Grant
Collaborative Research: AF: Medium: The Communication Cost of Distributed Computation
合作研究:AF:媒介:分布式计算的通信成本
- 批准号:
2402836 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Continuing Grant
Collaborative Research: AF: Medium: Foundations of Oblivious Reconfigurable Networks
合作研究:AF:媒介:遗忘可重构网络的基础
- 批准号:
2402851 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Continuing Grant
Collaborative Research: CIF: Medium: Snapshot Computational Imaging with Metaoptics
合作研究:CIF:Medium:Metaoptics 快照计算成像
- 批准号:
2403122 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Medium: Differentiable Hardware Synthesis
合作研究:SHF:媒介:可微分硬件合成
- 批准号:
2403134 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Standard Grant
Collaborative Research: CyberTraining: Implementation: Medium: Transforming the Molecular Science Research Workforce through Integration of Programming in University Curricula
协作研究:网络培训:实施:中:通过将编程融入大学课程来改变分子科学研究人员队伍
- 批准号:
2321045 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Standard Grant
Collaborative Research: CyberTraining: Implementation: Medium: Training Users, Developers, and Instructors at the Chemistry/Physics/Materials Science Interface
协作研究:网络培训:实施:媒介:在化学/物理/材料科学界面培训用户、开发人员和讲师
- 批准号:
2321103 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Standard Grant
Collaborative Research: CPS: Medium: Automating Complex Therapeutic Loops with Conflicts in Medical Cyber-Physical Systems
合作研究:CPS:中:自动化医疗网络物理系统中存在冲突的复杂治疗循环
- 批准号:
2322534 - 财政年份:2024
- 资助金额:
$ 120万 - 项目类别:
Standard Grant