CAREER: Foundations of Reinforcement Learning under Partial Observability
职业:部分可观察性下强化学习的基础
基本信息
- 批准号:2239297
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-08-01 至 2028-07-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
A wide range of modern artificial intelligence challenges can be cast as Reinforcement Learning (RL) problems under partial observability, in which agents learn to make a sequence of decisions despite lacking complete information about the moment-to-moment situation in which decisions are made. Natural applications of this kind of Partially Observable RL (PORL) include robotics, autonomous driving, imperfect information games, resource allocation under partial information, planetary exploration, medical diagnostic systems. As such, PORL has been an important topic in operation research, control, and machine learning. While the community recently witnessed a surge of breakthroughs in reinforcement learning theory in fully observable environments, our understanding of learning to act in partially observable systems remains very limited. Partial observability brings a new series of unique challenges to RL in modeling, algorithm design, and theoretical analyses. Resolving these challenges will have far-reaching impacts in academia, industry and society where modern RL can be applied.This project aims to identify and attack these unique challenges, establish solid theoretical foundations, and design new reliable and efficient algorithms for PORL. Concretely, this proposal will study PORL in three progressive thrusts. Thrust 1 considers the basic tabular setup, under the model of Partially Observable Markov Decision Processes (POMDPs). The main objective in this thrust is to identify the key structural conditions that permit statistically or computationally efficient learning, and to address the core challenges of inferring latent states and exploration. Thrust 2 concerns modern PORL with an enormous number of states and observations, where function approximation must be deployed to approximate the models, the value functions, or the policies. We will investigate these problems under a more general model of Predictive State Representations (PSRs) and develop efficient learning results in the presence of function approximation. Thrust 3 investigates PORL in the multiagent setting, under the model of Partially Observable Markov Games (POMGs). We will design efficient algorithms for learning various equilibria in POMGs and address the unique challenges arising from multiagency and the design of decentralized algorithms.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
现代人工智能面临的一系列挑战可以被视为部分可观测性下的强化学习(RL)问题,在这种情况下,智能体学习做出一系列决策,尽管缺乏关于决策时每时每刻情况的完整信息。这种部分可观察强化学习(PORL)的自然应用包括机器人、自动驾驶、不完全信息博弈、部分信息下的资源分配、行星探索、医疗诊断系统。因此,PORL一直是运筹学、控制和机器学习中的一个重要课题。虽然社区最近在完全可观察的环境中见证了强化学习理论的突破,但我们对在部分可观察系统中学习行动的理解仍然非常有限。部分可观测性给强化学习的建模、算法设计和理论分析带来了一系列新的挑战。解决这些挑战将对现代RL应用的学术界、工业界和社会产生深远的影响。本项目旨在识别和应对这些独特的挑战,建立坚实的理论基础,并为PORL设计新的可靠和高效的算法。具体而言,本建议将研究PORL在三个渐进的推力。第一个重点是在部分可观测马尔可夫决策过程(POMDPs)模型下的基本表格设置。在这方面的主要目标是确定关键的结构条件,允许统计或计算效率的学习,并解决推断潜在状态和探索的核心挑战。推力2涉及具有大量状态和观测的现代PORL,其中必须部署函数近似来近似模型、值函数或策略。我们将在更一般的预测状态表示(PSR)模型下研究这些问题,并在函数逼近的情况下开发有效的学习结果。推力3研究PORL在多智能体设置下,部分可观察马尔可夫博弈(POMG)模型。我们将设计有效的算法来学习POMG中的各种均衡,并解决多机构和分散算法设计所带来的独特挑战。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Chi Jin其他文献
Learning Markov Games with Adversarial Opponents: Efficient Algorithms and Fundamental Limits
与对抗性对手学习马尔可夫博弈:高效算法和基本限制
- DOI:
10.48550/arxiv.2203.06803 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
Qinghua Liu;Yuanhao Wang;Chi Jin - 通讯作者:
Chi Jin
The stability control for isolated wind‐diesel power system based on the cross coupling effect model
基于交叉耦合效应模型的离风柴油发电系统稳定控制
- DOI:
10.1049/gtd2.12089 - 发表时间:
2020-12 - 期刊:
- 影响因子:2.5
- 作者:
Yang Mi;Lang Zhongjie;Chen Xin;Yang Fu;Chi Jin;Shi Shuai;Zhao Yao;Enyu Jiang - 通讯作者:
Enyu Jiang
Image Annotation by Object Hypotheses-oriented Deep Neural Networks
面向对象假设的深度神经网络进行图像注释
- DOI:
10.12783/dtcse/smce2017/12419 - 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Fang Ma;Shaohe Lv;Ke;Chi Jin;Fei Chen;Ke Yang;Y. Dou - 通讯作者:
Y. Dou
Representation Learning for General-sum Low-rank Markov Games
广义和低秩马尔可夫博弈的表示学习
- DOI:
10.48550/arxiv.2210.16976 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
Chengzhuo Ni;Yuda Song;Xuezhou Zhang;Chi Jin;Mengdi Wang - 通讯作者:
Mengdi Wang
Achieving excellent strength-ductility balance in the lightweight refractory high-entropy alloy by incorporating aluminum
- DOI:
10.1016/j.msea.2024.147248 - 发表时间:
2024-11-01 - 期刊:
- 影响因子:
- 作者:
Chi Jin;Xiaolin Li;Junhong Kang;Haifeng Wang - 通讯作者:
Haifeng Wang
Chi Jin的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Chi Jin', 18)}}的其他基金
Collaborative Research: Frameworks: hpcGPT: Enhancing Computing Center User Support with HPC-enriched Generative AI
协作研究:框架:hpcGPT:通过 HPC 丰富的生成式 AI 增强计算中心用户支持
- 批准号:
2411299 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
RI: Medium: Provable Reinforcement Learning with Function Approximation and Neural Networks
RI:中:使用函数逼近和神经网络的可证明强化学习
- 批准号:
2107304 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
相似国自然基金
宽禁带功率器件单粒子效应与加固方法基础问题研究
- 批准号:62234013
- 批准年份:2022
- 资助金额:283 万元
- 项目类别:重点项目
劲性复合吸力桩基础移动射流加固机理及其抗拔承载特性研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
既有结构性能评估与加固改造基础研究
- 批准号:
- 批准年份:2020
- 资助金额:300 万元
- 项目类别:重点项目
复杂动力环境下海上风机大直径单桩基础微生物加固的防护机理研究
- 批准号:U1906230
- 批准年份:2019
- 资助金额:246 万元
- 项目类别:国际(地区)合作与交流项目
利用植物加固方法提升土工基础设施应对气候变化能力
- 批准号:
- 批准年份:2019
- 资助金额:199 万元
- 项目类别:国际(地区)合作与交流项目
先进非易失性存储器辐照效应与加固技术基础研究
- 批准号:61634008
- 批准年份:2016
- 资助金额:280.0 万元
- 项目类别:重点项目
顶承式筒型基础内部土体施工预压联合电渗加固固结试验及理论研究
- 批准号:51379142
- 批准年份:2013
- 资助金额:80.0 万元
- 项目类别:面上项目
黏性土中考虑基础宽度与埋置深度的复合地基破坏机理及极限承载力研究
- 批准号:51378345
- 批准年份:2013
- 资助金额:80.0 万元
- 项目类别:面上项目
微生物灌浆:地基基础加固的新探索
- 批准号:51078202
- 批准年份:2010
- 资助金额:41.0 万元
- 项目类别:面上项目
云南红土的工程劣化机理与土坝加固的基础问题研究
- 批准号:50869003
- 批准年份:2008
- 资助金额:26.0 万元
- 项目类别:地区科学基金项目
相似海外基金
CIF: SMALL: Theoretical Foundations of Partially Observable Reinforcement Learning: Minimax Sample Complexity and Provably Efficient Algorithms
CIF:SMALL:部分可观察强化学习的理论基础:最小最大样本复杂性和可证明有效的算法
- 批准号:
2315725 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CAREER: Theoretical Foundations of Offline Reinforcement Learning
职业:离线强化学习的理论基础
- 批准号:
2141781 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
Collaborative Research: CIF: Medium: Statistical and Algorithmic Foundations of Efficient Reinforcement Learning
合作研究:CIF:媒介:高效强化学习的统计和算法基础
- 批准号:
2221009 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
Probabilistic Foundations for Reinforcement Learning with Nonlinear Function Approximation
非线性函数逼近强化学习的概率基础
- 批准号:
548070-2020 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Postgraduate Scholarships - Doctoral
Collaborative Research: CIF: Medium: Statistical and Algorithmic Foundations of Efficient Reinforcement Learning
合作研究:CIF:媒介:高效强化学习的统计和算法基础
- 批准号:
2106739 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
Collaborative Research: CIF: Medium: Statistical and Algorithmic Foundations of Efficient Reinforcement Learning
合作研究:CIF:媒介:高效强化学习的统计和算法基础
- 批准号:
2106778 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
IIS:RI Theoretical Foundations of Reinforcement Learning: From Tabula Rasa to Function Approximation
IIS:RI 强化学习的理论基础:从白板到函数逼近
- 批准号:
2110170 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Probabilistic Foundations for Reinforcement Learning with Nonlinear Function Approximation
非线性函数逼近强化学习的概率基础
- 批准号:
548070-2020 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Postgraduate Scholarships - Doctoral
THE EARTHQUAKE-RESISTANT REINFORCEMENT OF PILE FOUNDATIONS WITH DIAPHRAGM WALL TO LATERAL FLOW OF LIQUEFIED GROUND
连续墙桩基对液化地层侧流的抗震加固
- 批准号:
11650493 - 财政年份:1999
- 资助金额:
$ 50万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Trustworthy Reinforcement Learning for Multi-Agent Systems: Foundations of Robust and Accountable Decision Making
多智能体系统的值得信赖的强化学习:稳健且负责任的决策的基础
- 批准号:
467367360 - 财政年份:
- 资助金额:
$ 50万 - 项目类别:
Independent Junior Research Groups