CIF: SMALL: Theoretical Foundations of Partially Observable Reinforcement Learning: Minimax Sample Complexity and Provably Efficient Algorithms

CIF:SMALL:部分可观察强化学习的理论基础:最小最大样本复杂性和可证明有效的算法

基本信息

  • 批准号:
    2315725
  • 负责人:
  • 金额:
    $ 48.37万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-06-15 至 2026-05-31
  • 项目状态:
    未结题

项目摘要

Many reinforcement learning (RL) systems operate within environments that provide only partial observations and imperfect information to the agents. Despite notable empirical success, partially observable RL models still present considerable theoretical challenges, potentially posing significant risks to sensitive tasks. This project will design efficient learning algorithms and provide sharp sample complexity analyses for partially observable RL systems. The theoretical tools will build on a broad range of subjects, including machine learning, information theory, control theory, and high-dimensional statistics. The developed results will have impact on a variety of applications such as robotic control, autonomous driving, and strategic games. The investigator is committed to fostering diversity by actively recruiting and training students, particularly those from underrepresented minorities and women in Science, Technology, Engineering, and Math (STEM).This project will tackle the theoretical challenges in learning two partially observable RL models: partially observable Markov decision processes (POMDPs) and extensive-form games (EFGs). The main goal is to provide theoretical tools and new insights to developing algorithms and proving sharp statistical complexity bounds. The first component will focus on POMDPs, with the goal of closing the sample complexity gap of learning in the basic tabular setting and addressing the computational challenges by identifying structural conditions that admit planning efficiency. The second component will focus on EFGs, with the goal of designing near-optimal algorithms for three types of regret: external regret, Phi-regret, and dynamic regret. The proposed algorithms and sharp statistical complexity bounds will provide a solid theoretical foundation for future research of RL theorists and practitioners. These algorithms will be coded and tested within the OpenSpiel environment to evaluate their empirical performance.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
许多强化学习(RL)系统在仅向代理提供部分观测和不完美信息的环境中运行。尽管取得了显著的经验成功,但部分可观察的强化学习模型仍然存在相当大的理论挑战,可能对敏感任务构成重大风险。该项目将设计有效的学习算法,并为部分可观察的RL系统提供清晰的样本复杂性分析。理论工具将建立在广泛的学科基础上,包括机器学习,信息论,控制理论和高维统计。开发的成果将对机器人控制、自动驾驶和战略游戏等各种应用产生影响。该研究者致力于通过积极招募和培训学生,特别是那些来自科学,技术,工程和数学(STEM)的少数民族和女性,来促进多样性。该项目将解决学习两个部分可观察的RL模型的理论挑战:部分可观察的马尔可夫决策过程(POMDPs)和可拓形式游戏(EFG)。主要目标是提供理论工具和新的见解,开发算法和证明尖锐的统计复杂性界限。第一个组成部分将集中在POMDPs,其目标是缩小基本表格设置中学习的样本复杂性差距,并通过识别允许规划效率的结构条件来解决计算挑战。第二部分将集中于EFG,目标是为三种类型的遗憾设计接近最优的算法:外部遗憾,Phi遗憾和动态遗憾。所提出的算法和精确的统计复杂度界限将为强化学习理论家和实践者的未来研究提供坚实的理论基础。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection
作为统计学家的 Transformers:通过上下文算法选择进行可证明的上下文学习
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Song Mei其他文献

Joint Routing and Resource Management in Energy Harvesting Aided Wireless Mesh Backhaul Networks
能量收集辅助无线网状回程网络中的联合路由和资源管理
  • DOI:
    10.6138/jit.2015.16.6.20150609b
  • 发表时间:
    2015-11
  • 期刊:
  • 影响因子:
    1.6
  • 作者:
    Wang Ya-Li;Wei Yi-Fei;Teng Ying-Lei;Song Mei;Wang Xiao-Jun
  • 通讯作者:
    Wang Xiao-Jun
A study of SAR remote sensing of internal solitary waves in the north of the South China Sea: I. Simulation of internal tide transformation
南海北部内孤立波SAR遥感研究:一、内潮变换模拟
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Song Mei;Zhang Yuanling;Fan Zhisong
  • 通讯作者:
    Fan Zhisong
Queue-aware energy minimisation through sparse beamforming in C-RAN
通过 C-RAN 中的稀疏波束成形实现队列感知能量最小化
  • DOI:
    10.1049/iet-com.2017.0492
  • 发表时间:
    2017-12
  • 期刊:
  • 影响因子:
    1.6
  • 作者:
    Ouyang Weiping;Teng Yinglei;Song Mei;Zhao Wanxin
  • 通讯作者:
    Zhao Wanxin
A Deep Reinforcement Learning-Based Transcoder Selection Framework for Blockchain-Enabled Wireless D2D Transcoding
基于深度强化学习的转码器选择框架,用于支持区块链的无线 D2D 转码
  • DOI:
    10.1109/tcomm.2020.2974738
  • 发表时间:
    2020-02
  • 期刊:
  • 影响因子:
    8.3
  • 作者:
    Liu Mengting;Teng Yinglei;Yu F. Richard;Leung Victor C. M.;Song Mei
  • 通讯作者:
    Song Mei
Local convexity of the TAP free energy and AMP convergence for Z2-synchronization
Z2 同步的 TAP 自由能和 AMP 收敛的局部凸性
  • DOI:
    10.1214/23-aos2257
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Michael Celentano;Z. Fan;Song Mei
  • 通讯作者:
    Song Mei

Song Mei的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Song Mei', 18)}}的其他基金

CAREER: Theoretical foundations for deep learning and large-scale AI models
职业:深度学习和大规模人工智能模型的理论基础
  • 批准号:
    2339904
  • 财政年份:
    2024
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Continuing Grant
Mean Field Asymptotics in Statistical Inference: Variational Approach, Multiple Testing, and Predictive Inference
统计推断中的平均场渐进:变分方法、多重测试和预测推断
  • 批准号:
    2210827
  • 财政年份:
    2022
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Continuing Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Collaborative Research: FET: Small: Theoretical Foundations of Quantum Pseudorandom Primitives
合作研究:FET:小型:量子伪随机原语的理论基础
  • 批准号:
    2329938
  • 财政年份:
    2023
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
AF: Small: Theoretical Aspects of Repetition-Aware Text Compression and Indexing
AF:小:重复感知文本压缩和索引的理论方面
  • 批准号:
    2315822
  • 财政年份:
    2023
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
NSF-BSF: Collaborative Research: CIF: Small: Neural Estimation of Statistical Divergences: Theoretical Foundations and Applications to Communication Systems
NSF-BSF:协作研究:CIF:小型:统计差异的神经估计:通信系统的理论基础和应用
  • 批准号:
    2308445
  • 财政年份:
    2023
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
Collaborative Research: FET: Small: Theoretical Foundations of Quantum Pseudorandom Primitives
合作研究:FET:小型:量子伪随机原语的理论基础
  • 批准号:
    2329939
  • 财政年份:
    2023
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
NSF-BSF: Collaborative Research: CIF: Small: Neural Estimation of Statistical Divergences: Theoretical Foundations and Applications to Communication Systems
NSF-BSF:协作研究:CIF:小型:统计差异的神经估计:通信系统的理论基础和应用
  • 批准号:
    2308446
  • 财政年份:
    2023
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
Investigating the Dark Sector with Small-Scale Cosmology: Theoretical Implications for Substructures and Their Observables
用小尺度宇宙学研究暗区:子结构及其可观测值的理论意义
  • 批准号:
    570282-2022
  • 财政年份:
    2022
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Doctoral
Experimental and theoretical study of hydrodynamics of solid particle transport in small scale
小尺度固体颗粒输运的流体动力学实验与理论研究
  • 批准号:
    RGPIN-2017-05272
  • 财政年份:
    2022
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Discovery Grants Program - Individual
A Theoretical Model of Radiation Mechanism of Small Antenna for Improving Reliability of IoT Devices
提高物联网设备可靠性的小天线辐射机制理论模型
  • 批准号:
    21K14158
  • 财政年份:
    2021
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
AF: Small: Theoretical Aspects of Repetition-Aware Text Compression and Indexing
AF:小:重复感知文本压缩和索引的理论方面
  • 批准号:
    2112643
  • 财政年份:
    2021
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Standard Grant
Theoretical, Positive and Institutional Research in Small M&A and Family Business Succession
小M的理论、实证和制度研究
  • 批准号:
    21K01727
  • 财政年份:
    2021
  • 资助金额:
    $ 48.37万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了