CAREER: Theoretical Foundations of Offline Reinforcement Learning

职业:离线强化学习的理论基础

基本信息

  • 批准号:
    2141781
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-05-01 至 2027-04-30
  • 项目状态:
    未结题

项目摘要

This award is funded in whole or in part under the American Rescue Plan Act of 2021 (Public Law 117-2).Reinforcement learning (RL) is a subarea of Artificial Intelligence (AI) that solves complex decision-making tasks. It has achieved impressive successes in simulator-defined problems, where the RL agent learns via trial-and-error inside a virtual "online" environment. However, it is difficult to apply these online algorithms to real-world problems, as trial-and-error is often expensive or impossible in real life. For example, it is unethical for an RL agent in personalized medicine to test a new treatment strategy that may harm patients, just for the purpose of gathering new information. A promising paradigm to addressing this issue is offline RL, where the agent learns solely from historical data. While the lack of direct interactions with the real environment prevents undesirable real-world consequences, it also gives rise to significant technical challenges in learning. This project aims to develop novel methods to address these challenges and provide a deep theoretical understanding for offline RL, and make significant progress in enabling offline RL in real-life applications such as robotics, adaptive medical treatment, and online recommendation systems. The research development will also be integrated into the project's educational plan, which includes advising underrepresented students and developing new courses and a monograph on reinforcement learning. The technical aims of the project consist of two thrusts. The first thrust focuses on the problem of model selection: after training is completed, how should we select between candidate policies on a holdout dataset? Model selection enables hyperparameter tuning, which is the backbone of practical machine learning, yet it is notoriously difficult in offline RL due to the multi-stage nature of the problem. The proposal describes a promising approach that builds on the investigator's recent theoretical work on value-function selection. The project will devise empirically effective methods based on the theoretical insights and address practical issues such as poorly fitted candidate functions and data with insufficient coverage. The second thrust considers the theoretical foundation of offline RL training: under what conditions can we guarantee the success of training? The proposal lays out the theoretical landscape of offline-RL training, and identifies important open questions and opportunities for discovering novel theoretical and algorithmic insights.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
该奖项是根据2021年《美国救援计划法》的全部或部分资助(公共法第117-2)。强化学习(RL)是人工智能(AI)的子地区(AI),可以解决复杂的决策任务。它在模拟器定义的问题中取得了令人印象深刻的成功,在该问题中,RL代理在虚拟“在线”环境中通过反复试验学习。但是,很难将这些在线算法应用于现实世界中的问题,因为在现实生活中试验通常是昂贵或不可能的。例如,个性化医学中的RL特工测试可能损害患者的新治疗策略是不道德的,只是为了收集新信息。解决此问题的一个有希望的范式是离线RL,代理人仅从历史数据中学习。尽管缺乏与真实环境的直接互动可以阻止不良现实世界的后果,但它也引起了学习的重大技术挑战。该项目旨在开发新的方法来应对这些挑战,并为离线RL提供深刻的理论理解,并在实现现实生活应用中的离线RL方面取得了重大进展,例如机器人技术,自适应医疗和在线推荐系统。研究开发还将纳入该项目的教育计划,其中包括为代表性不足的学生提供建议,开发新课程以及有关强化学习的专着。该项目的技术目标包括两个推力。第一个推力重点是模型选择问题:训练完成后,我们应该如何在保留数据集中的候选策略之间进行选择?模型选择可以实现高参数调整,后者是实用机器学习的骨干,但是由于问题的多阶段性质,众所周知,离线RL很难。该提案描述了一种有前途的方法,该方法基于研究者最近在价值功能选择的理论工作。该项目将基于理论见解并解决实践问题的经验有效方法,并解决诸如拟合不佳的候选功能和覆盖范围不足的数据。第二个推力考虑了离线RL培训的理论基础:在什么条件下,我们可以保证培训的成功?该提案列出了离线RL培训的理论格局,并确定了发现新颖的理论和算法洞察力的重要开放问题和机会。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子优点和更广泛影响的审查标准来通过评估来支持的。

项目成果

期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
The Optimal Approximation Factors in Misspecified Off-Policy Value Function Estimation
  • DOI:
    10.48550/arxiv.2307.13332
  • 发表时间:
    2023-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    P. Amortila;Nan Jiang;Csaba Szepesvari
  • 通讯作者:
    P. Amortila;Nan Jiang;Csaba Szepesvari
Reinforcement Learning in Low-Rank MDPs with Density Features
  • DOI:
    10.48550/arxiv.2302.02252
  • 发表时间:
    2023-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Audrey Huang;Jinglin Chen;Nan Jiang
  • 通讯作者:
    Audrey Huang;Jinglin Chen;Nan Jiang
Offline Reinforcement Learning Under Value and Density-Ratio Realizability: the Power of Gaps
  • DOI:
    10.48550/arxiv.2203.13935
  • 发表时间:
    2022-03
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jinglin Chen;Nan Jiang
  • 通讯作者:
    Jinglin Chen;Nan Jiang
Adversarial Model for Offline Reinforcement Learning
  • DOI:
    10.48550/arxiv.2302.11048
  • 发表时间:
    2023-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. Bhardwaj;Tengyang Xie;Byron Boots;Nan Jiang;Ching-An Cheng
  • 通讯作者:
    M. Bhardwaj;Tengyang Xie;Byron Boots;Nan Jiang;Ching-An Cheng
Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring Distributions
  • DOI:
    10.48550/arxiv.2210.15543
  • 发表时间:
    2022-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Audrey Huang;Nan Jiang
  • 通讯作者:
    Audrey Huang;Nan Jiang
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Nan Jiang其他文献

On the large-scale streaks in the logarithmic layer of wall-bounded flows
壁界流对数层中的大尺度条纹
  • DOI:
    10.1007/s12650-021-00810-x
  • 发表时间:
    2021-11
  • 期刊:
  • 影响因子:
    1.7
  • 作者:
    Jian-Hua Liu;Nan Jiang;Leonardo P. Chamorro
  • 通讯作者:
    Leonardo P. Chamorro
Nomenclatural transfer of Chinese Pulsatilla to Anemone (Ranunculaceae)
白头翁属向银莲花属(毛茛科)的命名转移
  • DOI:
    10.1111/njb.00700
  • 发表时间:
    2015-08
  • 期刊:
  • 影响因子:
    0.9
  • 作者:
    Nan Jiang;Zhuang Zhou;Kai-Yun Guang;Wen-Bin Yu
  • 通讯作者:
    Wen-Bin Yu
Characteristics of pulsed streamer discharge with MgO cathode and enhanced toluene degradation
MgO阴极脉冲流光放电及强化甲苯降解特性
  • DOI:
    10.1016/j.vacuum.2019.108840
  • 发表时间:
    2019-11
  • 期刊:
  • 影响因子:
    4
  • 作者:
    Yunxia Ruan;Jie Li;Bangfa Peng;He Guo;Xiaomei Yao;Nan Jiang;Yan Wu
  • 通讯作者:
    Yan Wu
Understanding and Predicting Human Label Variation in Natural Language Inference through Explanation
通过解释理解和预测自然语言推理中的人类标签变化
  • DOI:
    10.48550/arxiv.2304.12443
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Nan Jiang;Chenhao Tan;M. Marneffe
  • 通讯作者:
    M. Marneffe
Bandwidth-Aware Medical Image Retrieval in Mobile Cloud Computing Network
移动云计算网络中的带宽感知医学图像检索
  • DOI:
    10.1007/978-3-642-32281-5_32
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhuang Yi;Nan Jiang;Zhiang Wu;Dickson K. W. Chiu;Guochang Jiang;Hua Hu
  • 通讯作者:
    Hua Hu

Nan Jiang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Nan Jiang', 18)}}的其他基金

CAREER: New Algorithms and Models for Turbulence in Incompressible Fluids
职业:不可压缩流体湍流的新算法和模型
  • 批准号:
    2143331
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Probing Local Structural and Chemical Properties of Atomically Thin Two-Dimensional Materials by Optical Scanning Tunneling Microscopy
通过光学扫描隧道显微镜探测原子薄二维材料的局部结构和化学性质
  • 批准号:
    2211474
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Efficient Ensemble Methods for Predictive Fluid Flow Simulations Subject to Uncertainty
用于预测不确定性流体流动模拟的有效集成方法
  • 批准号:
    2120413
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CAREER: Probing Chemistry of Surface-Supported Nanostructures at the Angstrom-Scale
职业:埃级表面支撑纳米结构的化学探索
  • 批准号:
    1944796
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Collaborative Research: Integrated Experimental and Computational Studies for Understanding the Interplay of Photoreactive Materials and Persistent Contaminants
合作研究:用于了解光反应材料和持久性污染物相互作用的综合实验和计算研究
  • 批准号:
    1807465
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Efficient Ensemble Methods for Predictive Fluid Flow Simulations Subject to Uncertainty
用于预测不确定性流体流动模拟的有效集成方法
  • 批准号:
    1720001
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Time-Resolved EELS of Photonic Crystals and Glasses
光子晶体和玻璃的时间分辨 EELS
  • 批准号:
    0603993
  • 财政年份:
    2006
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant

相似国自然基金

充填体微波养护增强机制及其原位应用基础理论研究
  • 批准号:
    52374110
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
地理流空间的理论基础与分析模型
  • 批准号:
    42330107
  • 批准年份:
    2023
  • 资助金额:
    224 万元
  • 项目类别:
    重点项目
高稳普适软体抓持机器人仿生聚类创成基础理论
  • 批准号:
    52375030
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
能场辅助激光冲击特种强化新方法及理论基础研究
  • 批准号:
    52335008
  • 批准年份:
    2023
  • 资助金额:
    230 万元
  • 项目类别:
    重点项目
基于位移放大的浸没式大流量二维高速开关阀耦合工作机理及基础设计理论研究
  • 批准号:
    52375067
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

CAREER: Theoretical foundations for deep learning and large-scale AI models
职业:深度学习和大规模人工智能模型的理论基础
  • 批准号:
    2339904
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Theoretical Foundations for Learning Network Dynamics
职业:学习网络动力学的理论基础
  • 批准号:
    2338855
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Strengthening the Theoretical Foundations of Federated Learning: Utilizing Underlying Data Statistics in Mitigating Heterogeneity and Client Faults
职业:加强联邦学习的理论基础:利用底层数据统计来减轻异构性和客户端故障
  • 批准号:
    2340482
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Neurodevelopment of executive function, appetite regulation, and obesity in children and adolescents
儿童和青少年执行功能、食欲调节和肥胖的神经发育
  • 批准号:
    10643633
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
An Intervention to Reduce Cancer Associated Thrombosis Through Improved Prophylaxis
通过改进预防来减少癌症相关血栓形成的干预措施
  • 批准号:
    10723791
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了