CAREER: Theoretical Foundations of Offline Reinforcement Learning

职业:离线强化学习的理论基础

基本信息

  • 批准号:
    2141781
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-05-01 至 2027-04-30
  • 项目状态:
    未结题

项目摘要

This award is funded in whole or in part under the American Rescue Plan Act of 2021 (Public Law 117-2).Reinforcement learning (RL) is a subarea of Artificial Intelligence (AI) that solves complex decision-making tasks. It has achieved impressive successes in simulator-defined problems, where the RL agent learns via trial-and-error inside a virtual "online" environment. However, it is difficult to apply these online algorithms to real-world problems, as trial-and-error is often expensive or impossible in real life. For example, it is unethical for an RL agent in personalized medicine to test a new treatment strategy that may harm patients, just for the purpose of gathering new information. A promising paradigm to addressing this issue is offline RL, where the agent learns solely from historical data. While the lack of direct interactions with the real environment prevents undesirable real-world consequences, it also gives rise to significant technical challenges in learning. This project aims to develop novel methods to address these challenges and provide a deep theoretical understanding for offline RL, and make significant progress in enabling offline RL in real-life applications such as robotics, adaptive medical treatment, and online recommendation systems. The research development will also be integrated into the project's educational plan, which includes advising underrepresented students and developing new courses and a monograph on reinforcement learning. The technical aims of the project consist of two thrusts. The first thrust focuses on the problem of model selection: after training is completed, how should we select between candidate policies on a holdout dataset? Model selection enables hyperparameter tuning, which is the backbone of practical machine learning, yet it is notoriously difficult in offline RL due to the multi-stage nature of the problem. The proposal describes a promising approach that builds on the investigator's recent theoretical work on value-function selection. The project will devise empirically effective methods based on the theoretical insights and address practical issues such as poorly fitted candidate functions and data with insufficient coverage. The second thrust considers the theoretical foundation of offline RL training: under what conditions can we guarantee the success of training? The proposal lays out the theoretical landscape of offline-RL training, and identifies important open questions and opportunities for discovering novel theoretical and algorithmic insights.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
该奖项全部或部分由2021年美国救援计划法案(公法117-2)资助。强化学习(RL)是人工智能(AI)的一个子领域,用于解决复杂的决策任务。它在模拟器定义的问题中取得了令人印象深刻的成功,其中RL代理通过虚拟“在线”环境中的试错来学习。然而,很难将这些在线算法应用于现实世界的问题,因为试错法在真实的生活中通常是昂贵的或不可能的。例如,个性化医疗中的RL代理测试可能伤害患者的新治疗策略是不道德的,只是为了收集新信息。解决这个问题的一个有前途的范例是离线RL,其中代理仅从历史数据中学习。虽然缺乏与真实的环境的直接交互可以防止不期望的现实世界后果,但它也会在学习中产生重大的技术挑战。该项目旨在开发新的方法来应对这些挑战,并为离线RL提供深入的理论理解,并在现实生活中的应用中实现离线RL方面取得重大进展,如机器人,自适应医疗和在线推荐系统。研究开发也将纳入该项目的教育计划,其中包括为代表性不足的学生提供建议,开发新课程和关于强化学习的专著。该项目的技术目标包括两个方面。第一个重点是模型选择的问题:在训练完成后,我们应该如何在一个保持数据集上的候选策略之间进行选择?模型选择使超参数调整成为可能,这是实际机器学习的支柱,但由于问题的多阶段性质,离线RL非常困难。该提案描述了一个有前途的方法,建立在调查员最近的理论工作的价值功能的选择。该项目将根据理论见解设计出经验有效的方法,并解决实际问题,例如候选函数拟合不佳和覆盖范围不足的数据。第二个推力考虑离线RL训练的理论基础:在什么条件下我们可以保证训练的成功?该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
The Optimal Approximation Factors in Misspecified Off-Policy Value Function Estimation
  • DOI:
    10.48550/arxiv.2307.13332
  • 发表时间:
    2023-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    P. Amortila;Nan Jiang;Csaba Szepesvari
  • 通讯作者:
    P. Amortila;Nan Jiang;Csaba Szepesvari
Reinforcement Learning in Low-Rank MDPs with Density Features
  • DOI:
    10.48550/arxiv.2302.02252
  • 发表时间:
    2023-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Audrey Huang;Jinglin Chen;Nan Jiang
  • 通讯作者:
    Audrey Huang;Jinglin Chen;Nan Jiang
Adversarial Model for Offline Reinforcement Learning
  • DOI:
    10.48550/arxiv.2302.11048
  • 发表时间:
    2023-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. Bhardwaj;Tengyang Xie;Byron Boots;Nan Jiang;Ching-An Cheng
  • 通讯作者:
    M. Bhardwaj;Tengyang Xie;Byron Boots;Nan Jiang;Ching-An Cheng
Offline Reinforcement Learning Under Value and Density-Ratio Realizability: the Power of Gaps
  • DOI:
    10.48550/arxiv.2203.13935
  • 发表时间:
    2022-03
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jinglin Chen;Nan Jiang
  • 通讯作者:
    Jinglin Chen;Nan Jiang
A Minimax Learning Approach to Off-Policy Evaluation in Confounded Partially Observable Markov Decision Processes
  • DOI:
  • 发表时间:
    2021-11
  • 期刊:
  • 影响因子:
    2.2
  • 作者:
    C. Shi;Masatoshi Uehara;Jiawei Huang;Nan Jiang
  • 通讯作者:
    C. Shi;Masatoshi Uehara;Jiawei Huang;Nan Jiang
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Nan Jiang其他文献

A stability study of carbonyl compounds in Tedlar bags by a fabricated MEMS microreactor approach
通过制造 MEMS 微反应器方法研究 Tedlar 袋中羰基化合物的稳定性
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Qi Li;Xiao;Kai;Haifeng He;Nan Jiang
  • 通讯作者:
    Nan Jiang
Practical Considerations for Using RNA Sequencing in Management of B-Lymphoblastic Leukemia: Ma-Spore ALL-Seq 2020 Implementation Strategy.
使用 RNA 测序管理 B 淋巴细胞白血病的实际注意事项:Ma-Spore ALL-Seq 2020 实施策略。
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    4.1
  • 作者:
    Winnie H. Ni Chin;Zhenhua Li;Nan Jiang;E. Lim;J. Y. Suang Lim;Yi Lu;Kean;Shirley Kow Yin Kham;Bernice L. Zhi Oh;A. Tan;H. Ariffin;Jun J. Yang;Allen Eng
  • 通讯作者:
    Allen Eng
Dynamical analysis of clustering-based wireless sensor networks
基于聚类的无线传感器网络的动态分析
Bacterial community of saliva in adults with and without periodontitis
患有和不患有牙周炎的成人唾液细菌群落
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jianye Zhou;Nan Jiang;Kangli Jiao;Zhanhai Yu;Xin Zheng;Jumei Zhang;Fang Wu;Junping Li;Zhiqiang Li
  • 通讯作者:
    Zhiqiang Li
Privacy Protection based on Stream Cipher for Spatio-temporal Data in IoT
基于流密码的物联网时空数据隐私保护
  • DOI:
    10.1109/jiot.2020.2990428
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    10.6
  • 作者:
    Tianen Liu;Yingjie Wang;Yingshu Li;Xiangrong Tong;Lianyong Qi;Nan Jiang
  • 通讯作者:
    Nan Jiang

Nan Jiang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Nan Jiang', 18)}}的其他基金

CAREER: New Algorithms and Models for Turbulence in Incompressible Fluids
职业:不可压缩流体湍流的新算法和模型
  • 批准号:
    2143331
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Probing Local Structural and Chemical Properties of Atomically Thin Two-Dimensional Materials by Optical Scanning Tunneling Microscopy
通过光学扫描隧道显微镜探测原子薄二维材料的局部结构和化学性质
  • 批准号:
    2211474
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Efficient Ensemble Methods for Predictive Fluid Flow Simulations Subject to Uncertainty
用于预测不确定性流体流动模拟的有效集成方法
  • 批准号:
    2120413
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CAREER: Probing Chemistry of Surface-Supported Nanostructures at the Angstrom-Scale
职业:埃级表面支撑纳米结构的化学探索
  • 批准号:
    1944796
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Collaborative Research: Integrated Experimental and Computational Studies for Understanding the Interplay of Photoreactive Materials and Persistent Contaminants
合作研究:用于了解光反应材料和持久性污染物相互作用的综合实验和计算研究
  • 批准号:
    1807465
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Efficient Ensemble Methods for Predictive Fluid Flow Simulations Subject to Uncertainty
用于预测不确定性流体流动模拟的有效集成方法
  • 批准号:
    1720001
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Time-Resolved EELS of Photonic Crystals and Glasses
光子晶体和玻璃的时间分辨 EELS
  • 批准号:
    0603993
  • 财政年份:
    2006
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant

相似国自然基金

半间歇反应本质安全智能设计的关键技术理论基础研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于剖面运动机器人的海洋温差能俘获利用的基础理论与技术研究
  • 批准号:
    Z25E090007
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于“肝病宜疏通大肠”理论探讨不同寄主桦褐孔菌改善非酒精性脂肪肝炎的物质基础差异性及药效作用机制
  • 批准号:
    JCZRLH202500291
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于“治未病”思想探讨黄芪建中汤治疗慢性疲劳综合征的理论基础与机制研究
  • 批准号:
    JCZRLH202500115
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
枯竭油气藏储氢关键基础理论研究
  • 批准号:
    JCZRJQ202500118
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
大统一理论的唯象学检验
  • 批准号:
    DQ24A050002
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
面向关键任务通信的协作通感基础理论与算法研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
高性能高熵碳化物成分设计与高质量制备理论基础研究
  • 批准号:
    2024JJ3011
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
用于航空发动机高温转子叶片的光纤超材料高精度应变传感器基 础理论研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于双机器人协作的高效精密装配基础理论与智能控制方法研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    30.0 万元
  • 项目类别:
    省市级项目

相似海外基金

CAREER: Theoretical foundations for deep learning and large-scale AI models
职业:深度学习和大规模人工智能模型的理论基础
  • 批准号:
    2339904
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Theoretical Foundations for Learning Network Dynamics
职业:学习网络动力学的理论基础
  • 批准号:
    2338855
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Strengthening the Theoretical Foundations of Federated Learning: Utilizing Underlying Data Statistics in Mitigating Heterogeneity and Client Faults
职业:加强联邦学习的理论基础:利用底层数据统计来减轻异构性和客户端故障
  • 批准号:
    2340482
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Computer-Intensive Statistical Inference on High-Dimensional and Massive Data: From Theoretical Foundations to Practical Computations
职业:高维海量数据的计算机密集统计推断:从理论基础到实际计算
  • 批准号:
    2347760
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Theoretical Foundations of Modern Machine Learning Paradigms: Generative and Out-of-Distribution
职业:现代机器学习范式的理论基础:生成式和非分布式
  • 批准号:
    2238523
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Towards theoretical foundations of neural network based representation learning
职业:迈向基于神经网络的表示学习的理论基础
  • 批准号:
    2145703
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Theoretical Foundations for Probabilistic Models with Dense Random Matrices
职业:密集随机矩阵概率模型的理论基础
  • 批准号:
    1750362
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Computer-Intensive Statistical Inference on High-Dimensional and Massive Data: From Theoretical Foundations to Practical Computations
职业:高维海量数据的计算机密集统计推断:从理论基础到实际计算
  • 批准号:
    1752614
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: The Theoretical Foundations of Symmetric Cryptography
职业:对称密码学的理论基础
  • 批准号:
    1930117
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Theoretical foundations of neural networks - representation, optimization, and generalization
职业:神经网络的理论基础——表示、优化和泛化
  • 批准号:
    1750051
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了