RI: SMALL: Robust Reinforcement Learning Using Bayesian Models

RI:小:使用贝叶斯模型的鲁棒强化学习

基本信息

  • 批准号:
    1815275
  • 负责人:
  • 金额:
    $ 43.78万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-08-15 至 2023-07-31
  • 项目状态:
    已结题

项目摘要

Basing decisions on data is preferable to relying on heuristics or rules of thumb. Using data effectively, however, can be challenging. In domains like agriculture or medicine, datasets are usually small, biased, and noisy. For instance, the full effects of reduced pesticide applications depend on the weather and the impacts on yield may not be known until the harvest. Reducing pesticide applications reduces costs and provides ecological and consumer benefits, but using too little of it can easily cause a crop failure and significant financial losses. These dual problems of limited data availability and a high cost of failure are also common in manufacturing, maintenance, and even robotics. Because most existing reinforcement learning methods assume large datasets, stakeholders often dismiss data-driven methods and rely on heuristics to make decisions that are apparently safe but quite sub-optimal. This research develops new robust methods for data-driven decision making that can recommend good actions that are also safe even when data is limited. The new reinforcement learning methods use prior domain knowledge to estimate the confidence in possible outcomes to prevent catastrophic failure when predictions are incorrect. The practical viability of these methods is tested on the problem of using historical data to recommending improved pesticide schedules for fruit orchards and is disseminated to practitioners.This research targets reinforcement learning problems with 1) limited or expensive data and 2) a high cost of failure. When bad decisions cause large losses, injury, or death, then having confidence in a policy's quality is more important than its optimality gap. Computing high-confidence policies in reinforcement learning is difficult. Even small errors can quickly accumulate through positive feedback loops and covariate shift. Therefore, more robust methods are needed to convince practitioners to benefit from data instead of relying on heuristics. The project combines robust optimization with model-based reinforcement learning to compute good policies that are resistant to data errors. Robust optimization has achieved successes in many areas but can be difficult to use with reinforcement learning. It requires a model of plausible uncertainty levels, so-called ambiguity sets, to properly balance solution?s quality and confidence. Constructing good ambiguity sets manually in sequential decision problems is very difficult even for robust optimization experts. This research investigates a new data-driven Bayesian approach to robust reinforcement learning. It combines hierarchical Bayesian models with robust optimization to leverage powerful hierarchical modeling techniques while avoiding the computational complexity often associated with Bayesian reinforcement learning.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
基于数据的决策比依靠经验或经验法则更可取。然而,有效地使用数据可能具有挑战性。在农业或医学等领域,数据集通常很小,有偏见,而且有噪音。例如,减少农药使用的全部效果取决于天气,对产量的影响可能要到收获时才能知道。减少农药的使用可以降低成本,并提供生态和消费者利益,但使用太少的农药很容易导致作物歉收和重大的经济损失。有限的数据可用性和高故障成本的双重问题在制造、维护甚至机器人技术中也很常见。由于大多数现有的强化学习方法都假设大型数据集,因此利益相关者通常会放弃数据驱动的方法,并依赖于算法来做出看似安全但相当次优的决策。这项研究为数据驱动的决策开发了新的强大方法,即使在数据有限的情况下,也可以推荐安全的良好行动。新的强化学习方法使用先验领域知识来估计可能结果的置信度,以防止预测不正确时发生灾难性故障。这些方法的实际可行性进行了测试的问题,使用历史数据,以建议改进的农药时间表果园,并传播给practitioners.This研究目标强化学习问题1)有限或昂贵的数据和2)失败的成本高。当错误的决策导致巨大的损失、伤害或死亡时,对政策质量的信心比其最优差距更重要。在强化学习中计算高置信度策略是困难的。即使是很小的误差也可以通过正反馈循环和协变量偏移迅速积累。因此,需要更强大的方法来说服从业者从数据中受益,而不是依赖于统计学。该项目将鲁棒优化与基于模型的强化学习相结合,以计算出能够抵抗数据错误的良好策略。鲁棒优化在许多领域都取得了成功,但很难与强化学习一起使用。它需要一个模型的合理的不确定性水平,所谓的模糊集,以适当平衡的解决方案?的质量和信心。在序贯决策问题中,人工构造良好的模糊集是非常困难的,即使是健壮的优化专家。本研究探讨了一种新的数据驱动贝叶斯方法,以强大的强化学习。它将分层贝叶斯模型与鲁棒优化相结合,以利用强大的分层建模技术,同时避免通常与贝叶斯强化学习相关的计算复杂性。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(15)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Beyond Confidence Regions: Tight Bayesian Ambiguity Sets for Robust MDPs
  • DOI:
  • 发表时间:
    2019-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Marek Petrik;R. Russel
  • 通讯作者:
    Marek Petrik;R. Russel
Optimizing Percentile Criterion Using Robust MDPs
使用稳健的 MDP 优化百分位数标准
Fast Algorithms for L-infinity constrained S-rectangular Robust MDPs
L-无穷大约束 S-矩形鲁棒 MDP 的快速算法
Bayesian Robust Optimization for Imitation Learning
  • DOI:
  • 发表时间:
    2020-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Daniel S. Brown;S. Niekum;Marek Petrik
  • 通讯作者:
    Daniel S. Brown;S. Niekum;Marek Petrik
Inverse Reinforcement Learning of Interaction Dynamics from Demonstrations
从演示中进行交互动力学的逆强化学习
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Marek Petrik其他文献

Learning Heuristic Functions through Approximate Linear Programming
通过近似线性规划学习启发式函数
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Marek Petrik;S. Zilberstein
  • 通讯作者:
    S. Zilberstein
Agile logistics simulation and optimization for managing disaster responses
用于管理灾难响应的敏捷物流模拟和优化
  • DOI:
    10.1109/wsc.2013.6721698
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    F. Barahona;M. Ettl;Marek Petrik;Peter M. Rimshnick
  • 通讯作者:
    Peter M. Rimshnick
Interaction Structure and Dimensionality Reduction in Decentralized MDPs
去中心化 MDP 中的交互结构和降维
Learning parallel portfolios of algorithms
学习并行算法组合
Beliefs We Can Believe in: Replacing Assumptions with Data in Real-Time Search
我们可以相信的信念:在实时搜索中用数据代替假设

Marek Petrik的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Marek Petrik', 18)}}的其他基金

CAREER: Soft-robust Methods for Offline Reinforcement Learning
职业:离线强化学习的软鲁棒方法
  • 批准号:
    2144601
  • 财政年份:
    2022
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Continuing Grant
III: Small: Robust Reinforcement Learning for Invasive Species Management
III:小型:用于入侵物种管理的强大强化学习
  • 批准号:
    1717368
  • 财政年份:
    2017
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

RI: Small: Toward Efficient and Robust Dynamic Scene Understanding Based on Visual Correspondences
RI:小:基于视觉对应的高效、鲁棒的动态场景理解
  • 批准号:
    2310254
  • 财政年份:
    2023
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
  • 批准号:
    2246756
  • 财政年份:
    2022
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
  • 批准号:
    2110546
  • 财政年份:
    2021
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
  • 批准号:
    2110545
  • 财政年份:
    2021
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Continuing Grant
RI: Small: Speech-Centered Robust and Generalizable Measurements of "In the Wild" Behavior for Mental Health Symptom Severity Tracking
RI:小:以语音为中心的稳健且可概括的“野外”行为测量,用于心理健康症状严重程度跟踪
  • 批准号:
    2006618
  • 财政年份:
    2020
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Standard Grant
RI: Small: Robust Autonomy for Uncertain Systems using Randomized Trees
RI:小型:使用随机树实现不确定系统的鲁棒自治
  • 批准号:
    2008686
  • 财政年份:
    2020
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Continuing Grant
RI: Small: Neural Sequences as a Robust Dynamic Regime for Spatiotemporal Time Invariant Computations.
RI:小:神经序列作为时空时不变计算的鲁棒动态机制。
  • 批准号:
    2008741
  • 财政年份:
    2020
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Standard Grant
RI: Small: Domain-robust object detection through shape and context
RI:小:通过形状和上下文进行领域稳健的对象检测
  • 批准号:
    2006885
  • 财政年份:
    2020
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Standard Grant
RI: SMALL: Robust Inference and Influence in Dynamic Environments
RI:小:动态环境中的鲁棒推理和影响
  • 批准号:
    1907907
  • 财政年份:
    2019
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Standard Grant
AF: RI: Small: Barriers in Adversarially Robust Learning
AF:RI:小:对抗性鲁棒学习的障碍
  • 批准号:
    1910681
  • 财政年份:
    2019
  • 资助金额:
    $ 43.78万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了