RI: Small: Reinforcement Learning with Predictive State Representations

RI:小:具有预测状态表示的强化学习

基本信息

项目摘要

Like animals and humans, artificial autonomous agents that are able to predict short-term and long-term consequences of their actions can then plan their behavior, act more intelligently, and achieve greater reward. Agents that can learn such predictive models from experience can be more robust in their intelligence than agents that rely on pre-built models. The PI and graduate students are focused on the particularly challenging but natural case where observations from the agent's sensors far in the past can continue to influence the predictions of consequences of actions long into the future. (For example, the observation of where you park the car in the morning will help predict where you will see the car later in the day.) There are two broad classes of approaches to learning predictive models in such 'partially observable' settings. Finite-history models use short-term history of observations to predict future observations conditioned on actions; these are fast to learn but are limited because they cannot capture the effects of long-term history. Latent-variable models can capture the effects of long-term history by positing hidden or latent variables that capture the true state of the environment (e.g., the location of the car), but such models are difficult to learn because the latent variables have to be inferred from data. This project builds on previous work by the PI and others on a third approach, called Predictive State Representations (or PSRs), in which the agent maintains predictions of future observations conditioned on future actions as a summary-representation of history; these models can both be fast to learn and capture the effect of long-term history. This project develops new PSR-based methods and algorithms for hierarchical models, rich-feature-based models, and local and modular models. The project applies the new methods to challenging applications from active perception and robotics. In addition, theoretical understanding of these richer and newer methods will be developed. Altogether the project significantly expands the applicability of PSR-methods as well as their theoretical foundations and algorithms. Broader Impacts: New methods that allow artificial agents to robustly build predictive models would advance the state of knowledge across the fields of artificial intelligence, reinforcement learning, control, operations research, psychology, and neuroscience. The PI is co-leading an effort to create a new undergraduate degree in Data Sciences at the University of Michigan to be jointly managed by Computer Science & Engineering and Statistics. This future degree as well as other current undergraduate research programs will be targeted to recruit, mentor, and train students for this project.
像动物和人类一样,能够预测其行为的短期和长期后果的人工自主代理可以计划他们的行为,更聪明地行动,并获得更大的回报。能够从经验中学习这种预测模型的代理可以比依赖于预先构建的模型的代理在智能上更强大。PI和研究生们专注于特别具有挑战性但很自然的情况,即来自智能体传感器的观察结果在过去很长一段时间内可以继续影响对未来行动后果的预测。(For例如,观察你早上把车停在哪里,将有助于预测你当天晚些时候会在哪里看到车。有两大类方法来学习预测模型在这种“部分可观察”的设置。历史模型使用短期的观察历史来预测以行动为条件的未来观察;这些模型学习速度很快,但由于无法捕捉长期历史的影响而受到限制。潜变量模型可以通过设定捕捉环境真实状态的隐藏或潜变量来捕捉长期历史的影响(例如,汽车的位置),但是这样的模型很难学习,因为必须从数据中推断出潜在变量。该项目建立在PI和其他人之前关于第三种方法的工作基础上,称为预测状态表示(或PSR),其中代理维护对未来观察的预测,以未来行动为条件,作为历史的摘要表示;这些模型可以快速学习并捕获长期历史的影响。该项目为分层模型、基于丰富特征的模型以及局部和模块化模型开发了新的基于PSR的方法和算法。 该项目将新方法应用于主动感知和机器人技术等具有挑战性的应用。此外,这些更丰富和更新的方法的理论理解将得到发展。总之,该项目显着扩展了PSR方法的适用性以及它们的理论基础和算法。更广泛的影响:允许人工智能强大地构建预测模型的新方法将推动人工智能、强化学习、控制、运筹学、心理学和神经科学领域的知识发展。PI正在共同领导一项努力,在密歇根大学创建一个新的数据科学本科学位,由计算机科学工程和统计学联合管理。这个未来的学位以及其他目前的本科研究项目将有针对性地招募,指导和培训学生这个项目。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Satinder Baveja其他文献

Satinder Baveja的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Satinder Baveja', 18)}}的其他基金

RI: Small: Combining Reinforcement Learning and Deep Learning Methods to Address High-Dimensional Perception, Partial Observability and Delayed Reward
RI:小:结合强化学习和深度学习方法来解决高维感知、部分可观察性和延迟奖励问题
  • 批准号:
    1526059
  • 财政年份:
    2015
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
EAGER: On the Optimal Rewards Problem
EAGER:关于最优奖励问题
  • 批准号:
    1148668
  • 财政年份:
    2011
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
SHB: Medium: Collaborative Research: Novel Computational Techniques for Cardiovascular Risk Stratification
SHB:媒介:协作研究:心血管风险分层的新颖计算技术
  • 批准号:
    1064948
  • 财政年份:
    2011
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Medium: Building Flexible, Robust, and Autonomous Agents
RI:中:构建灵活、稳健和自治的代理
  • 批准号:
    0905146
  • 财政年份:
    2009
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Flexible State Representations in Reinforcement Learning
强化学习中灵活的状态表示
  • 批准号:
    0413004
  • 财政年份:
    2005
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
Collaborative Research: Intrinsically Motivated Learning in Artificial Agents
协作研究:人工智能体的内在动机学习
  • 批准号:
    0432027
  • 财政年份:
    2004
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
Exploiting Structure in Reinforcement Learning Problems
利用强化学习问题中的结构
  • 批准号:
    9711753
  • 财政年份:
    1997
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CISE-ANR: RI: Small: Numerically efficient reinforcement learning for constrained systems with super-linear convergence (NERL)
CISE-ANR:RI:小:具有超线性收敛 (NERL) 的约束系统的数值高效强化学习
  • 批准号:
    2315396
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Approximate Inference for Planning and Reinforcement Learning
RI:小:规划和强化学习的近似推理
  • 批准号:
    2246261
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Towards Provably Efficient Representation Learning in Reinforcement Learning via Rich Function Approximation
RI:小:通过丰富函数逼近实现强化学习中可证明有效的表示学习
  • 批准号:
    2154711
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Using and Gathering Data for Efficient Batch Reinforcement Learning
RI:小型:使用和收集数据以实现高效的批量强化学习
  • 批准号:
    2112926
  • 财政年份:
    2021
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
NSF-AoF: RI: Small: Safe Reinforcement Learning in Non-Stationary Environments With Fast Adaptation and Disturbance Prediction
NSF-AoF:RI:小型:具有快速适应和干扰预测功能的非平稳环境中的安全强化学习
  • 批准号:
    2133656
  • 财政年份:
    2021
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Towards Optimal and Adaptive Reinforcement Learning with Offline Data and Limited Adaptivity
RI:小型:利用离线数据和有限的适应性实现最优和自适应强化学习
  • 批准号:
    2007117
  • 财政年份:
    2020
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Human Validation in Batch Reinforcement Learning
RI:小:批量强化学习中的人工验证
  • 批准号:
    2007076
  • 财政年份:
    2020
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
RI: Small: Dynamics of repulsion and reinforcement in point process, latent variable, and trajectory models
RI:小:点过程、潜变量和轨迹模型中排斥和强化的动力学
  • 批准号:
    1816499
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: SMALL: Robust Reinforcement Learning Using Bayesian Models
RI:小:使用贝叶斯模型的鲁棒强化学习
  • 批准号:
    1815275
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Feature Encoding for Reinforcement Learning
RI:小型:强化学习的特征编码
  • 批准号:
    1815300
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了