RI: Small: Reinforcement Learning by Mirror Descent

RI:小:通过镜像下降的强化学习

基本信息

  • 批准号:
    1216467
  • 负责人:
  • 金额:
    $ 45万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2012
  • 资助国家:
    美国
  • 起止时间:
    2012-08-01 至 2016-07-31
  • 项目状态:
    已结题

项目摘要

A fundamental challenge in machine learning is the design of computational agents that, rather than being explicitly programmed, autonomously learn complex tasks in stochastic real-world environments. Past approaches, such as reinforcement learning algorithms for solving Markov decision processes, scale poorly to large state spaces. The proposed research addresses this curse of dimensionality by investigating a novel framework combining reinforcement learning and online convex optimization, in particular mirror descent and related algorithms. Mirror descent scales significantly better than classical first-order gradient descent in high-dimensional state spaces, by using a distance-generating function specific to a particular state space geometry.The proposed framework enables several significant algorithmic advances in the design of autonomous machine learning agents: a new class of first-order mirror-descent based methods for learning sparse solutions to Markov decision processes will be developed that scale significantly significantly better than previous second-order methods; novel hierarchical methods for solving semi-Markov decision processes will be investigated; and finally, applications to a variety of high-dimensional Markov decision processes will be explored.The anticipated outcomes of the proposed work include foundational advances in designing autonomous agents that learn to solve sequential decision-making problems, which will impact a large number of target applications from manufacturing to robotics and scheduling. The educational goal includes the development of a graduate-level course in online convex optimization for sequential decision-making, as well as interdisciplinary tutorials to enhance the cross-fertilization of ideas from applied mathematics and optimization to machine learning and artificial intelligence.
机器学习的一个基本挑战是设计计算代理,而不是显式编程,在随机的现实世界环境中自主学习复杂的任务。 过去的方法,如用于解决马尔可夫决策过程的强化学习算法,在大状态空间中的扩展性很差。该研究通过研究一种结合强化学习和在线凸优化的新框架,特别是镜像下降和相关算法来解决这种维数灾难。 通过使用特定于特定状态空间几何结构的距离生成函数,镜像下降在高维状态空间中的扩展性明显优于经典的一阶梯度下降。所提出的框架在自主机器学习代理的设计中实现了几个重要的算法进步:一种新的一阶镜将开发用于学习马尔可夫决策过程的稀疏解的基于下降的方法,该方法的规模明显优于以前的二阶方法;新的层次方法解决半马尔可夫决策过程将进行调查,最后,应用到各种高维马尔可夫决策过程将explored.The预期的成果,拟议的工作包括设计自主代理,学习解决顺序决策问题的基础性进展,这将影响大量的目标应用从制造到机器人和调度。教育目标包括开发用于顺序决策的在线凸优化研究生课程,以及跨学科教程,以加强从应用数学和优化到机器学习和人工智能的思想交叉。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Sridhar Mahadevan其他文献

Privacy Aware Experiments without Cookies
没有 Cookie 的隐私意识实验
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shiv Shankar;Ritwik Sinha;Saayan Mitra;Viswanathan Swaminathan;Sridhar Mahadevan;Moumita Sinha
  • 通讯作者:
    Moumita Sinha
C ATEGOROIDS : U NIVERSAL C ONDITIONAL I NDEPENDENCE
类别:普遍有条件独立
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Preprint;Sridhar Mahadevan
  • 通讯作者:
    Sridhar Mahadevan
Categoroids: Universal Conditional Independence
类别:普遍条件独立性
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sridhar Mahadevan
  • 通讯作者:
    Sridhar Mahadevan
Reconfigurable adaptable micro-robot
可重构的适应性微型机器人
Quantifying Prior Determination Knowledge Using the PAC Learning Model
  • DOI:
    10.1023/a:1022605018507
  • 发表时间:
    1994-10-01
  • 期刊:
  • 影响因子:
    2.900
  • 作者:
    Sridhar Mahadevan;Prasad Tadepalli
  • 通讯作者:
    Prasad Tadepalli

Sridhar Mahadevan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Sridhar Mahadevan', 18)}}的其他基金

Collaborative Research: Transfer Learning for Chemical Analyses from Laser-Induced Spectroscopy
合作研究:激光诱导光谱化学分析的迁移学习
  • 批准号:
    1307179
  • 财政年份:
    2013
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
NeTS Small: Analysis and Design of Best-Effort Content-Caching Networks
NeTS Small:尽力而为内容缓存网络的分析和设计
  • 批准号:
    1117764
  • 财政年份:
    2011
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Manifold Alignment of High-Dimensional Data Sets
高维数据集的流形对齐
  • 批准号:
    1025120
  • 财政年份:
    2010
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI-Medium: Collaborative Research: Learning Multiscale Representations using Harmonic Analysis on Graphs
RI-Medium:协作研究:使用图的调和分析学习多尺度表示
  • 批准号:
    0803288
  • 财政年份:
    2008
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Proto-Value Functions: A Unified Framework for Learning Task-Specific Behaviors and Task-Independent Representations
原始价值函数:学习任务特定行为和任务无关表示的统一框架
  • 批准号:
    0534999
  • 财政年份:
    2006
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
Scaling Reinforcement Learning by Adaptive Task Selection and Linear Solution Merging
通过自适应任务选择和线性解决方案合并扩展强化学习
  • 批准号:
    9896122
  • 财政年份:
    1997
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
Scaling Reinforcement Learning by Adaptive Task Selection and Linear Solution Merging
通过自适应任务选择和线性解决方案合并扩展强化学习
  • 批准号:
    9501852
  • 财政年份:
    1995
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
Support for a Workshop on Reinforcement Learning
支持强化学习研讨会
  • 批准号:
    9529108
  • 财政年份:
    1995
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CISE-ANR: RI: Small: Numerically efficient reinforcement learning for constrained systems with super-linear convergence (NERL)
CISE-ANR:RI:小:具有超线性收敛 (NERL) 的约束系统的数值高效强化学习
  • 批准号:
    2315396
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Approximate Inference for Planning and Reinforcement Learning
RI:小:规划和强化学习的近似推理
  • 批准号:
    2246261
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Towards Provably Efficient Representation Learning in Reinforcement Learning via Rich Function Approximation
RI:小:通过丰富函数逼近实现强化学习中可证明有效的表示学习
  • 批准号:
    2154711
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Using and Gathering Data for Efficient Batch Reinforcement Learning
RI:小型:使用和收集数据以实现高效的批量强化学习
  • 批准号:
    2112926
  • 财政年份:
    2021
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
NSF-AoF: RI: Small: Safe Reinforcement Learning in Non-Stationary Environments With Fast Adaptation and Disturbance Prediction
NSF-AoF:RI:小型:具有快速适应和干扰预测功能的非平稳环境中的安全强化学习
  • 批准号:
    2133656
  • 财政年份:
    2021
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Towards Optimal and Adaptive Reinforcement Learning with Offline Data and Limited Adaptivity
RI:小型:利用离线数据和有限的适应性实现最优和自适应强化学习
  • 批准号:
    2007117
  • 财政年份:
    2020
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Human Validation in Batch Reinforcement Learning
RI:小:批量强化学习中的人工验证
  • 批准号:
    2007076
  • 财政年份:
    2020
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
RI: Small: Dynamics of repulsion and reinforcement in point process, latent variable, and trajectory models
RI:小:点过程、潜变量和轨迹模型中排斥和强化的动力学
  • 批准号:
    1816499
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: SMALL: Robust Reinforcement Learning Using Bayesian Models
RI:小:使用贝叶斯模型的鲁棒强化学习
  • 批准号:
    1815275
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
RI: Small: Feature Encoding for Reinforcement Learning
RI:小型:强化学习的特征编码
  • 批准号:
    1815300
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了