Collaborative Research: AF: Small: Parallel Reinforcement Learning with Communication and Adaptivity Constraints

协作研究:AF:小型:具有通信和适应性约束的并行强化学习

基本信息

  • 批准号:
    2006526
  • 负责人:
  • 金额:
    $ 25.77万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

Reinforcement learning has witnessed great research advancement in recent years and achieved successes in many practical applications. However, reinforcement-learning algorithms also have the reputation for being data- and computation-hungry for large-scale applications. This project will address this issue by studying the important question of how to make reinforcement-learning algorithms scalable via introducing multiple learning agents and allowing them to collect data and learn optimal strategies collaboratively. The outcomes of this project will have impacts on numerous areas where reinforcement learning is used at a scale, e.g., multi-phase clinical trials, training autonomous-driving algorithms, crowdsourcing tasks, pricing, and assortment optimization for stores at different locations. The research products will be disseminated via talks at academic conferences and workshops, universities, industrial labs, and online media, and will also be integrated in two courses on the forefront of reinforcement learning and big-data algorithms.More technically, this project will study how to address the fundamental constraints on communication and adaptivity for the learning agents. In particular, this project will investigate a handful of collaborative learning models, including full communication, synchronized communication, synchronized communication with limited adaptivity, and asynchronized communication, and study the following general questions: (1) what is the fundamental advantage of allowing adaptivity in the parallel learning model; (2) are there inherent differences on the degree of parallelism between model-based and model-free reinforcement learning; (3) what is the impact of asynchronized communication; and (4) is it possible to communication-efficiently parallelize general algorithmic techniques in reinforcement learning? The team of researchers will address these questions by studying a set of core problems, including best arm(s) identification and regret minimization in multi-armed bandits, contextual bandits, finite-state Markov decision process (MDP) learning, reinforcement learning with function approximates, and coordinated exploration in MDPs. Through studying these questions, this project will bring new techniques, perspectives, and insight to communication-efficient parallel reinforcement learning. This project will also have a significant impact on a number of related research areas such as control theory, operations research, information theory and communication complexity, and multi-agent systems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
近年来,强化学习的研究取得了很大的进展,并在许多实际应用中取得了成功。 然而,强化学习算法对于大规模应用程序来说也因需要数据和计算而闻名。 该项目将通过研究如何通过引入多个学习代理并允许它们协作收集数据和学习最佳策略来使重复学习算法可扩展的重要问题来解决这个问题。 该项目的成果将对强化学习大规模使用的许多领域产生影响,例如,多阶段临床试验、训练快速驾驶算法、众包任务、定价和不同地点商店的分类优化。 该研究成果将通过学术会议和研讨会、大学、工业实验室和在线媒体的讲座进行传播,并将整合到强化学习和大数据算法的两门前沿课程中。从技术上讲,该项目将研究如何解决学习代理在通信和自适应方面的基本限制。 特别是,本项目将研究几种协作学习模式,包括完全通信、同步通信、具有有限适应性的同步通信和并行通信,并研究以下一般性问题:(1)在并行学习模式中允许适应性的根本优势是什么;(2)基于模型和无模型的强化学习之间的并行度是否存在固有差异;(3)简化通信的影响是什么;以及(4)在强化学习中,是否可以通信有效地并行化一般算法技术? 研究团队将通过研究一系列核心问题来解决这些问题,包括多臂土匪中的最佳手臂识别和遗憾最小化,上下文土匪,有限状态马尔可夫决策过程(MDP)学习,函数近似的强化学习以及MDP中的协调探索。 通过研究这些问题,该项目将为通信高效的并行强化学习带来新的技术,观点和见解。 该项目还将对控制理论、运筹学、信息论和通信复杂性以及多智能体系统等相关研究领域产生重大影响。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Dynamic Assortment Optimization with Changing Contextual Information
  • DOI:
  • 发表时间:
    2018-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xi Chen;Yining Wang;Yuanshuo Zhou
  • 通讯作者:
    Xi Chen;Yining Wang;Yuanshuo Zhou
Linear bandits with limited adaptivity and learning distributional optimal design
具有有限适应性和学习分布优化设计的线性老虎机
Dynamic Assortment Planning Under Nested Logit Models
嵌套 Logit 模型下的动态分类规划
  • DOI:
    10.1111/poms.13258
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    5
  • 作者:
    Chen, Xi;Shi, Chao;Wang, Yining;Zhou, Yuan
  • 通讯作者:
    Zhou, Yuan
Collaborative Top Distribution Identifications with Limited Interaction (Extended Abstract)
有限交互的协作顶级分布识别(扩展摘要)
Dynamic Pricing and Inventory Control with Fixed Ordering Cost and Incomplete Demand Information
固定订购成本和不完整需求信息的动态定价和库存控制
  • DOI:
    10.1287/mnsc.2021.4171
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    5.4
  • 作者:
    Chen, Boxiao;Simchi-Levi, David;Wang, Yining;Zhou, Yuan
  • 通讯作者:
    Zhou, Yuan
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Yuan Zhou其他文献

Cryptanalysis and Improvement of a Block cipher Based on Multiple Chaotic system
基于多重混沌系统的分组密码的密码分析与改进
Polychromatic Kerr nonlinearity within electromagnetically induced transparency window
电磁感应透明窗口内的多色克尔非线性
  • DOI:
    10.1016/j.rinp.2021.104858
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    5.3
  • 作者:
    Guang;C. Shan;De;Qingping Hu;Dong;Yuan Zhou
  • 通讯作者:
    Yuan Zhou
Entrepreneurial innovation problems associated with the dynamic growth of university spin-outs in China: a capabilities perspective
与中国大学衍生企业动态增长相关的创业创新问题:能力视角
Interfacing a Topological Qubit with a Spin Qubit in a Hybrid Quantum System
在混合量子系统中连接拓扑量子位与自旋量子位
  • DOI:
    10.1103/physrevapplied.11.044026
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    4.6
  • 作者:
    Bo Li;Peng-Bo Li;Yuan Zhou;Jie Liu;Hong-Rong Li;Fu-Li Li
  • 通讯作者:
    Fu-Li Li
Exploring the Development of Research, Technology and Business of Machine Tool Domain in New-Generation Information Technology Environment Based on Machine Learning
基于机器学习的新一代信息技术环境下机床领域研究、技术和业务的发展探索
  • DOI:
    10.3390/su11123316
  • 发表时间:
    2019-05
  • 期刊:
  • 影响因子:
    3.9
  • 作者:
    Jihong Chen;Kai Zhang;Yuan Zhou;Yufei Liu;Lingfeng Li;Zheng Chen;Li Yin
  • 通讯作者:
    Li Yin

Yuan Zhou的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Yuan Zhou', 18)}}的其他基金

Collaborative Research: Next-Generation Cutting Planes: Compression, Automation, Diversity, and Computer-Assisted Mathematics
合作研究:下一代切割面:压缩、自动化、多样性和计算机辅助数学
  • 批准号:
    2012429
  • 财政年份:
    2020
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Standard Grant

相似国自然基金

Research on Quantum Field Theory without a Lagrangian Description
  • 批准号:
    24ZR1403900
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
Cell Research
  • 批准号:
    31224802
  • 批准年份:
    2012
  • 资助金额:
    24.0 万元
  • 项目类别:
    专项基金项目
Cell Research
  • 批准号:
    31024804
  • 批准年份:
    2010
  • 资助金额:
    24.0 万元
  • 项目类别:
    专项基金项目
Cell Research (细胞研究)
  • 批准号:
    30824808
  • 批准年份:
    2008
  • 资助金额:
    24.0 万元
  • 项目类别:
    专项基金项目
Research on the Rapid Growth Mechanism of KDP Crystal
  • 批准号:
    10774081
  • 批准年份:
    2007
  • 资助金额:
    45.0 万元
  • 项目类别:
    面上项目

相似海外基金

Collaborative Research: AF: Medium: The Communication Cost of Distributed Computation
合作研究:AF:媒介:分布式计算的通信成本
  • 批准号:
    2402836
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Medium: Foundations of Oblivious Reconfigurable Networks
合作研究:AF:媒介:遗忘可重构网络的基础
  • 批准号:
    2402851
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Small: New Directions in Algorithmic Replicability
合作研究:AF:小:算法可复制性的新方向
  • 批准号:
    2342244
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Standard Grant
Collaborative Research: AF: Small: Exploring the Frontiers of Adversarial Robustness
合作研究:AF:小型:探索对抗鲁棒性的前沿
  • 批准号:
    2335411
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Standard Grant
NSF-BSF: Collaborative Research: AF: Small: Algorithmic Performance through History Independence
NSF-BSF:协作研究:AF:小型:通过历史独立性实现算法性能
  • 批准号:
    2420942
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Standard Grant
Collaborative Research: AF: Medium: Algorithms Meet Machine Learning: Mitigating Uncertainty in Optimization
协作研究:AF:媒介:算法遇见机器学习:减轻优化中的不确定性
  • 批准号:
    2422926
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Continuing Grant
Collaborative Research: AF: Small: Structural Graph Algorithms via General Frameworks
合作研究:AF:小型:通过通用框架的结构图算法
  • 批准号:
    2347322
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Standard Grant
Collaborative Research: AF: Small: Real Solutions of Polynomial Systems
合作研究:AF:小:多项式系统的实数解
  • 批准号:
    2331401
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Standard Grant
Collaborative Research: AF: Small: Real Solutions of Polynomial Systems
合作研究:AF:小:多项式系统的实数解
  • 批准号:
    2331400
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Standard Grant
Collaborative Research: AF: Medium: Fast Combinatorial Algorithms for (Dynamic) Matchings and Shortest Paths
合作研究:AF:中:(动态)匹配和最短路径的快速组合算法
  • 批准号:
    2402283
  • 财政年份:
    2024
  • 资助金额:
    $ 25.77万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了