CIF: Small: Compression Schemes for Communication Constrained Bandit and Reinforcement Learning

CIF:小:通信受限强盗和强化学习的压缩方案

基本信息

  • 批准号:
    2221871
  • 负责人:
  • 金额:
    $ 60万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-10-01 至 2025-09-30
  • 项目状态:
    未结题

项目摘要

Active learning and online learning are machine-learning paradigms in which computers learn to make complex decisions while receiving feedback from an environment. For instance, a drone may learn to fly by itself, or a car may learn to drive by trial and error. Recently, these learning paradigms have been widely applied and have achieved phenomenal successes with human-level performance in tasks like gameplay or robot control. As computing devices become smaller and less power-consuming, new distributed learning frameworks start to emerge. These frameworks contain low-capability learning agents (such as cell phones, unmanned vehicles, or drones) that are far apart but perform learning collectively by communicating with each other through (wireless) networks. However, existing communication approaches would become bottlenecks for learning since they were designed for high-power computers and consume too much power and network bandwidth. This project aims to address this issue by providing novel techniques that efficiently compress data to be communicated while preserving the learning ability. The techniques developed in this project will advance the state-of-the-art in distributed online/active learning by improving communication efficiencies. The overarching goal of this project is to establish efficient compression schemes that support effective active/online learning, such as bandit and reinforcement learning over communication-constrained networks. In these learning environments, a learner aims to make a good decision for the next steps based on experience; this project will explore fundamental bounds and efficient algorithms that support this goal while minimizing the number of bits communicated - by compressing in a way that only retains the necessary information for decision making. In other words, this project aims to explore the fundamental trade-off between compression and learnability in active/online environments. Building on promising preliminary work, the investigators will study problems ranging from the most basic multi-arm bandit setting to more complex reinforcement learning settings and consider both centralized and decentralized network topologies. More specifically, the investigators propose compression schemes and fundamental theoretical bounds for (1) rewards in multi-armed bandit problems, (2) context vectors for contextual bandit problems, and (3) state-action features and models for Markov decision problems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
主动学习和在线学习是机器学习的范例,其中计算机在接收来自环境的反馈的同时学习做出复杂的决策。例如,无人机可以自己学习飞行,或者汽车可以通过试验和错误来学习驾驶。最近,这些学习范式已被广泛应用,并在游戏或机器人控制等任务中取得了惊人的成功。随着计算设备变得越来越小,功耗越来越低,新的分布式学习框架开始出现。这些框架包含低能力的学习代理(如手机,无人驾驶汽车或无人机),这些代理相距甚远,但通过(无线)网络相互通信来共同执行学习。然而,现有的通信方法将成为学习的瓶颈,因为它们是为高功率计算机设计的,消耗太多的功率和网络带宽。该项目旨在通过提供新的技术来解决这个问题,这些技术可以有效地压缩要通信的数据,同时保留学习能力。在这个项目中开发的技术将通过提高通信效率来推进分布式在线/主动学习的最新技术。该项目的总体目标是建立有效的压缩方案,支持有效的主动/在线学习,如通信受限网络上的强盗和强化学习。在这些学习环境中,学习者的目标是根据经验为下一步做出好的决定;本项目将探索支持这一目标的基本界限和有效算法,同时最大限度地减少通信的比特数-通过压缩的方式,只保留决策所需的信息。换句话说,该项目旨在探索主动/在线环境中压缩和可学习性之间的基本权衡。在有希望的初步工作的基础上,研究人员将研究从最基本的多臂强盗设置到更复杂的强化学习设置的问题,并考虑集中式和分散式网络拓扑。更具体地说,研究人员提出的压缩方案和基本理论界限(1)奖励多臂强盗问题,(2)上下文的强盗问题的上下文向量,(3)状态-动作功能和马尔可夫决策问题的模型。该奖项反映了NSF的法定使命,并已被认为是值得通过使用基金会的智力价值和更广泛的影响审查标准进行评估的支持。

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Near-Optimal Sample Complexity Bounds for Constrained MDPs
受限 MDP 的近乎最优样本复杂度界限
Provably Feedback-Efficient Reinforcement Learning via Active Reward Learning
  • DOI:
    10.48550/arxiv.2304.08944
  • 发表时间:
    2023-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Dingwen Kong;Lin F. Yang
  • 通讯作者:
    Dingwen Kong;Lin F. Yang
PROVABLY EFFICIENT LIFELONG REINFORCEMENT LEARNING WITH LINEAR REPRESENTATION
具有线性表示的可证明有效的终身强化学习
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Amani, Sanae;Yang, Lin;Cheng, Ching-An
  • 通讯作者:
    Cheng, Ching-An
Low-Switching Policy Gradient with Exploration via Online Sensitivity Sampling
  • DOI:
    10.48550/arxiv.2306.09554
  • 发表时间:
    2023-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yunfan Li-;Yiran Wang-;Y. Cheng;Lin F. Yang
  • 通讯作者:
    Yunfan Li-;Yiran Wang-;Y. Cheng;Lin F. Yang
Horizon-Free Learning for Markov Decision Processes and Games: Stochastically Bounded Rewards and Improved Bounds
马尔可夫决策过程和博弈的无地平线学习:随机有界奖励和改进界限
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Lin Yang其他文献

Green and Efficient Processing of Wood with Supercritical CO2: A Review
超临界二氧化碳绿色高效木材加工:综述
  • DOI:
    10.3390/app11093929
  • 发表时间:
    2021-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jingwen Zhang;Lin Yang;Honghai Liu
  • 通讯作者:
    Honghai Liu
[Immunological features of fulminant type 1 diabetes].
暴发性1型糖尿病的免疫学特征[J].
  • DOI:
    10.3760/cma.j.issn.0376-2491.2009.36.009
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chao Zheng;Jian Lin;Gan Huang;Lin Yang;Yi;Wei;Hai;Ya;Zhi;Zhiguang Zhou
  • 通讯作者:
    Zhiguang Zhou
Performance analysis of a new hydropneumatic inerter-based suspension system with semi-active control effect
具有半主动控制作用的新型油气惯性悬架系统性能分析
Thirty-five-year trend in the prevalence of refractive error in Austrian conscripts based on 1.5 million participants
基于 150 万名参与者的奥地利新兵屈光不正患病率 35 年趋势
  • DOI:
    10.1136/bjophthalmol-2019-315024
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    4.1
  • 作者:
    Lin Yang;C. Vass;Lee Smith;A. Juan;T. Waldhör
  • 通讯作者:
    T. Waldhör
Template-free synthesis of hierarchical yolk-shell Co and N codoped porous carbon microspheres with enhanced performance for oxygen reduction reaction
无模板合成具有增强氧还原反应性能的分级蛋黄壳Co和N共掺杂多孔碳微球
  • DOI:
    10.1016/j.jpowsour.2015.04.049
  • 发表时间:
    2015-08
  • 期刊:
  • 影响因子:
    9.2
  • 作者:
    Kui Wang;Zhengyu Bai;Lin Yang;Jinli Qiao
  • 通讯作者:
    Jinli Qiao

Lin Yang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CIF: Small: Compression for Learning over networks
CIF:小型:网络学习压缩
  • 批准号:
    2007714
  • 财政年份:
    2020
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Reconstructing Multiple Sources by Spatial Sampling and Compression
CIF:小:通过空间采样和压缩重建多个源
  • 批准号:
    1910497
  • 财政年份:
    2019
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Harnessing Network Compression Gains: Fundamental Limits and Practical Implementations
CIF:小型:利用网络压缩增益:基本限制和实际实施
  • 批准号:
    1617673
  • 财政年份:
    2016
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Collaborative Research: Ordinal Data Compression
CIF:小型:协作研究:有序数据压缩
  • 批准号:
    1642550
  • 财政年份:
    2016
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Collaborative Research: Ordinal Data Compression
CIF:小型:协作研究:有序数据压缩
  • 批准号:
    1526763
  • 财政年份:
    2015
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Collaborative Research: Ordinal Data Compression
CIF:小型:协作研究:有序数据压缩
  • 批准号:
    1527636
  • 财政年份:
    2015
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: A Framework for Low Latency Universal Compression with Privacy Guarantees
CIF:小型:具有隐私保证的低延迟通用压缩框架
  • 批准号:
    1422358
  • 财政年份:
    2014
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Fast Rate-Efficient Codes for Data Compression and Transmission via Sparse Regression
CIF:小型:通过稀疏回归进行数据压缩和传输的快速高效代码
  • 批准号:
    1217023
  • 财政年份:
    2012
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Distributed Function Computation and Multiterminal Data Compression
CIF:小型:分布式函数计算和多端数据压缩
  • 批准号:
    1117546
  • 财政年份:
    2011
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Channels with Memory -- Universal-Compression-Based Modeling Principles for Computing and Optimizing Information Rates
CIF:小:带内存的通道——用于计算和优化信息速率的基于通用压缩的建模原理
  • 批准号:
    1018984
  • 财政年份:
    2010
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了