RI: Small: Coordination in tightly coupled domains: Stepping stone rewards to induce the correct joint actions

RI:小:紧密耦合领域中的协调:垫脚石奖励以诱导正确的联合行动

基本信息

  • 批准号:
    1815886
  • 负责人:
  • 金额:
    $ 40万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-09-01 至 2023-08-31
  • 项目状态:
    已结题

项目摘要

This project introduces a new multiagent learning approach that leads to coordinated behavior in tightly coupled domains, that is, in domains where all agents must do the right thing at the right time for the team to achieve its goals. For example, getting a team of agents to lift and move an object heavier than the payload capacity of any single agent requires a sufficient number of agents to perform the correct action at the correct time. Unfortunately, most current learning methods fail in such situations because they rely on reinforcing the correct agent behavior only after the agents stumble upon the right actions. But what if the agents never jointly find the right actions? This project addresses this issue by introducing "stepping-stone rewards" that incentivize agents to perform the right actions even if their teammates have not yet found the correct complementary actions. The impact of this project will be to create larger and more capable multiagent teams that can be deployed in industry (such as factory robots that are not limited to a single task), in the field (such as autonomous search and rescue systems), in education (such as interactive learning via online gameplay) and in the home (such as networks of smart appliances).The main technical contribution of this project is to shift the learning problem faced by an agent from "did I take the correct action?" to "would my action have been correct had other agents taken the complementary action?" In tightly coupled multiagent domains, the first question results in very little positive feedback, creating a difficult to impossible learning problem. The new stepping stone rewards leverage hypothetical partners (partners that are surmised by an agent to explore the joint-action space) to overcome this difficulty by assessing the potential benefits of a particular action. Intuitively, stepping-stone rewards create a gradient for the agents to follow to enable fast and efficient learning in tightly coupled domains.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
这个项目引入了一种新的多代理学习方法,它可以在紧密耦合的域中导致协调行为,也就是在所有代理必须在正确的时间做正确的事情才能实现其目标的域中。例如,要让一组代理举起和移动比任何单个代理的有效载荷能力更重的对象,需要足够数量的代理才能在正确的时间执行正确的操作。不幸的是,大多数当前的学习方法在这种情况下都失败了,因为它们依赖于只有在代理偶然发现正确的操作之后才加强正确的代理行为。但如果代理人从未共同找到正确的行动怎么办?这个项目通过引入“踏脚石奖励”来解决这个问题,该奖励激励代理执行正确的操作,即使他们的队友还没有找到正确的补充操作。该项目的影响将是创建更大、更有能力的多智能体团队,这些团队可以部署在工业(如不限于单一任务的工厂机器人)、现场(如自主搜救系统)、教育(如通过在线游戏进行的互动学习)和家庭(如智能家电网络)。该项目的主要技术贡献是将智能体面临的学习问题从“我采取了正确的行动吗?”“如果其他特工采取补充行动,我的行动会正确吗?”在紧密耦合的多智能体领域中,第一个问题产生的正反馈非常少,从而产生了一个很难甚至不可能的学习问题。新的垫脚石奖励利用假设的合作伙伴(代理人猜测的探索联合行动空间的合作伙伴)通过评估特定行动的潜在好处来克服这一困难。直观地说,踏脚石奖励为代理创造了一个梯度,使他们能够在紧密耦合的领域中进行快速有效的学习。该奖项反映了NSF的法定使命,并通过使用基金会的智力优势和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(16)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Bootstrapped fitness critics with bidirectional temporal difference
具有双向时间差异的自举健身批评家
Entropy-based local fitnesses for evolutionary multiagent systems
进化多智能体系统的基于熵的局部适应度
Dynamic Skill Selection for Learning Joint Actions (extended abstract)
用于学习联合动作的动态技能选择(扩展摘要)
Diversifying behaviors for learning in asymmetric multiagent systems
非对称多智能体系统中学习行为的多样化
Dirichlet-Multinomial Counterfactual Rewards for Heterogeneous Multiagent Systems
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Kagan Tumer其他文献

A mutual information based ensemble method to estimate Bayes error
一种基于互信息的贝叶斯误差估计集成方法
  • DOI:
  • 发表时间:
    1998
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kagan Tumer;K. Bollacker;Joydeep Ghosh
  • 通讯作者:
    Joydeep Ghosh
Coevolution of heterogeneous multi-robot teams
异构多机器人团队的协同进化
Behavior Exploration and Team Balancing for Heterogeneous Multiagent Coordination
异构多智能体协调的行为探索和团队平衡
Collective Intelligence and Braess' Paradox
集体智慧与布雷斯悖论
  • DOI:
  • 发表时间:
    2000
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kagan Tumer;D. Wolpert
  • 通讯作者:
    D. Wolpert
Complete Multi-Objective Coverage with PaCcET
使用 PaCcET 完成多目标覆盖

Kagan Tumer的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Kagan Tumer', 18)}}的其他基金

Doctoral Mentoring Consortium at the Thirteenth International Conference on Autonomous Agents and Multi-Agent Systems
博士生导师联盟出席第十三届自主代理和多代理系统国际会议
  • 批准号:
    1414600
  • 财政年份:
    2014
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
CPS: Small: Collaborative Research: Distributed Coordination of Agents For Air Traffic Flow Management
CPS:小型:协作研究:空中交通流量管理代理的分布式协调
  • 批准号:
    0931591
  • 财政年份:
    2009
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
SGER: Foundations of Multiagent Control in Complex Environments
SGER:复杂环境中多智能体控制的基础
  • 批准号:
    0910358
  • 财政年份:
    2009
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CAS: Reaction and Deactivation Implications of Pore structure, Nodal Identity, and Coordination Environment on Small-molecule Oxidations by Metal-organic Frameworks
CAS:孔结构、节点特性和配位环境对金属有机框架小分子氧化的反应和失活影响
  • 批准号:
    2246949
  • 财政年份:
    2023
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
Organometallic and Coordination Chemistry Approaches to Small Molecule Activation Relevant to Renewable Energy and Resources
与可再生能源和资源相关的小分子活化的有机金属和配位化学方法
  • 批准号:
    RGPIN-2014-03733
  • 财政年份:
    2021
  • 资助金额:
    $ 40万
  • 项目类别:
    Discovery Grants Program - Individual
Organometallic and Coordination Chemistry Approaches to Small Molecule Activation Relevant to Renewable Energy and Resources
与可再生能源和资源相关的小分子活化的有机金属和配位化学方法
  • 批准号:
    RGPIN-2014-03733
  • 财政年份:
    2020
  • 资助金额:
    $ 40万
  • 项目类别:
    Discovery Grants Program - Individual
Hierarchically Assembled Coordination Polymers for Sequential Release of Small Molecules
用于顺序释放小分子的分层组装配位聚合物
  • 批准号:
    19K15591
  • 财政年份:
    2019
  • 资助金额:
    $ 40万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
CIF: Small: Collaborative Research: When Small Changes Have Big Impact: Improving Network Reliability and Security via Low-Rate Coordination
CIF:小:协作研究:当小变化产生大影响时:通过低速率协调提高网络可靠性和安全性
  • 批准号:
    1908756
  • 财政年份:
    2019
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
Organometallic and Coordination Chemistry Approaches to Small Molecule Activation Relevant to Renewable Energy and Resources
与可再生能源和资源相关的小分子活化的有机金属和配位化学方法
  • 批准号:
    RGPIN-2014-03733
  • 财政年份:
    2019
  • 资助金额:
    $ 40万
  • 项目类别:
    Discovery Grants Program - Individual
CPS: Small: Collaborative Research: Models and System-Level Coordination Algorithms for Power-in-the-Loop Autonomous Mobility-on-Demand Systems
CPS:小型:协作研究:功率在环自主按需移动系统的模型和系统级协调算法
  • 批准号:
    1837125
  • 财政年份:
    2019
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
CIF: Small: Collaborative Research: When Small Changes Have Big Impact: Improving Network Reliability and Security via Low-Rate Coordination
CIF:小:协作研究:当小变化产生大影响时:通过低速率协调提高网络可靠性和安全性
  • 批准号:
    1908725
  • 财政年份:
    2019
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
CNS Core: Small: Scaling Coordination for Microservices with Pangaea
CNS 核心:小型:Pangea 微服务的扩展协调
  • 批准号:
    1910390
  • 财政年份:
    2019
  • 资助金额:
    $ 40万
  • 项目类别:
    Continuing Grant
CPS: Small: Collaborative Research: Models and System-Level Coordination Algorithms for Power-in-the-Loop Autonomous Mobility-on-Demand Systems
CPS:小型:协作研究:功率在环自主按需移动系统的模型和系统级协调算法
  • 批准号:
    1837135
  • 财政年份:
    2019
  • 资助金额:
    $ 40万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了