Enabling Relational Reasoning in Multi-Agent Deep Reinforcement Learning

在多智能体深度强化学习中实现关系推理

基本信息

  • 批准号:
    2585630
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Studentship
  • 财政年份:
    2021
  • 资助国家:
    英国
  • 起止时间:
    2021 至 无数据
  • 项目状态:
    未结题

项目摘要

The aim of reinforcement learning is to teach an artificial agent how to take optimal sequential decisions in an uncertain environment to complete a task. Recent advancements in the field have leveraged deep learning methods as function approximators thus enabling complex applications in various areas, from gaming to bioinformatics. Despite these advances, most of the work has focused on the case of a single agent interacting with the environment. However, many real-world applications involve multiple cooperative agents taking joint decisions; some prominent examples include autonomous vehicles, manufacturing robotics and cyber-security bots. In such settings, inter-agent communication becomes essential to achieve collaborative behaviour, and recent developments in the fields have been concerned with facilitating the spontaneous emergence of communication protocols throughout the learning process. In this project, we will develop a modelling framework where, in addition to learning how to communicate, the agents can also develop the ability to perform relational reasoning, i.e. they'll be able to infer how the entities acting in the environment are related to one another and encode those relationships in order to improve the decision-making process. In doing so, we will draw heavily from the field of geometric deep learning where relational graph neural networks are currently employed to learn relational patterns from network-valued data. Our aim is to develop a unified relational reinforcement learning approach for multi agent systems that is both decentralised and scalable. Several applications of increasing complexity will be considered to showcase the potential use of our algorithms in real-world use cases.
强化学习的目的是教会人工智能体如何在不确定的环境中采取最优的顺序决策来完成任务。该领域的最新进展利用深度学习方法作为函数逼近器,从而在从游戏到生物信息学的各个领域实现了复杂的应用。尽管取得了这些进展,但大多数工作都集中在单个代理与环境相互作用的情况下。然而,许多现实世界的应用涉及多个协作代理共同决策;一些突出的例子包括自动驾驶汽车、制造机器人和网络安全机器人。在这种情况下,主体间的通信对于实现协作行为至关重要,该领域最近的发展一直关注于促进整个学习过程中自发出现的通信协议。在这个项目中,我们将开发一个建模框架,除了学习如何沟通之外,代理还可以开发执行关系推理的能力,即它们将能够推断环境中行为的实体如何相互关联,并对这些关系进行编码,以改进决策过程。在此过程中,我们将大量借鉴几何深度学习领域,其中关系图神经网络目前被用于从网络值数据中学习关系模式。我们的目标是为多智能体系统开发一种统一的关系强化学习方法,该方法既分散又可扩展。将考虑几个日益复杂的应用程序,以展示我们的算法在实际用例中的潜在用途。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

其他文献

吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
生命分子工学・海洋生命工学研究室
生物分子工程/海洋生物技术实验室
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:

的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('', 18)}}的其他基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    --
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship

相似海外基金

Building a Commonsense Reasoning Model Considering Inference Process on Event Relational Knowledge
考虑事件关系知识的推理过程构建常识推理模型
  • 批准号:
    22KJ1921
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
CAREER: Relational generalization in integrated learning and reasoning
职业:综合学习和推理中的关系泛化
  • 批准号:
    1942336
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Measuring Early Mathematical Reasoning Skills: Developing Tests of Numeric Relational Reasoning and Spatial Reasoning
衡量早期数学推理技能:开发数字关系推理和空间推理测试
  • 批准号:
    1721100
  • 财政年份:
    2017
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Relational reasoning and non-invasive data analysis
关系推理和非侵入性数据分析
  • 批准号:
    250153-2003
  • 财政年份:
    2008
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Relational reasoning and non-invasive data analysis
关系推理和非侵入性数据分析
  • 批准号:
    250153-2003
  • 财政年份:
    2006
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
A relational knowledge system for probabilistic reasoning and database applications
概率推理和数据库应用的关系知识系统
  • 批准号:
    982-2002
  • 财政年份:
    2005
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Relational reasoning and non-invasive data analysis
关系推理和非侵入性数据分析
  • 批准号:
    250153-2003
  • 财政年份:
    2005
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
A relational knowledge system for probabilistic reasoning and database applications
概率推理和数据库应用的关系知识系统
  • 批准号:
    982-2002
  • 财政年份:
    2004
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Relational reasoning and non-invasive data analysis
关系推理和非侵入性数据分析
  • 批准号:
    250153-2003
  • 财政年份:
    2004
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Relational reasoning and non-invasive data analysis
关系推理和非侵入性数据分析
  • 批准号:
    250153-2003
  • 财政年份:
    2003
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了