Near-Optimal Scalable Algorithms for Multi-Agent Reinforcement Learning
多智能体强化学习的近乎最优可扩展算法
基本信息
- 批准号:2444539
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:英国
- 项目类别:Studentship
- 财政年份:2020
- 资助国家:英国
- 起止时间:2020 至 无数据
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Sequential decision making is an important setting of modern statistical theories and applications, where an agent sequentially interacts with an environment - observing its state, taking actions and receiving rewards - with the objective of maximizing the cumulative reward. This class of methods has been successfully applied to games, finance, robotics, autonomous driving and computer vision. Many of these applications involve the participation of multiple agents, which brings a scalability issue with respect to the state and action spaces. Indeed, while many of the already established algorithms achieve good scaling guarantees for the single agent setting, they do not perform well if they are immediately applied to the case where multiple agents interact in the same environment. This is because the simplest approach would be to consider a state or an action as the joint states or actions of all the agents, causing the spaces to grow exponentially with respect to the number of agents. Our approach consists in dividing the set of agents into neighbourhoods in order to reduce the exponential scaling of the setting.The aim of the project is to obtain a near-optimal algorithm for the multi-agent setting with a computational complexity that depends exponentially only on the cardinality of a neighbourhood. This project falls within the EPSRC "Statistics an applied probability" and "Artificial intelligence technologies" research areas.
序贯决策是现代统计理论和应用的一个重要背景,其中智能体顺序地与环境交互-观察其状态,采取行动并获得奖励-以最大化累积奖励为目标。这类方法已成功应用于游戏、金融、机器人、自动驾驶和计算机视觉。这些应用程序中的许多涉及多个代理的参与,这就带来了状态和动作空间的可扩展性问题。事实上,虽然许多已经建立的算法为单个代理设置实现了良好的扩展保证,但如果立即应用于多个代理在同一环境中交互的情况,它们的性能并不好。这是因为最简单的方法是将状态或动作视为所有代理的联合状态或动作,从而导致空间相对于代理的数量呈指数级增长。我们的方法包括在划分成邻域的代理集,以减少指数缩放的setting.The项目的目的是获得一个接近最佳的算法的多代理设置的计算复杂性,指数只依赖于一个邻域的基数。该项目属于EPSRC“统计与应用概率”和“人工智能技术”研究领域的福尔斯。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
其他文献
吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('', 18)}}的其他基金
An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
- 批准号:
2901954 - 财政年份:2028
- 资助金额:
-- - 项目类别:
Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
- 批准号:
2896097 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
- 批准号:
2780268 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
- 批准号:
2908918 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
- 批准号:
2908693 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
- 批准号:
2908917 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
- 批准号:
2879438 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
- 批准号:
2890513 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
- 批准号:
2876993 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
相似海外基金
Optimal utility-based design of oncology clinical development programmes
基于效用的肿瘤学临床开发项目的优化设计
- 批准号:
2734768 - 财政年份:2026
- 资助金额:
-- - 项目类别:
Studentship
Conference: Supplementary funding for the BIRS-CMO workshop Optimal Transport and Dynamics (24s5198)
会议:BIRS-CMO 研讨会最佳运输和动力学的补充资金 (24s5198)
- 批准号:
2401019 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Standard Grant
CAREER: Statistical Power Analysis and Optimal Sample Size Planning for Longitudinal Studies in STEM Education
职业:STEM 教育纵向研究的统计功效分析和最佳样本量规划
- 批准号:
2339353 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Continuing Grant
Collaborative Research: Mechanics of Optimal Biomimetic Torene Plates and Shells with Ultra-high Genus
合作研究:超高属度最优仿生Torene板壳力学
- 批准号:
2323415 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Standard Grant
Optimal cell factories for membrane protein production
用于膜蛋白生产的最佳细胞工厂
- 批准号:
BB/Y007603/1 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Research Grant
Hybrid AI and multiscale physical modelling for optimal urban decarbonisation combating climate change
混合人工智能和多尺度物理建模,实现应对气候变化的最佳城市脱碳
- 批准号:
EP/X029093/1 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Fellowship
CAREER: Optimal Transport Beyond Probability Measures for Robust Geometric Representation Learning
职业生涯:超越概率测量的最佳传输以实现稳健的几何表示学习
- 批准号:
2339898 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Continuing Grant
Labor Market Polarization, Earnings Inequality and Optimal Tax Progressivity: A Theoretical and Empirical Analysis
劳动力市场两极分化、收入不平等和最优税收累进性:理论与实证分析
- 批准号:
24K04909 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Scientific Research (C)
Collaborative Research: Integrating Optimal Function and Compliant Mechanisms for Ubiquitous Lower-Limb Powered Prostheses
合作研究:将优化功能和合规机制整合到无处不在的下肢动力假肢中
- 批准号:
2344765 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Standard Grant
Collaborative Research: Can Irregular Structural Patterns Beat Perfect Lattices? Biomimicry for Optimal Acoustic Absorption
合作研究:不规则结构模式能否击败完美晶格?
- 批准号:
2341950 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Standard Grant