Reinforcement Learning in Large Complex Partially Observable Environments
大型复杂部分可观察环境中的强化学习
基本信息
- 批准号:1749045
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:英国
- 项目类别:Studentship
- 财政年份:2016
- 资助国家:英国
- 起止时间:2016 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
This project falls into the EPSRC Research Area: Artificial Intelligence Technologies EPSRC Research Theme: Information and Communication TechnologiesThis research project is an exploration of the use of Reinforcement Learning for achieving a sophisticated level of control in large partially observable environments which exhibit complex dynamics and long-term dependencies. Reinforcement Learning (RL) is a branch of Machine Learning that deals with how to act in an environment in order to maximise some notion of cumulative reward. In order to accomplish this, RL agents must carefully balance their exploration and exploitation of said environment, which is a difficult task in large complex environments. In recent years there has been much progress made on applying model-free approaches to such environments with much success. Most notably, approaches involving Deep Q Networks have been able to play a range of Atari games with superhuman performance.We wish to continue this line of research and further investigate the use of Deep Q Networks and their many extensions to environments which require long-term planning. Specifically, we aim to produce an agent that can learn how to play a real time strategy game. In order to be able to accomplish such a goal, an agent must be adapt at many complex tasks. In addition to learning the consequences of its actions, an agent must learn to formulate a long-term goal to build towards, and also learn how to react to changes in its environment. Even humans struggle to play Real Time Strategy games without some prior training or guidance, which highlights the complexity of the problem. It is our belief that pursuing a complex problem such as this would lead to the development of useful ideas and techniques that would be applicable in a multitude of other areas. In order to tackle this problem we will make use of ideas from Hierarchical Reinforcement Learning. We strongly believe that decomposing a problem into simpler sub-problems is a crucial part of being able to tackle complex environments, since the larger problem is often intractable whereas the simpler sub-problems are significantly easier to solve. In addition we will make use of recent advances in Machine Learning, specifically Deep Learning, in order to further refine our internal representation of the environment. An accurate representation of the environment is crucial in order to be able to intelligently act in partially observable domains, especially in the case of Real Time Strategy games where we must also learn to predict our opponent's behaviour.
该项目福尔斯EPSRC研究领域:人工智能技术EPSRC研究主题:信息和通信技术该研究项目是对使用强化学习在表现出复杂动态和长期依赖性的大型部分可观察环境中实现复杂控制水平的探索。强化学习(RL)是机器学习的一个分支,研究如何在环境中采取行动,以最大化累积奖励的概念。为了实现这一点,RL代理必须仔细平衡它们对所述环境的探索和利用,这在大型复杂环境中是一项艰巨的任务。近年来,在将无模型方法应用于此类环境方面取得了很大进展,并取得了很大成功。最值得注意的是,涉及Deep Q Networks的方法已经能够以超人的性能玩一系列Atari游戏。我们希望继续这条研究路线,并进一步研究Deep Q Networks的使用及其在需要长期规划的环境中的许多扩展。具体来说,我们的目标是产生一个代理,可以学习如何发挥真实的时间战略游戏。为了能够完成这样的目标,智能体必须适应许多复杂的任务。除了学习其行为的后果外,智能体还必须学会制定一个长期目标,并学习如何对环境的变化做出反应。即使是人类,在没有事先训练或指导的情况下,也很难玩真实的时间策略游戏,这凸显了问题的复杂性。我们认为,处理这样一个复杂的问题将导致发展适用于许多其他领域的有用的想法和技术。为了解决这个问题,我们将利用分层强化学习的思想。我们坚信,将问题分解为更简单的子问题是能够解决复杂环境的关键部分,因为较大的问题通常是棘手的,而更简单的子问题更容易解决。此外,我们将利用机器学习的最新进展,特别是深度学习,以进一步完善我们对环境的内部表示。为了能够在部分可观察的领域中智能地采取行动,环境的准确表示是至关重要的,特别是在真实的时间策略游戏的情况下,我们还必须学会预测对手的行为。
项目成果
期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Optimistic Exploration even with a Pessimistic Initialisation
- DOI:
- 发表时间:2020-02
- 期刊:
- 影响因子:0
- 作者:Tabish Rashid;Bei Peng;Wendelin Böhmer;Shimon Whiteson
- 通讯作者:Tabish Rashid;Bei Peng;Wendelin Böhmer;Shimon Whiteson
MAVEN: Multi-Agent Variational Exploration
- DOI:
- 发表时间:2019-10
- 期刊:
- 影响因子:7.8
- 作者:Anuj Mahajan;Tabish Rashid;Mikayel Samvelyan;Shimon Whiteson
- 通讯作者:Anuj Mahajan;Tabish Rashid;Mikayel Samvelyan;Shimon Whiteson
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
其他文献
吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('', 18)}}的其他基金
An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
- 批准号:
2901954 - 财政年份:2028
- 资助金额:
-- - 项目类别:
Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
- 批准号:
2896097 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
- 批准号:
2780268 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
- 批准号:
2908918 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
- 批准号:
2908693 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
- 批准号:
2908917 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
- 批准号:
2879438 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
- 批准号:
2890513 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
- 批准号:
2876993 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
相似国自然基金
Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:合作创新研究团队
Understanding structural evolution of galaxies with machine learning
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
- 批准号:62003314
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
- 批准号:61902016
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
- 批准号:61806040
- 批准年份:2018
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
- 批准号:51769027
- 批准年份:2017
- 资助金额:38.0 万元
- 项目类别:地区科学基金项目
具有时序处理能力的Spiking-Deep Learning(脉冲深度学习)方法研究
- 批准号:61573081
- 批准年份:2015
- 资助金额:64.0 万元
- 项目类别:面上项目
基于有向超图的大型个性化e-learning学习过程模型的自动生成与优化
- 批准号:61572533
- 批准年份:2015
- 资助金额:66.0 万元
- 项目类别:面上项目
E-Learning中学习者情感补偿方法的研究
- 批准号:61402392
- 批准年份:2014
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
相似海外基金
CAREER: Structure Exploiting Multi-Agent Reinforcement Learning for Large Scale Networked Systems: Locality and Beyond
职业:为大规模网络系统利用多智能体强化学习的结构:局部性及其他
- 批准号:
2339112 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Continuing Grant
CDS&E: Reinforcement learning for robust wall models in large-eddy simulations
CDS
- 批准号:
2152705 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Standard Grant
RINGS: A Deep Reinforcement Learning Enabled Large-scale UAV Network with Distributed Navigation, Mobility Control, and Resilience
RINGS:深度强化学习支持的大规模无人机网络,具有分布式导航、移动控制和弹性
- 批准号:
2148253 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Continuing Grant
Dimension-reduced Reinforcement Learning for Large-scale Fleet Management
大规模车队管理的降维强化学习
- 批准号:
DE200101310 - 财政年份:2021
- 资助金额:
-- - 项目类别:
Discovery Early Career Researcher Award
CPS: Small: Data-Driven Reinforcement Learning Control of Large CPS Networks using Multi-Stage Hierarchical Decompositions
CPS:小型:使用多级分层分解对大型 CPS 网络进行数据驱动的强化学习控制
- 批准号:
1931932 - 财政年份:2020
- 资助金额:
-- - 项目类别:
Standard Grant
Reframing Deep Reinforcement Learning for Large-Scale, Real-World Implementation
重构深度强化学习以实现大规模、现实世界的实施
- 批准号:
2373874 - 财政年份:2019
- 资助金额:
-- - 项目类别:
Studentship
Hierarchical reinforcement learning in large-scale domains
大规模领域的分层强化学习
- 批准号:
2120604 - 财政年份:2018
- 资助金额:
-- - 项目类别:
Studentship
Reinforcement learning approach to large scale dynamic pricing
大规模动态定价的强化学习方法
- 批准号:
510818-2017 - 财政年份:2017
- 资助金额:
-- - 项目类别:
University Undergraduate Student Research Awards
Development of a System for Collecting Context Data for Large-Scale Inverse Reinforcement Learning
开发用于大规模逆强化学习的上下文数据收集系统
- 批准号:
17K00295 - 财政年份:2017
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Scientific Research (C)
Curiosity-driven reinforcement learning algorithms for large scale interactive sculpture systems
用于大型交互式雕塑系统的好奇心驱动的强化学习算法
- 批准号:
451938-2013 - 财政年份:2015
- 资助金额:
-- - 项目类别:
Industrial Postgraduate Scholarships