Hierarchical reinforcement learning in large-scale domains

大规模领域的分层强化学习

基本信息

  • 批准号:
    2120604
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Studentship
  • 财政年份:
    2018
  • 资助国家:
    英国
  • 起止时间:
    2018 至 无数据
  • 项目状态:
    已结题

项目摘要

Temporal abstraction is valuable for an intelligent system. Representing knowledge over multiple timescales provides a means of partitioning state space, which can accelerate learning and allow behaviour to be transferred to different tasks. Humans constantly plan and behave using temporally extended actions, breaking any particular task down into a sequence of salient waypoints, or subgoals. Hierarchical reinforcement learning rests upon a set of theoretically sound approaches for learning and planning using temporally extended actions [1], [2], [3]. Despite us having richly expressive frameworks for utilising a given hierarchy of action, a major problem that remains is how we may autonomously discover the hierarchical structure of a given domain. This problem is known as skill discovery. There exist many good approaches to skill discovery, with some based on graph theory, some on mining the trajectories of a reinforcement learning agent's experience, and others on gradient based, end-to-end optimisation. However, the current methods are not immediately compatible with all types of problems, and have not been demonstrated to scale well.Rubik's cube is an iconic puzzle that has a reputation for being difficult to solve for someone without prior knowledge. There are currently no solutions that use reinforcement learning starting from an arbitrary scrambled state. An obvious element of the problem is the need to simultaneously satisfy competing objectives, i.e. by correctly placing the different pieces of the cube. Another key source of difficulty is due to the property of non-serialisable subgoals: using a sequence of subgoals to arrive at the solution, some previous subgoals must be temporarily violated before reaching further ones. Whilst it is known that Rubik's cube can be solved in 20 moves or less from any of its 43 quintillion states, 'cubists' who can solve the cube typically use many more moves by employing a variety of macro operators [4]. These macro operators leave part of a state invariant to their effects, which allows cubists to manipulate only certain parts of Rubik's cube during each stage of their solve. This research will focus on the question of how a reinforcement learning agent may learn a hierarchical policy for Rubik's cube. Preliminary work undertaken has identified a key property of the state space. Possible future directions could address the discovery of macro operators from direct experience, develop ways to restrict initiation sets, and utilise symmetries of the problem. Careful consideration will be needed to design effective methods of function approximation, both at the top-level of control and also for the temporarily extended actions. Beyond the Rubik's cube there are many permutation puzzles that can also be solved through methods this research will create. More generally, combinatorial optimisation problems are widespread throughout science and engineering, and are increasingly being addressed using reinforcement learning [5]. The aim is to incorporate methods arising from this research into this wider body of work. [1] Parr, R., and Russell, S. 1998. Reinforcement learning with hierarchies of machines. In Advances in Neural Information Processing Systems: Proceedings of the 10th Conference, Denver. Cambridge, MA: MIT Press. [2] Sutton, R. S., Precup, D., and Singh, S. 1999. Between MDPs and Semi-MDPs: A framework for temporal abstraction in reinforcement learning. Artificial Intelligence, 112, pp.181-211.[3] Dietterich, T. G. 2000. Hierarchical reinforcement learning with the MAXQ value function decomposition. Journal of Artificial Intelligence Research, 13, pp. 227-303.[4] Korf, R. 1985. Macro-operators: A weak method for learning. Artificial Intelligence, 35, pp. 35-77.[5] Yanjun, L., Hengtong, K., Ketian, Y., Shuyu, Y., and Xiaolin, L. 2018. FoldingZero: Protein Folding from Scratch in Hydrophobic-Polar Model. In Advances in Neural Information Processing Systems
时间抽象对于智能系统来说是有价值的。在多个时间尺度上表示知识提供了一种划分状态空间的方法,这可以加速学习并允许将行为转移到不同的任务。人类不断地使用时间延长的行动来计划和行动,将任何特定的任务分解成一系列显著的路点或子目标。分层强化学习依赖于一套理论上合理的方法,用于使用时间扩展的动作进行学习和规划[1]、[2]、[3]。尽管我们有丰富的表达框架来利用给定的操作层次结构,但仍然存在的一个主要问题是,我们如何自主地发现给定域的层次结构。这个问题被称为技能发现。有许多很好的技能发现方法,一些基于图论,一些基于强化学习代理经验的轨迹挖掘,还有一些基于梯度的端到端优化。然而,目前的方法并不能立即兼容所有类型的问题,也没有被证明具有很好的伸缩性。魔方是一个标志性的谜题,对于没有事先知识的人来说,它有很难解决的名声。目前还没有使用从任意加扰状态开始的强化学习的解决方案。问题的一个明显因素是需要同时满足相互竞争的目标,即通过正确放置立方体的不同部分。另一个关键的困难来源是不可序列化的子目标的性质:使用一系列的子目标来达到解决方案,在达到进一步的子目标之前,必须暂时违反先前的一些子目标。虽然众所周知,魔方可以在43个五分之一个状态中的任何一个状态下用20步或更少的步来求解,但能够求解魔方的立体主义者通常通过使用各种宏运算符来使用更多的步[4]。这些宏运算符使状态的一部分保持不变,这允许立体主义者在求解的每个阶段只操作魔方的某些部分。这项研究将集中在强化学习代理如何学习魔方的分层策略的问题上。已开展的初步工作确定了状态空间的一个关键性质。未来可能的方向可能是解决从直接经验中发现宏观操作符的问题,开发限制启动集的方法,并利用问题的对称性。需要仔细考虑设计有效的函数逼近方法,无论是在控制的顶层,还是对于临时扩展的动作。除了魔方之外,还有许多排列谜题也可以通过这项研究创造的方法来解决。更广泛地说,组合优化问题在整个科学和工程中广泛存在,并越来越多地使用强化学习来解决。其目的是将这项研究产生的方法纳入这一更广泛的工作主体。[1]Parr,R.和Russell,S.1998。机器分层强化学习。神经信息处理系统进展:第10届会议论文集,丹佛。马萨诸塞州剑桥:麻省理工学院出版社。[2]Sutton,R.S.,Precup,D.和Singh,S.1999。在MDP和半MDP之间:强化学习中的时间抽象框架。《人工智能》,第112页,第181-211页。基于MaxQ值函数分解的分层强化学习。《人工智能研究杂志》,第13页,第227-303页。宏运算符:一种薄弱的学习方法。人工智能,35,35-77页。[5]严军,L.,恒通,K.,柯田,Y.,舒宇,Y.,晓琳,L.2018.FoldingZero:在疏水-极性模型中蛋白质从头开始折叠。神经信息处理系统研究进展

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

其他文献

吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
生命分子工学・海洋生命工学研究室
生物分子工程/海洋生物技术实验室
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:

的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('', 18)}}的其他基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    --
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship

相似国自然基金

海桑属杂种区强化(Reinforcement)的检验与遗传基础研究
  • 批准号:
    30800060
  • 批准年份:
    2008
  • 资助金额:
    23.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Transformer-based Framework for Multi-objective Reinforcement Learning using Hierarchical Policies
使用分层策略的基于 Transformer 的多目标强化学习框架
  • 批准号:
    24K20843
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Collaborative Research: CNS CORE: Small: RUI: Hierarchical Deep Reinforcement Learning for Routing in Mobile Wireless Networks
合作研究:CNS CORE:小型:RUI:移动无线网络中路由的分层深度强化学习
  • 批准号:
    2154191
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Collaborative Research: CNS CORE: Small: RUI: Hierarchical Deep Reinforcement Learning for Routing in Mobile Wireless Networks
合作研究:CNS CORE:小型:RUI:移动无线网络中路由的分层深度强化学习
  • 批准号:
    2154190
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
CAREER: Hierarchical Reinforcement Learning Framework for Safe Dynamic Bipedal Locomotion
职业:安全动态双足运动的分层强化学习框架
  • 批准号:
    2144156
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Improving AI Performance in Complex Real-Time Scenarios with Hierarchical Reinforcement Learning and Counterfactual Regret Minimization
通过分层强化学习和反事实遗憾最小化提高复杂实时场景中的人工智能性能
  • 批准号:
    2590735
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Studentship
CPS: Small: Data-Driven Reinforcement Learning Control of Large CPS Networks using Multi-Stage Hierarchical Decompositions
CPS:小型:使用多级分层分解对大型 CPS 网络进行数据驱动的强化学习控制
  • 批准号:
    1931932
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
The neural computations supporting hierarchical reinforcement learning
支持分层强化学习的神经计算
  • 批准号:
    10359201
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
Hierarchical Reinforcement Learning for Autonomous Motion Planning with Real Robots
真实机器人自主运动规划的分层强化学习
  • 批准号:
    19K20370
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
The neural computations supporting hierarchical reinforcement learning
支持分层强化学习的神经计算
  • 批准号:
    10113371
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
The neural computations supporting hierarchical reinforcement learning
支持分层强化学习的神经计算
  • 批准号:
    10576384
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了