Improved analysis of policy gradient methods in reinforcement learning.
强化学习中策略梯度方法的改进分析。
基本信息
- 批准号:2602524
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:英国
- 项目类别:Studentship
- 财政年份:2021
- 资助国家:英国
- 起止时间:2021 至 无数据
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Reinforcement learning is a popular branch of machine learning that aims to solve a sequential decision-making problem in an environment. This has a wide variety of applications including autonomous driving, robotics, recommendation systems and healthcare. In some of these applications, the cost of a wrong decision could be dramatic. In particular for applications like autonomous driving, the lives of human beings are at stake. As such, it is of crucial importance that we understand how the methods work and whether they really do work in the way that was intended.However, the methods that are used in practice are often only poorly understood. The theory describing these methods is currently unable to explain the huge successes that reinforcement learning has enjoyed in practice. The aim of this project is to provide improved theoretical guarantees for methods known as policy gradient methods that form the basis for much of the practical implementations of reinforcement learning. These methods are particularly used for large-scale problems that are often faced in practice.Specifically, theory on algorithms of this type takes the form of convergence bounds. That is, the algorithm is aiming to output a solution to the problem that is optimal. We are interested in understanding how quickly the algorithm outputs something close to this optimal solution, where the notion of closeness is mathematically precise. The aim of improved analyses translates here into saying that an algorithm converges faster than what was previously proven.Recently, a particular type of a policy-gradient method in a specific setting has been studied under a new perspective known as policy mirror descent. What exactly this means is not too important except that mirror descent is a concept from optimisation theory that has been heavily studied in that setting. As such, tools and methods of analysis may be translated from optimisation theory to this reinforcement learning framework. This can be exploited to achieve improved convergence guarantees, which is one of the avenues that we are using in this project.This project is part of the StatML CDT, which is a joint CDT between Imperial College London and the university of Oxford. It falls within the EPSRC statistics and applied probability research area. In particular, though this project is heavily linked to optimisation, it remains very statistical in nature. This is because we are interested in using data that inherently has some randomness to it in order to solve the decision-making problem of reinforcement learning.
强化学习是机器学习的一个流行的分支,旨在解决环境中的顺序决策问题。这具有广泛的应用,包括自动驾驶,机器人,推荐系统和医疗保健。在其中一些应用中,错误决策的成本可能是巨大的。特别是对于自动驾驶这样的应用,人类的生命处于危险之中。因此,我们了解这些方法是如何工作的,以及它们是否真的以预期的方式工作,这是至关重要的。然而,在实践中使用的方法往往只是知之甚少。描述这些方法的理论目前无法解释强化学习在实践中取得的巨大成功。该项目的目的是为被称为策略梯度方法的方法提供改进的理论保证,这些方法构成了强化学习的许多实际实现的基础。这些方法特别适用于实际中经常遇到的大规模问题。具体来说,这类算法的理论采用收敛界的形式。也就是说,该算法旨在输出问题的最优解。我们感兴趣的是了解算法输出接近最优解的速度,其中接近度的概念在数学上是精确的。改进分析的目的在这里翻译成说,算法收敛速度比以前证明的。最近,在一个特定的设置下,一个特定类型的策略梯度方法已被研究在一个新的角度称为政策镜像下降。这到底意味着什么并不太重要,除了镜像下降是一个来自优化理论的概念,在该环境中已经进行了大量研究。因此,分析工具和方法可以从优化理论转化为这种强化学习框架。这可以被利用来实现改进的收敛保证,这是我们在这个项目中使用的途径之一。这个项目是StatML CDT的一部分,它是伦敦帝国理工学院和牛津大学之间的联合CDT。它属于EPSRC统计和应用概率研究领域的福尔斯。特别是,尽管这个项目与优化密切相关,但它本质上仍然非常统计。这是因为我们有兴趣使用固有的随机性数据来解决强化学习的决策问题。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
其他文献
吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('', 18)}}的其他基金
An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
- 批准号:
2901954 - 财政年份:2028
- 资助金额:
-- - 项目类别:
Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
- 批准号:
2896097 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
- 批准号:
2780268 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
- 批准号:
2908918 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
- 批准号:
2908693 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
- 批准号:
2908917 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
- 批准号:
2879438 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
- 批准号:
2890513 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
- 批准号:
2876993 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
相似国自然基金
Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:合作创新研究团队
Intelligent Patent Analysis for Optimized Technology Stack Selection:Blockchain BusinessRegistry Case Demonstration
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:外国学者研究基金项目
利用全基因组关联分析和QTL-seq发掘花生白绢病抗性分子标记
- 批准号:31971981
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
基于SERS纳米标签和光子晶体的单细胞Western Blot定量分析技术研究
- 批准号:31900571
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
利用多个实验群体解析猪保幼带形成及其自然消褪的遗传机制
- 批准号:31972542
- 批准年份:2019
- 资助金额:57.0 万元
- 项目类别:面上项目
基于Meta-analysis的新疆棉花灌水增产模型研究
- 批准号:41601604
- 批准年份:2016
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
基于个体分析的投影式非线性非负张量分解在高维非结构化数据模式分析中的研究
- 批准号:61502059
- 批准年份:2015
- 资助金额:19.0 万元
- 项目类别:青年科学基金项目
多目标诉求下我国交通节能减排市场导向的政策组合选择研究
- 批准号:71473155
- 批准年份:2014
- 资助金额:60.0 万元
- 项目类别:面上项目
大规模微阵列数据组的meta-analysis方法研究
- 批准号:31100958
- 批准年份:2011
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
基于物质流分析的中国石油资源流动过程及碳效应研究
- 批准号:41101116
- 批准年份:2011
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Intersectionality-Based Policy Analysis Framework 2.0: An improved approach for explicating the "+" in SGBA+
基于交叉性的政策分析框架2.0:解释SGBA中“”的改进方法
- 批准号:
452530 - 财政年份:2021
- 资助金额:
-- - 项目类别:
Operating Grants
Improved analysis of experiments and observational studies in HIV
改进艾滋病毒实验和观察研究的分析
- 批准号:
10159693 - 财政年份:2020
- 资助金额:
-- - 项目类别:
Improved analysis of experiments and observational studies in HIV
改进艾滋病毒实验和观察研究的分析
- 批准号:
10681368 - 财政年份:2020
- 资助金额:
-- - 项目类别:
Improved analysis of experiments and observational studies in HIV
改进艾滋病毒实验和观察研究的分析
- 批准号:
10268264 - 财政年份:2020
- 资助金额:
-- - 项目类别:
Improved analysis of experiments and observational studies in HIV
改进艾滋病毒实验和观察研究的分析
- 批准号:
10460562 - 财政年份:2020
- 资助金额:
-- - 项目类别:
Bridging approaches: An evaluation of partnerships between Western medicine and Indigenous medicine for improved health outcomes of Indigneous People
桥接方法:评估西医和土著医学之间的伙伴关系,以改善土著人民的健康状况
- 批准号:
386524 - 财政年份:2017
- 资助金额:
-- - 项目类别:
Studentship Programs
Improved DBM ROC Methods for Diagnostic Radiology
改进的诊断放射学 DBM ROC 方法
- 批准号:
7598948 - 财政年份:2003
- 资助金额:
-- - 项目类别:
Improved DBM ROC Methods for Diagnostic Radiology
改进的诊断放射学 DBM ROC 方法
- 批准号:
7799273 - 财政年份:2003
- 资助金额:
-- - 项目类别:
Improved DBM ROC Methods for Diagnostic Radiology
改进的诊断放射学 DBM ROC 方法
- 批准号:
7503120 - 财政年份:2003
- 资助金额:
-- - 项目类别:
Improved DBM ROC Methods for Diagnostic Radiology
改进的诊断放射学 DBM ROC 方法
- 批准号:
7259943 - 财政年份:2003
- 资助金额:
-- - 项目类别: