Optimal Stopping with Unknown Gain Function
未知增益函数的最佳停止
基本信息
- 批准号:2585636
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:英国
- 项目类别:Studentship
- 财政年份:2021
- 资助国家:英国
- 起止时间:2021 至 无数据
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
In the optimal stopping problems the form of the gain function is often unknown. One of the possible solutions to this is to employ the approach of imitation learning to infer the gain function from the expert's demonstrations. Imitation learning is considered as a branch of Reinforcement Learning which recently proved to be a useful in solving the optimal stopping and/or optimal control problems. The aim of the Project is to develop a mathematically backed framework to solving the optimal stopping problems with an unknown gain function (inverse optimal stopping). The objectives include- Establishing a Reinforcement Learning formulation of the general as well as the inverse optimal stopping and optimal control problems;- Identifying the main pitfalls of the existing approaches to the optimal stopping/optimal control problems;- Developing a Reinforcement Learning algorithm to efficiently and effectively solve the inverse optimal stopping problems and establishing mathematical guarantees for it;- Creating an application of the developed algorithms with a potential to be used in the autonomous vehicles control.To the best of our knowledge there is a limited literature available on the topic of optimal stopping problems with an unknown gain function and the existing research in the area mainly covers the applications of the existing algorithms without in-depth mathematical proofs and guarantees of the algorithm's convergence and stability.The project aligns with the EPSRC remit covering the area of Mathematical Sciences and is closely related to the activities conducted by the AI and Robotics team of the Research Council.
在最优停止问题中,增益函数的形式往往是未知的。一种可能的解决方案是采用模仿学习的方法,从专家的演示中推断增益函数。模仿学习被认为是强化学习的一个分支,最近被证明是解决最优停止和/或最优控制问题的一个有用的方法。该项目的目的是开发一个数学支持的框架来解决具有未知增益函数的最优停止问题(逆最优停止)。目标包括:-建立一般以及逆最优停止和最优控制问题的强化学习公式;-识别现有最优停止/最优控制问题方法的主要缺陷;-开发强化学习算法以高效和有效地解决逆最优停止问题并为其建立数学保证;- 将所开发的算法应用于自动驾驶汽车控制中。据我们所知,关于具有未知增益函数的最优停止问题的文献有限,并且该领域的现有研究主要涵盖了现有算法的应用,而没有深入研究。深入的数学证明和算法的收敛性和稳定性的保证。该项目符合EPSRC涵盖数学科学领域的职权范围,并与研究理事会的人工智能和机器人团队进行的活动密切相关。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
其他文献
吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('', 18)}}的其他基金
An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
- 批准号:
2901954 - 财政年份:2028
- 资助金额:
-- - 项目类别:
Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
- 批准号:
2896097 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
- 批准号:
2780268 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
- 批准号:
2908918 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
- 批准号:
2908693 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
- 批准号:
2908917 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
- 批准号:
2879438 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
- 批准号:
2890513 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
- 批准号:
2876993 - 财政年份:2027
- 资助金额:
-- - 项目类别:
Studentship
相似海外基金
Stopping hereditary cancers in their tracks
阻止遗传性癌症的发展
- 批准号:
485640 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Miscellaneous Programs
Engineering viscoelastic hydrogels for mimicking the tumour microenvironment and stopping tumour progression
工程粘弹性水凝胶用于模拟肿瘤微环境并阻止肿瘤进展
- 批准号:
2888787 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Studentship
SBIR Phase I: Autonomous Warning Triangle System (aWTS) for Emergency Stopping
SBIR 第一阶段:用于紧急停车的自主警告三角系统(aWTS)
- 批准号:
2222996 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Standard Grant
Creating therapeutic strategies targeting both aldosterone and AGEs-RAGE axis for stopping kidney diseases progression
制定针对醛固酮和 AGEs-RAGE 轴的治疗策略,以阻止肾脏疾病的进展
- 批准号:
23K15240 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Grant-in-Aid for Early-Career Scientists
A Multi-Centre Non-Inferiority Randomized Controlled Trial of STOPping Cardiac MEDications in Patients with Normalized Cancer Therapy Related Cardiac Dysfunction - The STOP-MED CTRCD Trial
癌症治疗正常化相关心脏功能障碍患者停止心脏药物治疗的多中心非劣效随机对照试验 - STOP-MED CTRCD 试验
- 批准号:
489331 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Operating Grants
Stopping Syphilis Transmission in Arctic Communities Through Rapid Diagnostic Testing in Non-Traditional Testing sites (STAR-NT study)
通过在非传统检测地点进行快速诊断检测来阻止北极社区的梅毒传播(STAR-NT 研究)
- 批准号:
502570 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Operating Grants
Stopping Hydroxychloroquine In Elderly Lupus Disease (SHIELD)
停止使用羟氯喹治疗老年狼疮病 (SHIELD)
- 批准号:
10594743 - 财政年份:2023
- 资助金额:
-- - 项目类别:
A unified model of electron stopping and electron-phonon coupling to better understand radiation damage in zirconium
电子停止和电子声子耦合的统一模型,以更好地了解锆的辐射损伤
- 批准号:
576687-2022 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Alliance Grants
Reinforcement learning approach to the optimal stopping problem
最优停止问题的强化学习方法
- 批准号:
RGPIN-2021-02760 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual