An Adaptive Robust Dynamic Programming Approach for Decision Making under Model Uncertainty

模型不确定性下决策的自适应鲁棒动态规划方法

基本信息

  • 批准号:
    2440945
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Studentship
  • 财政年份:
    2020
  • 资助国家:
    英国
  • 起止时间:
    2020 至 无数据
  • 项目状态:
    未结题

项目摘要

In many real-world problems an agent must make decisions in an environment that is only partially known. By interacting with the world, the decision-maker is able to obtain more information about the system which allows for more educated choices in the future. Hence, a common characteristic of these problems is that the decision-maker can choose between decisions that lead to a fairly risk-free, high immediate reward, and more risky decisions which may be worse, but may provide the agent with previously unseen information about their environment. In the field of Reinforcement Learning this dilemma is commonly referred to as the "exploration-exploitation trade-off," and is an area of active research.A fundamental challenge in understanding the exploration-exploitation trade-off is that one needs to measure the information gain "learned" by the agent, and to be able to understand how this information develops over time. Classically, this can be done in a Bayesian framework. However, the Bayesian framework requires an initial set of beliefs, and in practice, these may be imprecise. An alternative approach is to make decisions based on outcomes under worst-case scenarios, however this approach lacks the ability to account for learning.In this project we aim to combine the best of both worlds by considering an adaptive (i.e. can incorporate learning), robust (i.e. accounting for uncertainty in the setup) framework for stochastic control problems featuring model uncertainty. Our starting point is the framework of Bielecki et al. (2017), who considered an adaptive, robust approach to a stochastic control problem related to an investment problem. We will attempt to apply their approach to the Newsvendor problem. The Newsvendor problem is a simple stochastic control problem that involves learning. In this problem, an agent (the newsvendor) must choose the number of newspapers to stock for the next period before observing the number of newspapers sold, and is encouraged to learn the distribution of the demand for newspapers, whilst minimising the cost due to unused stock, or unmet demand. As the current choice of stock will affect future outcomes due to differences in information about the number of sales observed, solving such problems requires understanding how the agent's beliefs will change in the future. We hope to construct approximation arguments based on the theory of Optimal Transport in order to reduce the complexity of the problem. Other possible aims of the project include generalising results that are currently known only in very special settings (e.g. from Y.-T. Chuang, 2019) which precisely quantify the surplus in stock used only for the sake of learning.The interest in the Newsvendor model is primarily on account of its mathematical tractability, and the strong dependence of the information acquired on the decisions made by the agent. We expect the principles to be more widely applicable to many RL examples, and may thus contribute more broadly to future developments in Reinforcement Learning.
在许多现实世界的问题中,智能体必须在部分已知的环境中做出决策。通过与外界的互动,决策者能够获得有关系统的更多信息,从而在未来做出更明智的选择。因此,这些问题的一个共同特征是,决策者可以在导致相当无风险、高即时回报的决策和风险更大的决策之间做出选择,这些决策可能更糟,但可能向代理提供有关其环境的先前未见过的信息。在强化学习领域,这种困境通常被称为“探索-利用的权衡”,是一个活跃的研究领域。理解探索-利用权衡的一个基本挑战是,人们需要衡量智能体“学到”的信息增益,并能够理解这些信息是如何随着时间的推移而发展的。通常,这可以在贝叶斯框架中完成。然而,贝叶斯框架需要一组初始信念,而在实践中,这些信念可能是不精确的。另一种方法是根据最坏情况下的结果做出决定,然而这种方法缺乏解释学习的能力。在这个项目中,我们的目标是通过考虑一个自适应(即可以结合学习),鲁棒(即考虑设置中的不确定性)框架来结合两个世界的优点,以解决具有模型不确定性的随机控制问题。我们的出发点是Bielecki等人(2017)的框架,他们考虑了一种自适应的鲁棒方法来解决与投资问题相关的随机控制问题。我们将尝试应用他们的方法来解决报贩问题。报贩问题是一个涉及学习的简单随机控制问题。在这个问题中,代理商(报贩)必须在观察报纸销售量之前选择下一时期的报纸库存数量,并被鼓励了解报纸需求的分布,同时最小化由于未使用库存或未满足需求而导致的成本。由于观察到的销售数量信息的差异,当前的股票选择会影响未来的结果,解决这类问题需要了解代理的信念在未来会如何变化。为了降低问题的复杂性,我们希望在最优传输理论的基础上构造近似参数。该项目的其他可能目标包括推广目前仅在非常特殊的情况下(例如,从y - t)才知道的结果。Chuang, 2019),它精确地量化了仅用于学习的库存盈余。人们对报贩模型的兴趣主要是由于其数学上的可追溯性,以及获取的信息对代理所做决策的强烈依赖。我们希望这些原则能够更广泛地适用于许多强化学习的例子,从而可能对强化学习的未来发展做出更广泛的贡献。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

其他文献

吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
生命分子工学・海洋生命工学研究室
生物分子工程/海洋生物技术实验室
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:

的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('', 18)}}的其他基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    --
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship

相似国自然基金

供应链管理中的稳健型(Robust)策略分析和稳健型优化(Robust Optimization )方法研究
  • 批准号:
    70601028
  • 批准年份:
    2006
  • 资助金额:
    7.0 万元
  • 项目类别:
    青年科学基金项目
心理紧张和应力影响下Robust语音识别方法研究
  • 批准号:
    60085001
  • 批准年份:
    2000
  • 资助金额:
    14.0 万元
  • 项目类别:
    专项基金项目
ROBUST语音识别方法的研究
  • 批准号:
    69075008
  • 批准年份:
    1990
  • 资助金额:
    3.5 万元
  • 项目类别:
    面上项目
改进型ROBUST序贯检测技术
  • 批准号:
    68671030
  • 批准年份:
    1986
  • 资助金额:
    2.0 万元
  • 项目类别:
    面上项目

相似海外基金

VIPAuto: Robust and Adaptive Visual Perception for Automated Vehicles in Complex Dynamic Scenes
VIPAuto:复杂动态场景中自动驾驶车辆的鲁棒自适应视觉感知
  • 批准号:
    EP/Y015878/1
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Fellowship
SaTC: CORE: Small: Collaborative: Learning Dynamic and Robust Defenses Against Co-Adaptive Spammers
SaTC:核心:小型:协作:学习针对自适应垃圾邮件发送者的动态且强大的防御
  • 批准号:
    1931042
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
SaTC: CORE: Small: Collaborative: Learning Dynamic and Robust Defenses Against Co-Adaptive Spammers
SaTC:核心:小型:协作:学习针对自适应垃圾邮件发送者的动态且强大的防御
  • 批准号:
    1930941
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
An investigation into novel strategies for adaptive, intelligent and robust control of autonomous robots through the study of dynamic interactions bet
通过动态交互赌注的研究,研究自主机器人自适应、智能和鲁棒控制的新策略
  • 批准号:
    1803462
  • 财政年份:
    2016
  • 资助金额:
    --
  • 项目类别:
    Studentship
Biologically-Inspired Robust Adaptive Dynamic Programming for Continuous-Time Stochastic Systems
连续时间随机系统的受生物学启发的鲁棒自适应动态规划
  • 批准号:
    1501044
  • 财政年份:
    2015
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Collaborative Research: A Distributed Approximate Dynamic Programming Approach for Robust Adaptive Control of Multiscale Dynamical Systems
协作研究:多尺度动力系统鲁棒自适应控制的分布式近似动态规划方法
  • 批准号:
    1556900
  • 财政年份:
    2015
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Collaborative Research: A Distributed Approximate Dynamic Programming Approach for Robust Adaptive Control of Multiscale Dynamical Systems
协作研究:多尺度动力系统鲁棒自适应控制的分布式近似动态规划方法
  • 批准号:
    1408022
  • 财政年份:
    2014
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Collaborative Research: A Distributed Approximate Dynamic Programming Approach for Robust Adaptive Control of Multiscale Dynamical Systems
协作研究:多尺度动力系统鲁棒自适应控制的分布式近似动态规划方法
  • 批准号:
    1406224
  • 财政年份:
    2014
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Robust Adaptive Critic Neural Network Control of a Class of Nonlinear Dynamic Systems
一类非线性动态系统的鲁棒自适应批评神经网络控制
  • 批准号:
    0621924
  • 财政年份:
    2006
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Robust and/or Adaptive Neural Networks for Dynamic System Identification
用于动态系统识别的鲁棒和/或自适应神经网络
  • 批准号:
    0114619
  • 财政年份:
    2001
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了