Improving Sample Efficiency of Reinforcement Learning

提高强化学习的样本效率

基本信息

  • 批准号:
    2579743
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Studentship
  • 财政年份:
    2021
  • 资助国家:
    英国
  • 起止时间:
    2021 至 无数据
  • 项目状态:
    未结题

项目摘要

Deep reinforcement learning has had huge empirical success and is a major enabling technology for many applications of AI. However, recent RL algorithms still require millions of samples to obtain good performance. Since obtaining environment interactions is often costly and since challenging environments are rarely static, this inhibits many practical applications. This project will investigate ways of reducing this cost, aiming to find more sample-efficient RL algorithms. We aim for the algorithms to be deployable in realistic settings, where agents use deep networks to represent knowledge about the environment. It is also likely to lead to improved performance of other systems making automated decisions. Research StrategyThe project will investigate two main avenues for improving sample efficiency. Firstly, using a Bayesian framework to gain additional information from samples, we hope to achieve improved exploration which will in turn lead to more informative samples. Secondly, using meta-learning, we hope to enable generalisation, reducing the amount of samples required to learn a task which is similar to other learned tasks.Objectives and ApplicationsWe aim to develop more sample efficient reinforcement learning algorithms and to gain new insights about exploration. The project will be carried out in collaboration with Microsoft Research Cambridge and will have immediate relevance for their computer games research, particularly for training game AI in complex worlds where samples are expensive. The project will have wider applications for any problem which involves decision making with limited data, including real world applications such as robotics and pricing strategies.
深度强化学习已经取得了巨大的经验成功,是人工智能许多应用的主要支持技术。然而,最近的强化学习算法仍然需要数百万个样本才能获得良好的性能。由于获得环境交互通常成本高昂,并且具有挑战性的环境很少是静态的,这抑制了许多实际应用。该项目将研究降低成本的方法,旨在找到样本效率更高的强化学习算法。我们的目标是让算法能够在现实环境中部署,其中代理使用深度网络来表示有关环境的知识。它还可能导致其他系统做出自动化决策的性能提高。研究策略该项目将研究提高样本效率的两个主要途径。首先,使用贝叶斯框架从样本中获取额外信息,我们希望实现改进的探索,从而获得更多信息的样本。其次,使用元学习,我们希望能够实现泛化,减少学习与其他学习任务类似的任务所需的样本量。目标和应用我们的目标是开发更多样本有效的强化学习算法,并获得有关探索的新见解。该项目将与微软剑桥研究院合作开展,并将与其计算机游戏研究直接相关,特别是在样本昂贵的复杂世界中训练游戏人工智能。该项目将对涉及有限数据决策的任何问题有更广泛的应用,包括机器人和定价策略等现实世界的应用。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

其他文献

吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
生命分子工学・海洋生命工学研究室
生物分子工程/海洋生物技术实验室
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:

的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('', 18)}}的其他基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    --
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship

相似海外基金

CAREER: Statistical Power Analysis and Optimal Sample Size Planning for Longitudinal Studies in STEM Education
职业:STEM 教育纵向研究的统计功效分析和最佳样本量规划
  • 批准号:
    2339353
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Sample Size calculations for UPDATing clinical prediction models to Ensure their accuracy and fairness in practice (SS-UPDATE)
用于更新临床预测模型的样本量计算,以确保其在实践中的准确性和公平性(SS-UPDATE)
  • 批准号:
    MR/Z503873/1
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Research Grant
Sample-to-Answerを実現する多検体・多項目遺伝子検査システムの開発
开发多样本、多项目基因检测系统,实现样本到答案
  • 批准号:
    24K00776
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Cryogen Free Split Pair Magnet Cryostat with Optical Access and Automated Sample Rotation
具有光学接入和自动样品旋转功能的无制冷剂分裂对磁体低温恒温器
  • 批准号:
    531527874
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Major Research Instrumentation
RAPID: DRL AI: Understanding Perceptions and Use of AI in K-12 Education Using a Nationally Representative Sample
RAPID:DRL AI:使用全国代表性样本了解 K-12 教育中 AI 的认知和使用
  • 批准号:
    2334172
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Bayesian Methods for Sample Size Re-estimation
样本量重新估计的贝叶斯方法
  • 批准号:
    2884699
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Studentship
Advanced Sample Preparation, Separation and Multiplexed Analysis for In-Depth Proteome Profiling of >1000 Single Cells Per Day
先进的样品制备、分离和多重分析,每天对超过 1000 个单细胞进行深入的蛋白质组分析
  • 批准号:
    10642310
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Mass spectrometry for highly sensitive and sample-sparing analysis of extracellular vesicles in liver diseases
用于肝脏疾病细胞外囊泡高灵敏度和样品节省分析的质谱法
  • 批准号:
    10736006
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
ECHO Laboratory Core at Vanderbilt for Integrated Sample Biobanking and Processing
范德堡大学 ECHO 实验室核心,用于集成样本生物库和处理
  • 批准号:
    10745188
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
A Sample-to-Answer Point-of-Care Diagnostic for Recently Transfused Sickle Cell Anemia Patients in Low Resource Settings
针对资源匮乏地区最近输血的镰状细胞性贫血患者的从样本到答案的护理点诊断
  • 批准号:
    10564553
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了