Data- and model-based Reinforcement Learning for Performance, Requirements, and Multi-Agent setups

针对性能、需求和多代理设置的基于数据和模型的强化学习

基本信息

  • 批准号:
    2242815
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Studentship
  • 财政年份:
    2019
  • 资助国家:
    英国
  • 起止时间:
    2019 至 无数据
  • 项目状态:
    已结题

项目摘要

Brief description of the context of the research including potential impact:Despite many recent successes in the field of AI, AI systems can still only solve a narrow set of tasks in a restricted environment. Reinforcement learning (RL) is a machine learning technique that holds promise for achieving generality because almost all real-world cognitive tasks can be cast as a reinforcement learning problem. This is one where an agent is coupled with an environment and gets reward according to which action it takes in each situation. The agent must decide on a policy of actions to maximise its expected cumulative future reward. Two key shortcomings limiting the applications of current RL systems are reward misspecification and inefficient sampling. Reward misspecification refers to the fact that it is difficult for a user to codify exactly what they want in an objective function. This can result in negative side effects or 'reward hacking' where an agent learns to exploit a loophole in the objective function to gain reward for undesired behaviours. RL's inefficient sampling refers to the fact that RL agents must currently acquire vast amounts of experience before reaching any degree of competence at a task. Inverse Reinforcement Learning (IRL) and Active Learning try to address these shortcomings. IRL seeks to determine the objective function given observations of optimal behaviour. Several approaches to IRL have recently been put forward including Maximum entropy IRL, Cooperative IRL and Bayesian IRL. The idea behind Active Learning is that if one prioritises training on data, trajectories, or samples that would result in the greatest learning effect, then one can significantly increase the sample efficiency of learning systems (including RL agents or IRL algorithms). By addressing shortcomings in existing RL systems, I will be advancing and expediting the project of creating safe and scalable RL systems to tackle real world problems and benefit humanity. Aims and Objectives:- Develop novel approaches to combat reward misspecification and sampling inefficiencies.- Extend existing frameworks to multi-agent settings.Novelty of the research methodology:AI safety is a nascent field which aims to address potential near-, medium-, and long-term risks of AI technologies. Current AI concerns include social media, algorithmic bias, security, and privacy, and as the applications of AI become more powerful and pervasive, it is clear that research progress should be seen through a safety lens. With an eye on safety, we hope to improve upon existing RL approaches and extend existing frameworks to multi-agent settings.Alignment to EPSRC's strategies and research areas: - Artificial Intelligence technologies- Statistics and applied probability- Theoretical Computer ScienceCompanies or collaborators involved: None
简要描述研究背景,包括潜在影响:尽管最近在人工智能领域取得了许多成功,但人工智能系统仍然只能在有限的环境中解决一组狭窄的任务。强化学习(RL)是一种机器学习技术,它有望实现通用性,因为几乎所有现实世界的认知任务都可以被视为强化学习问题。在这种情况下,代理与环境相结合,并根据其在每种情况下采取的行动获得奖励。代理必须决定一个行动策略,以最大化其预期的累积未来回报。限制当前强化学习系统应用的两个主要缺点是奖励规格错误和采样效率低下。奖励错误规范指的是用户很难准确地在目标函数中编写他们想要的东西。这可能会导致消极的副作用或“奖励黑客”,即代理学会利用目标函数中的漏洞来为不希望的行为获得奖励。强化学习的低效率采样指的是,强化学习代理目前必须获得大量的经验,才能达到任何程度的任务能力。逆强化学习(IRL)和主动学习试图解决这些缺点。IRL寻求在给定最佳行为观察的情况下确定目标函数。近年来,人们提出了几种IRL方法,包括最大熵IRL、合作IRL和贝叶斯IRL。主动学习背后的想法是,如果一个人优先考虑能够产生最大学习效果的数据、轨迹或样本的训练,那么他就可以显著提高学习系统(包括RL代理或IRL算法)的样本效率。通过解决现有强化学习系统的缺点,我将推进和加快创建安全和可扩展的强化学习系统的项目,以解决现实世界的问题,造福人类。目标和目标:-开发新的方法来解决奖励错误和抽样效率低下的问题。-将现有框架扩展到多代理设置。研究方法的新颖性:人工智能安全是一个新兴领域,旨在解决人工智能技术潜在的近期、中期和长期风险。目前对人工智能的担忧包括社交媒体、算法偏见、安全和隐私,随着人工智能的应用变得越来越强大和普遍,很明显,应该从安全的角度来看待研究进展。考虑到安全性,我们希望改进现有的强化学习方法,并将现有框架扩展到多智能体设置。与EPSRC的战略和研究领域保持一致:-人工智能技术-统计和应用概率-理论计算机科学参与公司或合作者:无

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

其他文献

吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
生命分子工学・海洋生命工学研究室
生物分子工程/海洋生物技术实验室
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:

的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('', 18)}}的其他基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    --
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship

相似国自然基金

基于术中实时影像的SAM(Segment anything model)开发AI指导房间隔穿刺位置决策的增强现实模型
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
运用3D打印和生物反应器构建仿生尿道模型探索Hippo-YAP信号通路调控尿道损伤修复的机制研究
  • 批准号:
    82370684
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
基于影像代谢重塑可视化的延胡索酸水合酶缺陷型肾癌危险性分层模型的研究
  • 批准号:
    82371912
  • 批准年份:
    2023
  • 资助金额:
    48.00 万元
  • 项目类别:
    面上项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
半参数空间自回归面板模型的有效估计与应用研究
  • 批准号:
    71961011
  • 批准年份:
    2019
  • 资助金额:
    16.0 万元
  • 项目类别:
    地区科学基金项目
高频数据波动率统计推断、预测与应用
  • 批准号:
    71971118
  • 批准年份:
    2019
  • 资助金额:
    50.0 万元
  • 项目类别:
    面上项目
人胆囊源CD63+细胞的干性特征与分化特性的研究
  • 批准号:
    31970753
  • 批准年份:
    2019
  • 资助金额:
    52.0 万元
  • 项目类别:
    面上项目
基于线性及非线性模型的高维金融时间序列建模:理论及应用
  • 批准号:
    71771224
  • 批准年份:
    2017
  • 资助金额:
    49.0 万元
  • 项目类别:
    面上项目
应用Agent-Based-Model研究围术期单剂量地塞米松对手术切口愈合的影响及机制
  • 批准号:
    81771933
  • 批准年份:
    2017
  • 资助金额:
    50.0 万元
  • 项目类别:
    面上项目
凯莱流形上的几何流
  • 批准号:
    11771301
  • 批准年份:
    2017
  • 资助金额:
    48.0 万元
  • 项目类别:
    面上项目

相似海外基金

A machine learning model to assess the presence and severity of knee osteoarthritis based on gait data features
基于步态数据特征评估膝骨关节炎的存在和严重程度的机器学习模型
  • 批准号:
    23K16611
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Integrative Data Science Approach to Advance Care Coordination of ADRD by Primary Care Providers
综合数据科学方法促进初级保健提供者对 ADRD 的护理协调
  • 批准号:
    10722568
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Brain Digital Slide Archive: An Open Source Platform for data sharing and analysis of digital neuropathology
Brain Digital Slide Archive:数字神经病理学数据共享和分析的开源平台
  • 批准号:
    10735564
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Elucidation of novel mechanisms of chronic pain using model animals created based on chronic pain patient data
使用根据慢性疼痛患者数据创建的模型动物阐明慢性疼痛的新机制
  • 批准号:
    23H03003
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Inferring Kinase Activity from Tumor Phosphoproteomic Data
从肿瘤磷酸化蛋白质组数据推断激酶活性
  • 批准号:
    10743051
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Improving data-driven design using physical model-based machine learning
使用基于物理模型的机器学习改进数据驱动设计
  • 批准号:
    23K13239
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Sampling The Environment: Model And Design-based Sampling And Data Analysis
环境采样:基于模型和设计的采样和数据分析
  • 批准号:
    NE/Y003632/1
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Training Grant
DeepGreen: A Deep Learning Based Tree-Ring Width Data Model for Paleoclimatic Data Assimilation
DeepGreen:基于深度学习的树木年轮宽度数据模型,用于古气候数据同化
  • 批准号:
    2303530
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
SCH: Multidimensional Data Science Approach: Measuring and Characterizing Craving and Affective Profiles in Substance Use Disorders
SCH:多维数据科学方法:测量和表征药物使用障碍中的渴望和情感特征
  • 批准号:
    10816923
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Mining minority enriched AllofUs data for innovative ethnic specific risk prediction modeling
挖掘少数族裔丰富的 AllofUs 数据,用于创新的种族特定风险预测模型
  • 批准号:
    10798514
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了