RI: Small: Non-parametric Approximate Dynamic Programming for Continuous Domains
RI:小:连续域的非参数近似动态规划
基本信息
- 批准号:1218931
- 负责人:
- 金额:$ 45万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2012
- 资助国家:美国
- 起止时间:2012-08-01 至 2018-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
This project concerns a machine learning technique known as reinforcement learning, which is related to, but distinct from, the notion of reinforcement learning used in psychology. The common element is that both views study changes in behavior that result from experience. In the machine learning case, the behaviors are often decision making in dynamic environments, such as controlling a robot, a factory, inventory levels for a warehouse or even drug dosage levels. Current theoretical development in this area guarantees that optimal decisions can be made by reinforcement learning algorithms, but only under restrictive assumptions that are difficult to ensure in practice. Efforts to apply reinforcement learning to significant practical problems have enjoyed some success, but such efforts often forgo theoretical guarantees and rely upon tedious parameter adjustments by experts (human trial and error) to achieve success.This research seeks to reduce the amount of human trial and error needed to make reinforcement learning successful, thereby making it a more accessible tool to a wider range of people. Specifically, it will focus on algorithms for domains described by continuous variables, seeking to provide stronger theoretical guarantees for such domains as well as an approach that balances the anticipated benefit of trying new things with the benefit of sticking to what is already known about a problem (exploration vs. exploitation). A practical benefit of success in this area would be improved techniques that make it easier for people to deploy algorithms that learn and improve performance in a variety of practical tasks like those mentioned above: robot or factory control, inventory management, or drug delivery.This project plans to use a model helicopter as a challenge domain, but it is not about helicopter control per se. Rather, it seeks to develop general techniques that can apply to many problems, including helicopters, and will use model helicopters as an inexpensive and fun way to motivate students. The project aims to develop a model helicopter simulator (to reduce the cost and risk of trying everything on an actual helicopter) and plans to make this simulator available to the research community, providing a fun and challenging benchmark problem.
这个项目涉及一种被称为强化学习的机器学习技术,它与心理学中使用的强化学习的概念有关,但又不同。共同的元素是,这两种观点都研究了由经验导致的行为变化。在机器学习的情况下,行为通常是在动态环境中做出决策,例如控制机器人、工厂、仓库的库存水平,甚至药物剂量水平。目前这一领域的理论发展保证了强化学习算法可以做出最优决策,但只有在实践中难以确保的限制性假设下才能做出最优决策。将强化学习应用于重大实际问题的努力已经取得了一些成功,但这种努力往往放弃了理论上的保证,而依赖于专家乏味的参数调整(人类试验和错误)来取得成功。本研究试图减少使强化学习成功所需的人类试验和错误的量,从而使其成为更广泛的人更容易获得的工具。具体地说,它将专注于由连续变量描述的领域的算法,寻求为这些领域提供更强有力的理论保证,以及一种平衡尝试新事物的预期好处与坚持已知问题(探索与利用)的好处的方法。这一领域成功的一个实际好处是改进的技术,使人们更容易在各种实际任务中部署学习算法并提高性能,如上面提到的那些:机器人或工厂控制、库存管理或药品运送。该项目计划使用模型直升机作为挑战领域,但它与直升机控制本身无关。相反,它寻求开发可以应用于许多问题的通用技术,包括直升机,并将使用模型直升机作为一种廉价而有趣的方式来激励学生。该项目旨在开发一个模型直升机模拟器(以降低在实际直升机上尝试一切的成本和风险),并计划将该模拟器提供给研究界,提供一个有趣和具有挑战性的基准问题。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Ronald Parr其他文献
Amazing Things Come From Having Many Good Models
令人惊奇的事情来自于拥有许多好的模型
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
Cynthia Rudin;Chudi Zhong;Lesia Semenova;Margo Seltzer;Ronald Parr;Jiachang Liu;Srikar Katta;Jon Donnelly;Harry Chen;Zachery Boner - 通讯作者:
Zachery Boner
An Optimal Tightness Bound for the Simulation Lemma
模拟引理的最优紧界
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Sam Lobel;Ronald Parr - 通讯作者:
Ronald Parr
Ronald Parr的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Ronald Parr', 18)}}的其他基金
RI: Small: Feature Encoding for Reinforcement Learning
RI:小型:强化学习的特征编码
- 批准号:
1815300 - 财政年份:2018
- 资助金额:
$ 45万 - 项目类别:
Continuing Grant
EAGER: Collaborative Research: An Unified Learnable Roadmap for Sequential Decision Making in Relational Domains
EAGER:协作研究:关系领域顺序决策的统一可学习路线图
- 批准号:
1836575 - 财政年份:2018
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
EAGER: IIS: RI: Learning in Continuous and High Dimensional Action Spaces
EAGER:IIS:RI:在连续和高维行动空间中学习
- 批准号:
1147641 - 财政年份:2011
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
Collaborative: RI: Feature Discovery and Benchmarks for Exportable Reinforcement Learning
协作:RI:可导出强化学习的特征发现和基准
- 批准号:
0713435 - 财政年份:2007
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
CAREER: Observing to Plan - Planning to Observe
职业生涯:观察到计划 - 计划到观察
- 批准号:
0546709 - 财政年份:2006
- 资助金额:
$ 45万 - 项目类别:
Continuing Grant
Prediction and Planning: Bridging the Gap
预测和规划:弥合差距
- 批准号:
0209088 - 财政年份:2002
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
NSF-AoF: RI: Small: Safe Reinforcement Learning in Non-Stationary Environments With Fast Adaptation and Disturbance Prediction
NSF-AoF:RI:小型:具有快速适应和干扰预测功能的非平稳环境中的安全强化学习
- 批准号:
2133656 - 财政年份:2021
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: Non-parametric Machine Learning in the Age of Deep and High-Dimensional Models
RI:小:深度和高维模型时代的非参数机器学习
- 批准号:
1909816 - 财政年份:2019
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: Understanding Subtle Non-Social Facial Expressivity to Boost Learning and Computer Interaction
RI:小:理解微妙的非社交面部表情以促进学习和计算机交互
- 批准号:
1911197 - 财政年份:2019
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: ConnotationNet: Modeling Non-Literal Meaning in Context
RI:小:ConnotationNet:在上下文中建模非字面意义
- 批准号:
1714566 - 财政年份:2017
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: Collaborative Research: On-Line Learning Algorithms for Path Experts with Non-Additive Losses
RI:小型:协作研究:具有非加性损失的路径专家的在线学习算法
- 批准号:
1618662 - 财政年份:2016
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: Collaborative Research: On-Line Learning Algorithms for Path Experts with Non-Additive Losses
RI:小型:协作研究:具有非加性损失的路径专家的在线学习算法
- 批准号:
1619271 - 财政年份:2016
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: Inferring Non-Rigid Geometry from Object Categories
RI:小:从对象类别推断非刚性几何
- 批准号:
1526033 - 财政年份:2015
- 资助金额:
$ 45万 - 项目类别:
Continuing Grant
RI: SMALL: Modeling Voice Source Transformation in Monolingual and Crosslingual Non-parallel Voice Conversion Applications
RI:SMALL:对单语言和跨语言非并行语音转换应用中的语音源转换进行建模
- 批准号:
1116475 - 财政年份:2011
- 资助金额:
$ 45万 - 项目类别:
Continuing Grant
RI: Small: Interactive Perception for Manipulating Non-Rigid Objects
RI:小:操纵非刚性物体的交互式感知
- 批准号:
1017007 - 财政年份:2010
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: Semi-Supervised Learning for Non-Experts
RI:小型:非专家的半监督学习
- 批准号:
0916038 - 财政年份:2009
- 资助金额:
$ 45万 - 项目类别:
Standard Grant














{{item.name}}会员




