Collaborative Research: Towards the Foundation of Approximate Sampling-Based Exploration in Sequential Decision Making
协作研究:为顺序决策中基于近似采样的探索奠定基础
基本信息
- 批准号:2323113
- 负责人:
- 金额:$ 30万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-10-01 至 2026-09-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Sequential decision-making problems, such as bandits and reinforcement learning, play a crucial role in various AI applications, including recommendation systems, robotics, games, and personalized healthcare. The main challenge lies in finding the optimal exploration strategy that strikes a balance between choosing actions with the best performance and choosing actions with high uncertainties. However, existing exploration strategies heavily depend on specific cases, requiring prior knowledge of reward distribution, function approximation, and the task at hand. This creates computational obstacles and hampers real-world applicability. This project aims to establish a theoretical foundation for using approximate sampling-based techniques to unify exploration strategies across different sequential decision problems. The goal is to develop efficient and provable algorithms applicable to diverse learning problems under a unified algorithmic framework based on approximate sampling. This project also provides research training opportunities for graduate students. The project consists of three tasks. Task one focuses on developing fast approximate sampling-based exploration strategies for contextual bandit problems, accompanied by theoretical guarantees. Task two involves implementing and generalizing these exploration algorithms to more complex sequential decision-making applications, leveraging deep neural networks. Task three aims to establish efficient and provably effective exploration strategies for reinforcement learning problems. These advancements will be translated into accessible tools for various bandit and reinforcement learning applications, providing verifiable guarantees. The open-source software and course materials resulting from this project will be made publicly available, benefiting research, education, and society at large.This award by the Division of Mathematical Sciences is jointly supported by the NSF Office of Advanced Cyberinfrastructure.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
顺序决策问题,如强盗和强化学习,在各种人工智能应用中发挥着至关重要的作用,包括推荐系统,机器人,游戏和个性化医疗保健。主要的挑战在于找到最优的探索策略,在选择具有最佳性能的行动和选择具有高不确定性的行动之间取得平衡。然而,现有的探索策略在很大程度上依赖于特定的情况下,需要先验知识的奖励分布,函数逼近,和手头的任务。这造成了计算障碍,并阻碍了现实世界的适用性。该项目旨在建立一个理论基础,使用近似抽样为基础的技术,统一探索策略,在不同的顺序决策问题。我们的目标是开发有效的和可证明的算法,适用于不同的学习问题在一个统一的算法框架下,基于近似采样。该项目还为研究生提供了研究培训机会。 该项目包括三项任务。任务一的重点是发展快速近似抽样为基础的探索策略上下文强盗问题,伴随着理论保证。任务二涉及利用深度神经网络将这些探索算法实现和推广到更复杂的顺序决策应用程序。任务三旨在为强化学习问题建立有效且可证明有效的探索策略。这些进步将转化为各种强盗和强化学习应用程序的可访问工具,提供可验证的保证。该项目产生的开源软件和课程材料将公开提供,使研究、教育和整个社会受益。该奖项由数学科学部颁发,并得到NSF高级网络基础设施办公室的共同支持。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Quanquan Gu其他文献
Different patterns of gray matter density in early- and middle-late-onset Parkinson’s disease a voxel-based morphometry study
早发和中晚发帕金森病灰质密度的不同模式:基于体素的形态测量研究
- DOI:
10.1007/s11682-017-9745-4 - 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Min Xuan;Xiaojun Guan;Peiyu Huang;Zhujing Shen;Quanquan Gu;Xinfeng Yu;Xiaojun Xu;Wei Luo;Minming Zhang - 通讯作者:
Minming Zhang
Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback
来自对抗性反馈的上下文决斗强盗的近乎最优算法
- DOI:
10.48550/arxiv.2404.10776 - 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Qiwei Di;Jiafan He;Quanquan Gu - 通讯作者:
Quanquan Gu
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
用于文本到图像生成的扩散模型的自玩微调
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Huizhuo Yuan;Zixiang Chen;Kaixuan Ji;Quanquan Gu - 通讯作者:
Quanquan Gu
Provable Multi-Objective Reinforcement Learning with Generative Models
可证明的多目标强化学习与生成模型
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
Dongruo Zhou;Jiahao Chen;Quanquan Gu - 通讯作者:
Quanquan Gu
Matching the Statistical Query Lower Bound for k-sparse Parity Problems with Stochastic Gradient Descent
使用随机梯度下降匹配 k 稀疏奇偶校验问题的统计查询下界
- DOI:
10.48550/arxiv.2404.12376 - 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Yiwen Kou;Zixiang Chen;Quanquan Gu;S. Kakade - 通讯作者:
S. Kakade
Quanquan Gu的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Quanquan Gu', 18)}}的其他基金
CPS: Medium: Collaborative Research: Provably Safe and Robust Multi-Agent Reinforcement Learning with Applications in Urban Air Mobility
CPS:中:协作研究:可证明安全且鲁棒的多智能体强化学习及其在城市空中交通中的应用
- 批准号:
2312094 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
III: Small: Towards the Foundations of Training Deep Neural Networks: New Theory and Algorithms
III:小:迈向训练深度神经网络的基础:新理论和算法
- 批准号:
2008981 - 财政年份:2020
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
CIF: Small: Collaborative Research: Rank Aggregation with Heterogeneous Information Sources: Efficient Algorithms and Fundamental Limits
CIF:小型:协作研究:异构信息源的排名聚合:高效算法和基本限制
- 批准号:
1911168 - 财政年份:2019
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: High-Dimensional Machine Learning Methods for Personalized Cancer Genomics
III:小:协作研究:个性化癌症基因组学的高维机器学习方法
- 批准号:
1903202 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
BIGDATA: F: Collaborative Research: Taming Big Networks via Embedding
BIGDATA:F:协作研究:通过嵌入驯服大网络
- 批准号:
1855099 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
CAREER: Scaling Up Knowledge Discovery in High-Dimensional Data Via Nonconvex Statistical Optimization
职业:通过非凸统计优化扩大高维数据中的知识发现
- 批准号:
1906169 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
BIGDATA: F: Collaborative Research: Taming Big Networks via Embedding
BIGDATA:F:协作研究:通过嵌入驯服大网络
- 批准号:
1741342 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
III: Small: Collaborative Learning with Incomplete and Noisy Knowledge
III:小:知识不完整且有噪音的协作学习
- 批准号:
1904183 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: High-Dimensional Machine Learning Methods for Personalized Cancer Genomics
III:小:协作研究:个性化癌症基因组学的高维机器学习方法
- 批准号:
1717206 - 财政年份:2017
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
CAREER: Scaling Up Knowledge Discovery in High-Dimensional Data Via Nonconvex Statistical Optimization
职业:通过非凸统计优化扩大高维数据中的知识发现
- 批准号:
1652539 - 财政年份:2017
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
相似国自然基金
复杂电子产品超精密加工及检测关键技术研究与应用
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于合成生物学的动物底盘品种优化及中试应用研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
运用组学整合技术探索萆薢分清散联合化疗治疗晚期胰腺癌的临床研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
九里香等提取物多靶向制剂抗肺癌的作用及机制研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
升血小板方治疗原发免疫性血小板减少症的临床研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
八髎穴微波热疗在女性膀胱过度活动症治疗中的价值研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于 miR-455-5p 介导的氧化应激机制探讨糖尿病视网膜病变中医分型治疗的临床研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于 UPLC-Q-TOF-MS/MS 分析的 异功散活性成分评价及提取工艺研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
无创电针对于痉挛型双瘫脑 瘫患儿的有效性与安全性研究:一项随机 单盲前瞻性队列研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
弹压式手法与体外冲击波治疗肱骨外上髁炎的对比研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
相似海外基金
Collaborative Research: Maritime to Inland Transitions Towards ENvironments for Convection Initiation (MITTEN CI)
合作研究:海洋到内陆向对流引发环境的转变(MITTEN CI)
- 批准号:
2349935 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
Collaborative Research: Maritime to Inland Transitions Towards ENvironments for Convection Initiation (MITTEN CI)
合作研究:海洋到内陆向对流引发环境的转变(MITTEN CI)
- 批准号:
2349934 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
Collaborative Research: Frameworks: MobilityNet: A Trustworthy CI Emulation Tool for Cross-Domain Mobility Data Generation and Sharing towards Multidisciplinary Innovations
协作研究:框架:MobilityNet:用于跨域移动数据生成和共享以实现多学科创新的值得信赖的 CI 仿真工具
- 批准号:
2411152 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: Maritime to Inland Transitions Towards ENvironments for Convection Initiation (MITTEN CI)
合作研究:海洋到内陆向对流引发环境的转变(MITTEN CI)
- 批准号:
2349936 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
Collaborative Research: Multiple Team Membership (MTM) through Technology: A path towards individual and team wellbeing?
协作研究:通过技术实现多重团队成员 (MTM):通往个人和团队福祉的道路?
- 批准号:
2345652 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: Frameworks: MobilityNet: A Trustworthy CI Emulation Tool for Cross-Domain Mobility Data Generation and Sharing towards Multidisciplinary Innovations
协作研究:框架:MobilityNet:用于跨域移动数据生成和共享以实现多学科创新的值得信赖的 CI 仿真工具
- 批准号:
2411153 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: Maritime to Inland Transitions Towards ENvironments for Convection Initiation (MITTEN CI)
合作研究:海洋到内陆向对流引发环境的转变(MITTEN CI)
- 批准号:
2349937 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
Collaborative Research: Multiple Team Membership (MTM) through Technology: A path towards individual and team wellbeing?
协作研究:通过技术实现多重团队成员 (MTM):通往个人和团队福祉的道路?
- 批准号:
2345651 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: Frameworks: MobilityNet: A Trustworthy CI Emulation Tool for Cross-Domain Mobility Data Generation and Sharing towards Multidisciplinary Innovations
协作研究:框架:MobilityNet:用于跨域移动数据生成和共享以实现多学科创新的值得信赖的 CI 仿真工具
- 批准号:
2411151 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: SaTC: CORE: Small: Towards Secure and Trustworthy Tree Models
协作研究:SaTC:核心:小型:迈向安全可信的树模型
- 批准号:
2413046 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Standard Grant