Using computer poker as a testbed for solving multiagent decision problems
使用计算机扑克作为解决多智能体决策问题的测试平台
基本信息
- 批准号:8191-2011
- 负责人:
- 金额:$ 2.11万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Discovery Grants Program - Individual
- 财政年份:2015
- 资助国家:加拿大
- 起止时间:2015-01-01 至 2016-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Games are used to advance multi-agent decision-making techniques. Many games are deterministic (no chance) with perfect information (all info visible to all agents) like Chess and Checkers. However, many real-world scenarios with competing agents are non-deterministic with imperfect information. For two-player zero-sum perfect recall games, a recent technique called Counterfactual Regret Minimization (CFR) computes strategies that are provably convergent to an epsilon-Nash equilibrium. A Nash equilibrium strategy is useful in two-player games since it maximizes its utility against a worst-case opponent.
We study two-agent non-deterministic imperfect information decision problems that have a many-valued parameter at many decision points. One example is no-limit poker where in addition to selecting a probability of taking each action, the bet and raise actions have an associated amount. Although this parameter is not continuous (measured in chips), there are so many values that using all valid discrete values generates a huge game tree. Other examples include a farmer deciding when to sell grain and how much to sell and a stock-trader deciding when to buy or sell and how much. We will create a new variation of CFR to solve this problem. We can already compute the optimal continuous parameter value under certain conditions for simple no-limit poker variations.
For multiplayer (three or more player) games, although we lose all theoretical guarantees, we used CFR to generate agents that won the 3-player events in the AAAI Annual Computer Poker Competition in 2009 and 2010. We will determine what characteristics of CFR-generated agents contribute to "good play". We believe that in 3-player games, computing Nash equilibria is unnecessary. We think that algorithms should focus on removing dominated strategies and our goal is to characterize CFR with respect to its ability to do this. After all dominated strategies have been eliminated, the algorithm must filter the remaining strategies to limit exploitability and exploit other agents. We will show that CFR (and some variations) can provide insights.
游戏被用来推进多智能体决策技术。许多游戏是确定性的(没有机会),具有完美的信息(所有信息对所有代理都可见),如国际象棋和跳棋。然而,许多现实世界中存在竞争代理的场景是不确定的,信息不完全。对于两人零和完美回忆游戏,最近一种名为反事实遗憾最小化(CFR)的技术计算出了可证明收敛于epsilon-Nash均衡的策略。纳什均衡策略在两人博弈中很有用,因为它最大化了对最坏情况下的对手的效用。
研究了多个决策点具有多个参数值的两智能体不确定不完全信息决策问题。一个例子是无限制扑克,其中除了选择采取每一种动作的概率外,下注和加注动作都有关联的金额。虽然这个参数不是连续的(以筹码为单位),但有太多的值,使用所有有效的离散值生成一个巨大的博弈树。其他例子包括农民决定何时出售粮食以及卖出多少,以及股票交易员决定何时买卖以及卖出多少。我们将创建一个新的CFR变体来解决这个问题。对于简单的无限制扑克变化,我们已经可以在一定条件下计算出最优连续参数值。
对于多人(三人或更多人)游戏,尽管我们失去了所有理论上的保证,但我们使用CFR生成了在2009年和2010年AAAI年度计算机扑克比赛中赢得三人比赛的代理。我们将确定CFR生成的代理的哪些特征有助于“良好发挥”。我们认为,在三人博弈中,计算纳什均衡是不必要的。我们认为,算法应该专注于消除主导策略,我们的目标是根据CFR做到这一点的能力来描述它的特征。在所有被支配的策略都被消除后,算法必须过滤剩余的策略以限制可利用性和利用其他代理。我们将展示CFR(和一些变体)可以提供洞察力。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Szafron, Duane其他文献
The Path-A metabolic pathway prediction web server
- DOI:
10.1093/nar/gkl228 - 发表时间:
2006-07-01 - 期刊:
- 影响因子:14.9
- 作者:
Pireddu, Luca;Szafron, Duane;Greiner, Russell - 通讯作者:
Greiner, Russell
Szafron, Duane的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Szafron, Duane', 18)}}的其他基金
Using computer poker as a testbed for solving multiagent decision problems
使用计算机扑克作为解决多智能体决策问题的测试平台
- 批准号:
8191-2011 - 财政年份:2014
- 资助金额:
$ 2.11万 - 项目类别:
Discovery Grants Program - Individual
Using computer poker as a testbed for solving multiagent decision problems
使用计算机扑克作为解决多智能体决策问题的测试平台
- 批准号:
8191-2011 - 财政年份:2013
- 资助金额:
$ 2.11万 - 项目类别:
Discovery Grants Program - Individual
Using computer poker as a testbed for solving multiagent decision problems
使用计算机扑克作为解决多智能体决策问题的测试平台
- 批准号:
8191-2011 - 财政年份:2012
- 资助金额:
$ 2.11万 - 项目类别:
Discovery Grants Program - Individual
Using computer poker as a testbed for solving multiagent decision problems
使用计算机扑克作为解决多智能体决策问题的测试平台
- 批准号:
8191-2011 - 财政年份:2011
- 资助金额:
$ 2.11万 - 项目类别:
Discovery Grants Program - Individual
Generative patterns - higher level programming
生成模式 - 高级编程
- 批准号:
8191-2006 - 财政年份:2010
- 资助金额:
$ 2.11万 - 项目类别:
Discovery Grants Program - Individual
Generative patterns - higher level programming
生成模式 - 高级编程
- 批准号:
8191-2006 - 财政年份:2009
- 资助金额:
$ 2.11万 - 项目类别:
Discovery Grants Program - Individual
Generative patterns - higher level programming
生成模式 - 高级编程
- 批准号:
8191-2006 - 财政年份:2008
- 资助金额:
$ 2.11万 - 项目类别:
Discovery Grants Program - Individual
Generative patterns - higher level programming
生成模式 - 高级编程
- 批准号:
8191-2006 - 财政年份:2007
- 资助金额:
$ 2.11万 - 项目类别:
Discovery Grants Program - Individual
Generative patterns - higher level programming
生成模式 - 高级编程
- 批准号:
8191-2006 - 财政年份:2006
- 资助金额:
$ 2.11万 - 项目类别:
Discovery Grants Program - Individual
Proteome analyst servers
蛋白质组分析服务器
- 批准号:
329930-2006 - 财政年份:2005
- 资助金额:
$ 2.11万 - 项目类别:
Research Tools and Instruments - Category 1 (<$150,000)
相似国自然基金
基于多重计算全息片(Computer-generated Hologram,CGH)的光学非球面干涉绝对检验方法研究
- 批准号:62375132
- 批准年份:2023
- 资助金额:54.00 万元
- 项目类别:面上项目
Journal of Computer Science and Technology
- 批准号:61224001
- 批准年份:2012
- 资助金额:20.0 万元
- 项目类别:专项基金项目
普适计算环境下基于交互迁移与协作的智能人机交互研究
- 批准号:61003219
- 批准年份:2010
- 资助金额:7.0 万元
- 项目类别:青年科学基金项目
Journal of Computer Science and Technology
- 批准号:61040017
- 批准年份:2010
- 资助金额:4.0 万元
- 项目类别:专项基金项目
基于磷酸二酯酶IV结构的抑制剂的设计与动态组合合成
- 批准号:30500633
- 批准年份:2005
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Scalable and Automated Tuning of Spin-based Quantum Computer Architectures
基于自旋的量子计算机架构的可扩展和自动调整
- 批准号:
2887634 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Studentship
Creating a Path to Achieving Success and Sense of Belonging in Computer Science
创造一条在计算机科学领域取得成功和归属感的道路
- 批准号:
2322665 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Standard Grant
Learning to create Intelligent Solutions with Machine Learning and Computer Vision: A Pathway to AI Careers for Diverse High School Students
学习利用机器学习和计算机视觉创建智能解决方案:多元化高中生的人工智能职业之路
- 批准号:
2342574 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Standard Grant
CAREER: Efficient Algorithms for Modern Computer Architecture
职业:现代计算机架构的高效算法
- 批准号:
2339310 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Continuing Grant
Developing and Testing Innovations: Computer Science Through Engineering Design in New York
开发和测试创新:纽约的工程设计中的计算机科学
- 批准号:
2341962 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Standard Grant
2024 - 2025 National Science Foundation (NSF) Computer and Information Science and Engineering (CISE) Research Experiences for Undergraduates (REU) Principal Investigator Workshops
2024 - 2025 美国国家科学基金会 (NSF) 计算机与信息科学与工程 (CISE) 本科生研究经验 (REU) 首席研究员研讨会
- 批准号:
2407231 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Continuing Grant
Collaborative Research: CHIPS: TCUP Cyber Consortium Advancing Computer Science Education (TCACSE)
合作研究:CHIPS:TCUP 网络联盟推进计算机科学教育 (TCACSE)
- 批准号:
2414607 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Standard Grant
Investigating the potential for developing self-regulation in foreign language learners through the use of computer-based large language models and machine learning
通过使用基于计算机的大语言模型和机器学习来调查外语学习者自我调节的潜力
- 批准号:
24K04111 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Small Molecule Degraders of Tryptophan 2,3-Dioxygenase Enzyme (TDO) as Novel Treatments for Neurodegenerative Disease
色氨酸 2,3-双加氧酶 (TDO) 的小分子降解剂作为神经退行性疾病的新疗法
- 批准号:
10752555 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
SBIR Phase II: Computer-based co-reading for students with reading disabilities
SBIR 第二阶段:为有阅读障碍的学生提供基于计算机的共同阅读
- 批准号:
2321439 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Cooperative Agreement