不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習
深度强化学习在不完全信息的多人环境中寻找理性均衡策略
基本信息
- 批准号:21K19816
- 负责人:
- 金额:$ 3.99万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Challenging Research (Exploratory)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-07-09 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
最大人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する手法を扱う。本研究の目的は、不完全情報かつ多人数のゲームを題材に、モデルを持つ深層強化学習に関する基盤技術を開発し、より広い分野においてAIエージェントの性能向上を実現することである。本研究では深層強化学習の扱う対象を広げるために、現実に近い複雑さを持つ問題の例として、不完全情報かつ多人数のゲームを扱う。不完全情報とは、観測できない状態が存在することであり、多人数とは、状況によって敵にも味方にもなりうる他者が存在することである。従来技術では他者を全て環境の一部とみなして妥協していたところを、不完全情報かつ多人数を扱うことに適したモデルの獲得と確率的な推論を行う学習フレームワークを実現する。二人完全情報ゲームで成果をあげた Alpha Zero と比較すると、不完全情報のために相手に手を読まれる度合いを考慮した,数理的なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化 と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。現在までに、研究計画に沿って数理的な手法の検討と様々なモデルでの計算機実験による性能評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法とチームでの協調を効率的に学ぶ手法は国際会議ですでに採録されている。
在最大人工智能领域的强化学习涉及假设在环境中自主起作用的AI代理,并处理代理通过反复试验来学习行为的方法。这项研究的目的是通过基于不完整的信息和多人游戏的模型来开发一种基本技术,用于深入强化学习,并实现AI代理在更广泛的领域中的性能的改善。为了扩大深度强化学习的范围,这项研究涉及不完整的信息和多人游戏,这是与现实相关的复杂性问题的一个例子。不完整的信息意味着有些州无法观察到,而多人意味着有些人可以根据情况成为敌人或盟友。在以前的艺术中,所有其他人都被视为环境的一部分,我们已经妥协了,但是我们已经实现了一个学习框架,该框架获取了适合处理不完整信息和大量人员的模型,并执行概率推断。与Alpha Zero相比,实现了双向完整信息游戏的结果,它使用数学建模和搜索,考虑到由于不完整的信息而被对方的手阅读程度。与反事实的遗憾最小化相比,实现了扑克的最小化,加强学习的进行至关键范围,从而降低了计算成本并使应用于更大的问题成为可能。迄今为止,我们已经研究了数学方法,并使用计算机实验在各种模型上与研究计划进行了评估。特别是,在国际会议上已经采用了在信念和有效学习团队合作状态下整合和表达不完整信息的方法。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Local coordination in multi-agent reinforcement learning
多智能体强化学习中的局部协调
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Sato Yusuke;Morita Masamune;Suzuki Yuki;F. Xu and T. Kaneko
- 通讯作者:F. Xu and T. Kaneko
Prediction of werewolf players by sentiment analysis of game dialogue in japanese
通过日语游戏对话情感分析预测狼人玩家
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Yusuke Sato;Masahiro Takinoue;Y. Sun and T. Kaneko
- 通讯作者:Y. Sun and T. Kaneko
Improve counterfactual regret minimization agents training by setting limitations of numbers of steps in games
通过设置游戏步数限制来改进反事实遗憾最小化代理训练
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Ishikawa Daisuke;Suzuki Yuki;Kurokawa Chikako;Ohara Masayuki;Tsuchiya Misato;Morita Masamune;Yanagisawa Miho;Endo Masayuki;Kawano Ryuji;Takinoue Masahiro;C. Yi and T. Kaneko
- 通讯作者:C. Yi and T. Kaneko
3x3盤面の2048の完全解析と強化学習の研究
2048 3x3棋盘完整分析及强化学习研究
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Inoue;M.;Shirotani;Y.;Morokado;T.;Hanaki;S.;Kameyama;H.;Kofuji;H.;Okino;A.;Yoshida;M.;Miki;S.;Shikata;T.;Honda;N.;Takikawa;T.;Morita;M.;Nagao;S.;荻島 創一;山下 金子 中屋敷
- 通讯作者:山下 金子 中屋敷
Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction
使用有序抽象改进纸牌游戏作弊中的反事实后悔最小化代理训练
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Hayakawa Masayuki;Kishino Yusuke;Takinoue Masahiro;C. Yi and T. Kaneko
- 通讯作者:C. Yi and T. Kaneko
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
金子 知適其他文献
将棋の棋譜の指し手から意図を読みとる
从将棋记录中的棋步意图解读
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Haruya Shiba;Kousei Ueta;Yoshino Ohishi;Takahiko Mendori;Yusuke Nishiuchi;Masanobu Yoshida;Hironobu Satoh;Takumi Yamaguchi;芝治也,上田晃正,竹谷篤也,山口巧,永原順子,西内悠祐,吉田正伸,佐藤公信,妻鳥貴彦;T. Imagawa and T. Kaneko;金子 知適 - 通讯作者:
金子 知適
GVG-AI のための Monte Carlo Tree Search の改善に関する研究
GVG-AI 改进蒙特卡罗树搜索的研究
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
OH HYUNWOO;金子 知適 - 通讯作者:
金子 知適
Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善
通过混合奖励架构改善实时决策
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
藤村 悠太朗;金子 知適 - 通讯作者:
金子 知適
金子 知適的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('金子 知適', 18)}}的其他基金
世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上
通过获取世界模型和探索多样化策略来提高深度强化学习的多功能性
- 批准号:
21H03570 - 财政年份:2021
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
相似国自然基金
海洋缺氧对持久性有机污染物入海后降解行为的影响
- 批准号:42377396
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
支持二维毫米波波束扫描的微波/毫米波高集成度天线研究
- 批准号:62371263
- 批准年份:2023
- 资助金额:52 万元
- 项目类别:面上项目
腙的Heck/脱氮气重排串联反应研究
- 批准号:22301211
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
水系锌离子电池协同性能调控及枝晶抑制机理研究
- 批准号:52364038
- 批准年份:2023
- 资助金额:33 万元
- 项目类别:地区科学基金项目
基于人类血清素神经元报告系统研究TSPYL1突变对婴儿猝死综合征的致病作用及机制
- 批准号:82371176
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上
通过获取世界模型和探索多样化策略来提高深度强化学习的多功能性
- 批准号:
21H03570 - 财政年份:2021
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
言語モデルと数理モデルを用いた思考ゲームの解析に関する研究
利用语言模型和数学模型分析思维游戏的研究
- 批准号:
20K12122 - 财政年份:2020
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
deep reinforcement learning for imperfect and multi-player environments
针对不完美和多人环境的深度强化学习
- 批准号:
18K19832 - 财政年份:2018
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
How to Coach Human Players using Computer Go Program
如何使用计算机围棋程序指导人类棋手
- 批准号:
17K00506 - 财政年份:2017
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Research on Advice in Game AI
游戏人工智能建议研究
- 批准号:
17K12807 - 财政年份:2017
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Young Scientists (B)