权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習

深度强化学习在不完全信息的多人环境中寻找理性均衡策略

基本信息

批准号：
21K19816
负责人：
金子知適
金额：
$ 3.99万
依托单位：
The University of Tokyo
依托单位国家：
日本
项目类别：
Grant-in-Aid for Challenging Research (Exploratory)
财政年份：
2021
资助国家：
日本
起止时间：
2021-07-09 至 2024-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-21K19816/
关键词：
ゲームプログラミング

项目摘要

最大人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する手法を扱う。本研究の目的は、不完全情報かつ多人数のゲームを題材に、モデルを持つ深層強化学習に関する基盤技術を開発し、より広い分野においてAIエージェントの性能向上を実現することである。本研究では深層強化学習の扱う対象を広げるために、現実に近い複雑さを持つ問題の例として、不完全情報かつ多人数のゲームを扱う。不完全情報とは、観測できない状態が存在することであり、多人数とは、状況によって敵にも味方にもなりうる他者が存在することである。従来技術では他者を全て環境の一部とみなして妥協していたところを、不完全情報かつ多人数を扱うことに適したモデルの獲得と確率的な推論を行う学習フレームワークを実現する。二人完全情報ゲームで成果をあげた Alpha Zero と比較すると、不完全情報のために相手に手を読まれる度合いを考慮した，数理的なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。現在までに、研究計画に沿って数理的な手法の検討と様々なモデルでの計算機実験による性能評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法とチームでの協調を効率的に学ぶ手法は国際会議ですでに採録されている。

Largest artificial knowledge can divide の reinforcement learning では, environmental のですに action of self-discipline in る AI エージェントをし scenarios, そのエージェントが pilot error を tong じて vibration る dance いを learning する gimmick を Cha う. Purpose の this study は, incomplete information かつ number more のゲームをに theme, モデルを hold deep つ reinforcement learning に masato する technique を open 発し, より hiroo い eset において AI エージェントの performance up を be presently することである. This study では deep reinforcement learning の Cha う like を seaborne hiroo げるために, now be に nearly い complex 雑さをつ problem の example として, incomplete information かつ number more のゲームを Cha う. Incomplete information とは, 観できない state が exist することであり, toll とは, condition によって enemy にも taste party にもなりうる otherness exist がすることである. 従 to technology では otherness を all て environment の a とみなして compromise していたところを, incomplete information かつ number more を Cha うことに optimum したモデルの get とな of probabilistic inference を line う learning フレームワークを be presently する. Two people completely intelligence ゲームで results をあげた Alpha Zero と compare すると, incomplete information のために phase に hand を読まれる degrees or いを consider した, the mathematical なモデルと exploration line をう. をポーカーで results げた Counterfactual Regret minimization と compare すると, important な van 囲に ground って reinforcement learning を line うことで computing コストを軽 reduction, しより big きな problem に may apply とする. Now までに, research projects に along って mathematical な gimmick の beg と検 others 々なモデルでの computer be 験による performance evaluation 価を into めた. とくに, belief state で incomplete な intelligence を integration して performance する gimmick とチームでの coordination を sharper rate に learn ぶ gimmick は international conference ですでに transcribing されている.

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

Local coordination in multi-agent reinforcement learning

多智能体强化学习中的局部协调

DOI：
发表时间：
2021
期刊：
International conference on technologies and applications of artificial intelligence
影响因子：
0
作者：
Sato Yusuke;Morita Masamune;Suzuki Yuki;F. Xu and T. Kaneko
通讯作者：
F. Xu and T. Kaneko

Improve counterfactual regret minimization agents training by setting limitations of numbers of steps in games

通过设置游戏步数限制来改进反事实遗憾最小化代理训练

DOI：
发表时间：
2021
期刊：
26th game programming workshop
影响因子：
0
作者：
Ishikawa Daisuke;Suzuki Yuki;Kurokawa Chikako;Ohara Masayuki;Tsuchiya Misato;Morita Masamune;Yanagisawa Miho;Endo Masayuki;Kawano Ryuji;Takinoue Masahiro;C. Yi and T. Kaneko
通讯作者：
C. Yi and T. Kaneko

Prediction of werewolf players by sentiment analysis of game dialogue in japanese

通过日语游戏对话情感分析预测狼人玩家

DOI：
发表时间：
2021
期刊：
26th game programming workshop
影响因子：
0
作者：
Yusuke Sato;Masahiro Takinoue;Y. Sun and T. Kaneko
通讯作者：
Y. Sun and T. Kaneko

3x3盤面の2048の完全解析と強化学習の研究

2048 3x3棋盘完整分析及强化学习研究

DOI：
发表时间：
2022
期刊：
第27回ゲームプログラミングワークショップ
影响因子：
0
作者：
Inoue;M.;Shirotani;Y.;Morokado;T.;Hanaki;S.;Kameyama;H.;Kofuji;H.;Okino;A.;Yoshida;M.;Miki;S.;Shikata;T.;Honda;N.;Takikawa;T.;Morita;M.;Nagao;S.;荻島創一;山下金子中屋敷
通讯作者：
山下金子中屋敷

Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction

使用有序抽象改进纸牌游戏作弊中的反事实后悔最小化代理训练

DOI：
发表时间：
2021
期刊：
Advances in computers and games
影响因子：
0
作者：
Hayakawa Masayuki;Kishino Yusuke;Takinoue Masahiro;C. Yi and T. Kaneko
通讯作者：
C. Yi and T. Kaneko

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ patent.updateTime }}

金子知適其他文献

将棋の棋譜の指し手から意図を読みとる

从将棋记录中的棋步意图解读

DOI：
发表时间：
2015
期刊：
情報学環紀要
影响因子：
0
作者：
Haruya Shiba;Kousei Ueta;Yoshino Ohishi;Takahiko Mendori;Yusuke Nishiuchi;Masanobu Yoshida;Hironobu Satoh;Takumi Yamaguchi;芝治也，上田晃正，竹谷篤也，山口巧，永原順子，西内悠祐，吉田正伸，佐藤公信，妻鳥貴彦;T. Imagawa and T. Kaneko;金子知適
通讯作者：
金子知適