不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習
深度强化学习在不完全信息的多人环境中寻找理性均衡策略
基本信息
- 批准号:21K19816
- 负责人:
- 金额:$ 3.99万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Challenging Research (Exploratory)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-07-09 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
最大人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する手法を扱う。本研究の目的は、不完全情報かつ多人数のゲームを題材に、モデルを持つ深層強化学習に関する基盤技術を開発し、より広い分野においてAIエージェントの性能向上を実現することである。本研究では深層強化学習の扱う対象を広げるために、現実に近い複雑さを持つ問題の例として、不完全情報かつ多人数のゲームを扱う。不完全情報とは、観測できない状態が存在することであり、多人数とは、状況によって敵にも味方にもなりうる他者が存在することである。従来技術では他者を全て環境の一部とみなして妥協していたところを、不完全情報かつ多人数を扱うことに適したモデルの獲得と確率的な推論を行う学習フレームワークを実現する。二人完全情報ゲームで成果をあげた Alpha Zero と比較すると、不完全情報のために相手に手を読まれる度合いを考慮した,数理的なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化 と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。現在までに、研究計画に沿って数理的な手法の検討と様々なモデルでの計算機実験による性能評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法とチームでの協調を効率的に学ぶ手法は国際会議ですでに採録されている。
Maximum artificial knowledge division of reinforcement learning, environment, self-discipline, action, AI, determination, trial error, communication, vibration, learning techniques The purpose of this study is to develop the technology of base plate, divide the information and improve the performance of AI in deep reinforcement learning. This study focuses on deep reinforcement learning, current problems, incomplete information, and the number of participants. incomplete information, measurement, status, existence, number, status, other, existence, In the future, technology will compromise with others, compromise with others, and compromise with incomplete information. Two people complete information to achieve Alpha Zero to compare, incomplete information to hand to hand to consider, mathematical to explore Counterfactual Regret Minimization, Comparison, Importance, Reinforcement Learning, Calculation, Reduction, and Application Now, research projects are being developed to evaluate the performance of computer systems along mathematical approaches. The state of belief, the state of incomplete information, the state of coordination, the state of learning, and the state of international conference.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Local coordination in multi-agent reinforcement learning
多智能体强化学习中的局部协调
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Sato Yusuke;Morita Masamune;Suzuki Yuki;F. Xu and T. Kaneko
- 通讯作者:F. Xu and T. Kaneko
Improve counterfactual regret minimization agents training by setting limitations of numbers of steps in games
通过设置游戏步数限制来改进反事实遗憾最小化代理训练
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Ishikawa Daisuke;Suzuki Yuki;Kurokawa Chikako;Ohara Masayuki;Tsuchiya Misato;Morita Masamune;Yanagisawa Miho;Endo Masayuki;Kawano Ryuji;Takinoue Masahiro;C. Yi and T. Kaneko
- 通讯作者:C. Yi and T. Kaneko
Prediction of werewolf players by sentiment analysis of game dialogue in japanese
通过日语游戏对话情感分析预测狼人玩家
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Yusuke Sato;Masahiro Takinoue;Y. Sun and T. Kaneko
- 通讯作者:Y. Sun and T. Kaneko
3x3盤面の2048の完全解析と強化学習の研究
2048 3x3棋盘完整分析及强化学习研究
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Inoue;M.;Shirotani;Y.;Morokado;T.;Hanaki;S.;Kameyama;H.;Kofuji;H.;Okino;A.;Yoshida;M.;Miki;S.;Shikata;T.;Honda;N.;Takikawa;T.;Morita;M.;Nagao;S.;荻島 創一;山下 金子 中屋敷
- 通讯作者:山下 金子 中屋敷
Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction
使用有序抽象改进纸牌游戏作弊中的反事实后悔最小化代理训练
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Hayakawa Masayuki;Kishino Yusuke;Takinoue Masahiro;C. Yi and T. Kaneko
- 通讯作者:C. Yi and T. Kaneko
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
金子 知適其他文献
将棋の棋譜の指し手から意図を読みとる
从将棋记录中的棋步意图解读
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Haruya Shiba;Kousei Ueta;Yoshino Ohishi;Takahiko Mendori;Yusuke Nishiuchi;Masanobu Yoshida;Hironobu Satoh;Takumi Yamaguchi;芝治也,上田晃正,竹谷篤也,山口巧,永原順子,西内悠祐,吉田正伸,佐藤公信,妻鳥貴彦;T. Imagawa and T. Kaneko;金子 知適 - 通讯作者:
金子 知適
GVG-AI のための Monte Carlo Tree Search の改善に関する研究
GVG-AI 改进蒙特卡罗树搜索的研究
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
OH HYUNWOO;金子 知適 - 通讯作者:
金子 知適
Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善
通过混合奖励架构改善实时决策
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
藤村 悠太朗;金子 知適 - 通讯作者:
金子 知適
プログラミング学習の経験がその後の進路等に与える影響に関するアンケート調査
关于编程学习经历对后续职业道路影响等的问卷调查。
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
今川 孝久;金子 知適;高田 秀志,荒木 貴之,小野寺 務,瓜谷 輝之 - 通讯作者:
高田 秀志,荒木 貴之,小野寺 務,瓜谷 輝之
金子 知適的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('金子 知適', 18)}}的其他基金
世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上
通过获取世界模型和探索多样化策略来提高深度强化学习的多功能性
- 批准号:
21H03570 - 财政年份:2021
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
相似国自然基金
车载中央计算平台软件框架及泊车功能研发与产业化应用
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
低空飞行器及其空域的设计与监管平台软件
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于金刚石高效散热封装的高功率高压GaN器件研发与产业化
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
新能源智能汽车高性能精密零部件装备研制与产业化
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
高效智能化超低风速风电机组关键技术及装备研制
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
绿氢制储加注关键技术与装备研发
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
复杂电子产品超精密加工及检测关键技术研究与应用
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
抗消化性溃疡新药研发
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于合成生物学的动物底盘品种优化及中试应用研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
1.1 类中药创新药“鱼酱排毒合剂”开发
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
相似海外基金
世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上
通过获取世界模型和探索多样化策略来提高深度强化学习的多功能性
- 批准号:
21H03570 - 财政年份:2021
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
言語モデルと数理モデルを用いた思考ゲームの解析に関する研究
利用语言模型和数学模型分析思维游戏的研究
- 批准号:
20K12122 - 财政年份:2020
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
deep reinforcement learning for imperfect and multi-player environments
针对不完美和多人环境的深度强化学习
- 批准号:
18K19832 - 财政年份:2018
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
How to Coach Human Players using Computer Go Program
如何使用计算机围棋程序指导人类棋手
- 批准号:
17K00506 - 财政年份:2017
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Research on Advice in Game AI
游戏人工智能建议研究
- 批准号:
17K12807 - 财政年份:2017
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
Machine learning and distributed game-tree search in games
游戏中的机器学习和分布式博弈树搜索
- 批准号:
16H02927 - 财政年份:2016
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Go program with council system using strategic voting behavior
使用策略投票行为的理事会系统Go程序
- 批准号:
16K00505 - 财政年份:2016
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Analysis of Intelligent Games using Language and Mathematical Models
使用语言和数学模型分析智能游戏
- 批准号:
15K00506 - 财政年份:2015
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Winning against Go masters with massively parallel search algorithm using 10,000 or more CPU cores
通过使用 10,000 个或更多 CPU 核心的大规模并行搜索算法战胜围棋大师
- 批准号:
25700038 - 财政年份:2013
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Young Scientists (A)
Explanation of positional evaluation by computer programs
通过计算机程序进行位置评价的说明
- 批准号:
25330432 - 财政年份:2013
- 资助金额:
$ 3.99万 - 项目类别:
Grant-in-Aid for Scientific Research (C)














{{item.name}}会员




