不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習

深度强化学习在不完全信息的多人环境中寻找理性均衡策略

基本信息

  • 批准号:
    21K19816
  • 负责人:
  • 金额:
    $ 3.99万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-07-09 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

最大人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する手法を扱う。本研究の目的は、不完全情報かつ多人数のゲームを題材に、モデルを持つ深層強化学習に関する基盤技術を開発し、より広い分野においてAIエージェントの性能向上を実現することである。本研究では深層強化学習の扱う対象を広げるために、現実に近い複雑さを持つ問題の例として、不完全情報かつ多人数のゲームを扱う。不完全情報とは、観測できない状態が存在することであり、多人数とは、状況によって敵にも味方にもなりうる他者が存在することである。従来技術では他者を全て環境の一部とみなして妥協していたところを、不完全情報かつ多人数を扱うことに適したモデルの獲得と確率的な推論を行う学習フレームワークを実現する。二人完全情報ゲームで成果をあげた Alpha Zero と比較すると、不完全情報のために相手に手を読まれる度合いを考慮した,数理的なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化 と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。現在までに、研究計画に沿って数理的な手法の検討と様々なモデルでの計算機実験による性能評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法とチームでの協調を効率的に学ぶ手法は国際会議ですでに採録されている。
Largest artificial knowledge can divide の reinforcement learning で は, environmental の で す に action of self-discipline in る AI エ ー ジ ェ ン ト を し scenarios, そ の エ ー ジ ェ ン ト が pilot error を tong じ て vibration る dance い を learning す る gimmick を Cha う. Purpose の this study は, incomplete information か つ number more の ゲ ー ム を に theme, モ デ ル を hold deep つ reinforcement learning に masato す る technique を open 発 し, よ り hiroo い eset に お い て AI エ ー ジ ェ ン ト の performance up を be presently す る こ と で あ る. This study で は deep reinforcement learning の Cha う like を seaborne hiroo げ る た め に, now be に nearly い complex 雑 さ を つ problem の example と し て, incomplete information か つ number more の ゲ ー ム を Cha う. Incomplete information と は, 観 で き な い state が exist す る こ と で あ り, toll と は, condition に よ っ て enemy に も taste party に も な り う る otherness exist が す る こ と で あ る. 従 to technology で は otherness を all て environment の a と み な し て compromise し て い た と こ ろ を, incomplete information か つ number more を Cha う こ と に optimum し た モ デ ル の get と な of probabilistic inference を line う learning フ レ ー ム ワ ー ク を be presently す る. Two people completely intelligence ゲ ー ム で results を あ げ た Alpha Zero と compare す る と, incomplete information の た め に phase に hand を 読 ま れ る degrees or い を consider し た, the mathematical な モ デ ル と exploration line を う. を ポ ー カ ー で results げ た Counterfactual Regret minimization と compare す る と, important な van 囲 に ground っ て reinforcement learning を line う こ と で computing コ ス ト を 軽 reduction, し よ り big き な problem に may apply と す る. Now ま で に, research projects に along っ て mathematical な gimmick の beg と 検 others 々 な モ デ ル で の computer be 験 に よ る performance evaluation 価 を into め た. と く に, belief state で incomplete な intelligence を integration し て performance す る gimmick と チ ー ム で の coordination を sharper rate に learn ぶ gimmick は international conference で す で に transcribing さ れ て い る.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Local coordination in multi-agent reinforcement learning
多智能体强化学习中的局部协调
Improve counterfactual regret minimization agents training by setting limitations of numbers of steps in games
通过设置游戏步数限制来改进反事实遗憾最小化代理训练
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ishikawa Daisuke;Suzuki Yuki;Kurokawa Chikako;Ohara Masayuki;Tsuchiya Misato;Morita Masamune;Yanagisawa Miho;Endo Masayuki;Kawano Ryuji;Takinoue Masahiro;C. Yi and T. Kaneko
  • 通讯作者:
    C. Yi and T. Kaneko
Prediction of werewolf players by sentiment analysis of game dialogue in japanese
通过日语游戏对话情感分析预测狼人玩家
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yusuke Sato;Masahiro Takinoue;Y. Sun and T. Kaneko
  • 通讯作者:
    Y. Sun and T. Kaneko
3x3盤面の2048の完全解析と強化学習の研究
2048 3x3棋盘完整分析及强化学习研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Inoue;M.;Shirotani;Y.;Morokado;T.;Hanaki;S.;Kameyama;H.;Kofuji;H.;Okino;A.;Yoshida;M.;Miki;S.;Shikata;T.;Honda;N.;Takikawa;T.;Morita;M.;Nagao;S.;荻島 創一;山下 金子 中屋敷
  • 通讯作者:
    山下 金子 中屋敷
Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction
使用有序抽象改进纸牌游戏作弊中的反事实后悔最小化代理训练
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hayakawa Masayuki;Kishino Yusuke;Takinoue Masahiro;C. Yi and T. Kaneko
  • 通讯作者:
    C. Yi and T. Kaneko
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

金子 知適其他文献

将棋の棋譜の指し手から意図を読みとる
从将棋记录中的棋步意图解读
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Haruya Shiba;Kousei Ueta;Yoshino Ohishi;Takahiko Mendori;Yusuke Nishiuchi;Masanobu Yoshida;Hironobu Satoh;Takumi Yamaguchi;芝治也,上田晃正,竹谷篤也,山口巧,永原順子,西内悠祐,吉田正伸,佐藤公信,妻鳥貴彦;T. Imagawa and T. Kaneko;金子 知適
  • 通讯作者:
    金子 知適
GVG-AI のための Monte Carlo Tree Search の改善に関する研究
GVG-AI 改进蒙特卡罗树搜索的研究
Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善
通过混合奖励架构改善实时决策
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤村 悠太朗;金子 知適
  • 通讯作者:
    金子 知適
将棋における棋風を学習するための棋譜分析の取り組み
努力分析比赛记录以学习将棋风格
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大森 翔太朗;金子 知適
  • 通讯作者:
    金子 知適
プログラミング学習の経験がその後の進路等に与える影響に関するアンケート調査
关于编程学习经历对后续职业道路影响等的问卷调查。
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    今川 孝久;金子 知適;高田 秀志,荒木 貴之,小野寺 務,瓜谷 輝之
  • 通讯作者:
    高田 秀志,荒木 貴之,小野寺 務,瓜谷 輝之

金子 知適的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('金子 知適', 18)}}的其他基金

世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上
通过获取世界模型和探索多样化策略来提高深度强化学习的多功能性
  • 批准号:
    21H03570
  • 财政年份:
    2021
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)

相似国自然基金

莱菔硫烷经胆汁酸及其受体调控肠道巨噬细胞极化改善溃疡性结肠炎作用机制研究
  • 批准号:
    MS25H260021
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
FGF21通过CTL1介导的胆碱稳态调控线粒体自噬对帕金森病的保护机制研究
  • 批准号:
    MS25H310003
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
受分数布朗运动驱动的多值随机微分方程动力学行为研究
  • 批准号:
    QN25A010002
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
几类离散概率模型的长时间行为
  • 批准号:
    QN25A010006
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
随机非局部全变差流的适定性及长时间行为
  • 批准号:
    QN25A010014
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
度量测度空间上基于狄氏型和p-energy型的热核理论研究
  • 批准号:
    QN25A010015
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
两类拟线性Schrödinger方程正规化解的存在性与多重性研究
  • 批准号:
    QN25A010018
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
两类高斯过程驱动的混杂自交互扩散的长时间行为研究
  • 批准号:
    QN25A010030
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于深度学习的滤泡性甲状腺癌术前智能诊断模型研究
  • 批准号:
    QN25A010034
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
流场中多尺度Pull型自驱动颗粒聚集行为的研究
  • 批准号:
    QN25A020005
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目

相似海外基金

世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上
通过获取世界模型和探索多样化策略来提高深度强化学习的多功能性
  • 批准号:
    21H03570
  • 财政年份:
    2021
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
言語モデルと数理モデルを用いた思考ゲームの解析に関する研究
利用语言模型和数学模型分析思维游戏的研究
  • 批准号:
    20K12122
  • 财政年份:
    2020
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
deep reinforcement learning for imperfect and multi-player environments
针对不完美和多人环境的深度强化学习
  • 批准号:
    18K19832
  • 财政年份:
    2018
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
How to Coach Human Players using Computer Go Program
如何使用计算机围棋程序指导人类棋手
  • 批准号:
    17K00506
  • 财政年份:
    2017
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Research on Advice in Game AI
游戏人工智能建议研究
  • 批准号:
    17K12807
  • 财政年份:
    2017
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Machine learning and distributed game-tree search in games
游戏中的机器学习和分布式博弈树搜索
  • 批准号:
    16H02927
  • 财政年份:
    2016
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Go program with council system using strategic voting behavior
使用策略投票行为的理事会系统Go程序
  • 批准号:
    16K00505
  • 财政年份:
    2016
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Analysis of Intelligent Games using Language and Mathematical Models
使用语言和数学模型分析智能游戏
  • 批准号:
    15K00506
  • 财政年份:
    2015
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Winning against Go masters with massively parallel search algorithm using 10,000 or more CPU cores
通过使用 10,000 个或更多 CPU 核心的大规模并行搜索算法战胜围棋大师
  • 批准号:
    25700038
  • 财政年份:
    2013
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Young Scientists (A)
Explanation of positional evaluation by computer programs
通过计算机程序进行位置评价的说明
  • 批准号:
    25330432
  • 财政年份:
    2013
  • 资助金额:
    $ 3.99万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了