不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良

AlphaGo方法在不完全信息、随机、多人游戏中的评估和改进

基本信息

  • 批准号:
    20K12124
  • 负责人:
  • 金额:
    $ 2.75万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である.本年度は主に,(1) 確率的一人ゲーム「2048」のニューラルネットワーク構造の改良,(2) 強化学習手法「Monte-Carlo Softmax 探索」の2048への適用と評価,(3) 非対称二人ゲーム「対戦型2048」におけるプレイヤの改良と比較,の3点について研究を進めた.(1) これまでに,局所的特徴を扱うのに優れる畳み込みニューラルネットワークを用いてプレイヤを作成してきた.本研究項目では,大域的特徴を与えるネットワークを追加したネットワークを設計し,スコアが改善することを示した.本成果は,国際会議 IEEE CoG 2022 にて発表した.(2) AlphaGo 手法は,方策(ポリシー)と値(バリュー)の2つを同時に学習する強化学習手法である.それに対し,値(バリュー)のみを学習する Monte-Carlo Softmax Search アルゴリズムを2048に適用し,評価を行った.その結果,モンテカルロ木探索における評価値の利用方法の工夫が性能に大きく影響すること,モンテカルロ木探索によって得られる値をそのまま学習に用いると学習が進まないことなどを知見として得た.前者は国際会議 TAAI 2022に,後者は国内ワークショップで発表した.(3) 非対称二人ゲーム「対戦型2048」に対し,Nタプルネットワーク/ニューラルネットワークおよびαβ探索を用いるプレイヤを実装し,相互対戦により評価を行った.その結果,「2048」において優れるNタプルネットワークが「対戦型2048」では劣る,という興味深い結果を得た.国内ワークショップ,国内研究会にて発表した.
This study is aimed at studying the problem of AlphaGo ( This year's focus is on (1) the improvement of the accurate one-person model "2048" and the improvement of the structure,(2) the evaluation of the application of the reinforcement learning method "Monte-Carlo Softmax exploration" in 2048,(3) the improvement and comparison of the non-symmetrical two-person model "2048" and the improvement of the three-point research. (1)The characteristics of the bureau are optimized and the results are presented in the table below. This project shows the characteristics of large domains. This work was presented at the International Conference IEEE CoG 2022. (2)AlphaGo method: 2. Simultaneous learning. Reinforcement learning method. Monte-Carlo Softmax Search is available in 2048. For example, if you want to learn from a computer, you can learn from it. The former is an international conference TAAI 2022, while the latter is a domestic conference. (3)The two of them are "opposite type 2048", and the two of them are "opposite type 2048", and the two of them are "opposite type 2048". The result is that "2048" is excellent, and the result is good. Domestic Research Association

项目成果

期刊论文数量(15)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ニューラルネットワークを用いたガイスターの相手駒色推定とその拡張
Geister的神经网络对手棋子颜色估计及其扩展
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    寺村舞童華;松崎公紀
  • 通讯作者:
    松崎公紀
Improving DNN-based 2048 Players with Global Embedding
通过全局嵌入改进基于 DNN 的 2048 玩家
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Weikai Wang;Kiminori Matsuzaki
  • 通讯作者:
    Kiminori Matsuzaki
攻撃側が置くタイルの数を選択できる対戦型2048に対するニューラルネットワークプレイヤの学習
神经网络玩家学习竞技 2048,攻击者可以选择放置的棋子数量
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小田 駿斗;松崎 公紀
  • 通讯作者:
    松崎 公紀
2048へのMC Softmax探索の適用
将 MC Softmax 搜索应用于 2048
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    渡邊翔太;松崎公紀
  • 通讯作者:
    松崎公紀
コンピュータ大貧民における手札推定の有効性についての再評価と考察
手测对于电脑贫民的有效性的重新评估和思考
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中山友里歌;植田桂広;鴨川翔太;松崎公紀
  • 通讯作者:
    松崎公紀
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

松崎 公紀其他文献

Associativity for Parallel Tree Computation
并行树计算的结合性
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    松崎 公紀;森畑 明昌;胡 振江;武市 正人
  • 通讯作者:
    武市 正人
ホケルトンによるXPathクエリの並列化とその評価
使用 Hokelton 的 XPath 查询并行化及其评估
一次元配列を操作するプログラムに対するHadoop MapReduceプログラム生成系
Hadoop MapReduce 程序生成系统,用于操作一维数组的程序
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮崎 玲奈;松崎 公紀;佐藤 重幸
  • 通讯作者:
    佐藤 重幸
Accumulative Computation on MapReduce
MapReduce 上的累积计算
並列スケルトンライブラリ「助っ人」の実現
并行骨架库“Helper”的实现
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    松崎 公紀;江本 健斗
  • 通讯作者:
    江本 健斗

松崎 公紀的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('松崎 公紀', 18)}}的其他基金

Empirical Comparison of Evaluation Functions and Search Algorithms and Their Combination to Cover Their Weakness
评估函数和搜索算法的实证比较及其组合以弥补其弱点
  • 批准号:
    23K11383
  • 财政年份:
    2023
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

Learning to Reason in Reinforcement Learning
在强化学习中学习推理
  • 批准号:
    DP240103278
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Discovery Projects
Collaborative Research: CDS&E: Generalizable RANS Turbulence Models through Scientific Multi-Agent Reinforcement Learning
合作研究:CDS
  • 批准号:
    2347423
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Standard Grant
CAREER: Stochasticity and Resilience in Reinforcement Learning: From Single to Multiple Agents
职业:强化学习中的随机性和弹性:从单个智能体到多个智能体
  • 批准号:
    2339794
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Continuing Grant
計測・通信品質が保証されない環境下の多目的フィードフォワード最適制御と強化学習
测量和通信质量无法保证环境下的多目标前馈最优控制和强化学习
  • 批准号:
    23K20948
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
遅延を考慮した非同期分散型マルチモジュール・タイムスケール深層強化学習の開発
考虑延迟的异步分布式多模块时间尺度深度强化学习的开发
  • 批准号:
    23K21710
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
強化学習を用いた分散制御によるネットワーク信号制御の最適化に関する研究
基于强化学习的分布式控制网络信号控制优化研究
  • 批准号:
    23K26216
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
深層強化学習を用いた運動ノイズの影響を最小化する運動制御推定フレームワークの構築
使用深度强化学习构建运动控制估计框架,最大限度地减少运动噪声的影响
  • 批准号:
    24KJ2223
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
強化学習モデル・ネットワーク分析によるサイコパシーの情報処理メカニズムの解明
利用强化学习模型和网络分析阐明精神病态的信息处理机制
  • 批准号:
    24K16865
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
汎用かつ再利用可能な方策に基づく階層強化学習
基于通用和可重用策略的分层强化学习
  • 批准号:
    23K28140
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
リスクの不確実性に対処する自律分散型マルチエージェント強化学習の研究開発
应对风险不确定性的自主分布式多智能体强化学习研发
  • 批准号:
    24K20873
  • 财政年份:
    2024
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了