モンテカルロ木探索の性能の分析と改善

分析和改进蒙特卡罗树搜索的性能

基本信息

  • 批准号:
    16J07455
  • 负责人:
  • 金额:
    $ 0.83万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2016
  • 资助国家:
    日本
  • 起止时间:
    2016-04-22 至 2018-03-31
  • 项目状态:
    已结题

项目摘要

モンテカルロ木探索(MCTS)はゲームにおける代表的な探索の枠組みである.しかし,ゲームの性質とMCTSの性能の関係性については,まだ解明されていない点がある.本年度は,まず,多腕バンディット問題(MAB)における,期待値の最大値の推定量についての研究を行った.MABは確率的な報酬が得られるスロットマシーンが複数存在する時に,より多くの報酬を得られるプレイの仕方を求める問題である.MCTSの代表的なアルゴリズムであるUCTは,MABでの累積的な報酬の最大化を目指したアルゴリズムを木探索に応用したものであるように,MABはMCTSと密接な関わりがある.また,期待値の最大値の推定量は,最善手を判別するために重要である.判別のためには,以後も最善手を選び続けた(最も期待値が高くなるように手を選んだ)場合の報酬の期待値を比較する必要があるためである.本研究では,各確率変数に対し,その期待値が最大である確率の上限に基づき,重みを与え,その重み付き平均で期待値の最大値を推定する手法(SWE)を新たに提案した.理論的な解析を行い,推定値のバイアスが0に収束すること等を示した.加えて,実験を行い,提案手法の有効性を確かめた.様々なMABの設定の下で,提案手法は常に最良ではないものの,多くの設定で良い結果となった.次に,上記の手法SWEのMCTSへの応用を行った.既存手法UCTでは,子の価値の推定を子孫から行ったシミュレーション結果の平均で行う.まず,実験を行い,MABで,サンプルの平均による推定の代わりにSWEを使うことで推定値の精度を改善出来ることを確かめた.そして,UCTにおける,平均による推定の代わりに,SWEよる推定を行う手法を提案した.ゲームでの終盤に近いモデルと,序盤に近いモデルの2種類で,実験を行い,後者のモデルでの提案手法の有効性を示した.
The MCTS represents the group of explorers. The relationship between the properties of MCTS and the performance of MCTS is discussed. This year, we conducted research on the estimation of maximum expected values for the MAB problem. The MAB problem determines the rate of compensation for multiple employees. The MCTS problem is representative of UCT. MAB's cumulative compensation maximization refers to the use of MCTS to explore the relationship between MAB and MCTS. It is important to estimate the maximum value of expectation. To determine whether the best candidate is the best candidate in the future, compare the expected salary value in the case where the expected salary value is high. In this study, we propose a new method (SWE) for estimating the maximum expected value of each accuracy rate, the maximum expected value of each accuracy rate, and the maximum expected value of each accuracy rate. The theoretical analysis shows that there is no such thing as a theoretical analysis. Add MAB settings are often the best way to propose, and many settings are the best way to result. Second, note that SWE and MCTS can be used in different ways. Existing method UCT is used to estimate the value of children and children. MAB, MAB UCT, average, presumptive, SWE, presumptive, modus operandi. There are two kinds of proposals in the final stage of the game, and the two kinds of proposals in the final stage of the game are effective.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
モンテカルロ木探索における状態価値の推定方法の改善
蒙特卡罗树搜索中状态值估计方法的改进
Monte Carlo Tree Search with Robust Exploration
具有稳健探索的蒙特卡罗树搜索
  • DOI:
    10.1007/978-3-319-50935-8_4
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    山田亮太;松谷悠佑;木村尭朗;伊達広行;Takahisa Imagawa and Tomoyuki Kaneko;今川 孝久,金子知適;T. Imagawa and T. Kaneko
  • 通讯作者:
    T. Imagawa and T. Kaneko
Estimating the maximum expected value through upper confidence bound of likelihood
通过似然置信上限估计最大期望值
モンテカルロ木探索における子孫の勝敗確定時のプレイアウト結果の修正
修正了蒙特卡罗树搜索中后代获胜或失败时的比赛结果
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    山田亮太;松谷悠佑;木村尭朗;伊達広行;Takahisa Imagawa and Tomoyuki Kaneko;今川 孝久,金子知適;T. Imagawa and T. Kaneko;今川孝久 金子知適
  • 通讯作者:
    今川孝久 金子知適
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

今川 孝久其他文献

プログラミング学習の経験がその後の進路等に与える影響に関するアンケート調査
关于编程学习经历对后续职业道路影响等的问卷调查。
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    今川 孝久;金子 知適;高田 秀志,荒木 貴之,小野寺 務,瓜谷 輝之
  • 通讯作者:
    高田 秀志,荒木 貴之,小野寺 務,瓜谷 輝之
難しさが手番で異なる局面でのモンテカルロ木探索の性能の改善
提高蒙特卡罗树搜索在难度随回合而变化的情况下的性能。

今川 孝久的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

ランダム化臨床試験におけるANCOVA推定量のバイアス補正とその拡張
随机临床试验中 ANCOVA 估计量的偏差校正和扩展
  • 批准号:
    24K14862
  • 财政年份:
    2024
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
二方向固定効果操作変数推定量の因果推論的基礎付け
双向固定效应工具变量估计量的因果推理基础。
  • 批准号:
    24KJ0817
  • 财政年份:
    2024
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
幅広い因果推論の問題に適用可能な条件付き期待値比推定量の開発
开发可应用于各种因果推理问题的条件期望比估计器
  • 批准号:
    23K19960
  • 财政年份:
    2023
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
機械学習選択の誤りに頑健な治療効果推定量の提案とリアルワールドデータへの応用
提出一种对机器学习选择错误具有鲁棒性的治疗效果估计器及其在现实世界数据中的应用
  • 批准号:
    23K17245
  • 财政年份:
    2023
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Primary Care Teams Capacity Estimator (CapEs): Synthesizing evidence and developing the CapEs simulation software to support Canadian primary care policy makers and healthcare planners better reason about primary care team capacity in a time of crisis.
初级保健团队能力估算器 (CapEs):综合证据并开发 CapEs 模拟软件,以支持加拿大初级保健政策制定者和医疗保健规划者更好地推断危机时期初级保健团队的能力。
  • 批准号:
    475092
  • 财政年份:
    2022
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Operating Grants
欠測データ解析の枠組みに基づく外れ値のモデル化と偏りがなく効率的な推定量の開発
基于缺失数据分析框架对异常值进行建模并开发无偏且高效的估计器
  • 批准号:
    22K21286
  • 财政年份:
    2022
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
Research on financial risk management using bias-reduced nonparametric extreme quantile estimator
使用减少偏差的非参数极端分位数估计器进行金融风险管理研究
  • 批准号:
    22K01431
  • 财政年份:
    2022
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Multi Model State Estimator Design for Micro Aerial Vehicle Navigation Systems
微型飞行器导航系统多模型状态估计器设计
  • 批准号:
    RGPIN-2017-04367
  • 财政年份:
    2022
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Discovery Grants Program - Individual
Automated manufacturing cost estimator and supply chain management portal
自动化制造成本估算器和供应链管理门户
  • 批准号:
    90029
  • 财政年份:
    2021
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Collaborative R&D
I-Corps: Physics-Based Binding Affinity Estimator
I-Corps:基于物理的结合亲和力估计器
  • 批准号:
    2138667
  • 财政年份:
    2021
  • 资助金额:
    $ 0.83万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了