Online machine learning methods using Monte Carlo tree search

使用蒙特卡罗树搜索的在线机器学习方法

基本信息

  • 批准号:
    17J09685
  • 负责人:
  • 金额:
    $ 1.09万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2017
  • 资助国家:
    日本
  • 起止时间:
    2017-04-26 至 2019-03-31
  • 项目状态:
    已结题

项目摘要

本年度は昨年度に引き続き,「人間の棋譜を用いないコンピュータプレイヤーの構築」という研究課題を元に,より発展した内容についての研究を行なった.上記研究課題は大規模な強化学習によって達成されているが,本年度は学習結果の質を保ちつつ必要な計算資源を削減するという重要な研究課題について取り組んだ.計算資源を削減するために,同じ訓練データからより多くの情報を獲得するということを目標にしてアルゴリズムを設計し,有効性を確認した.また関連して,既存手法で行なっているマルチタスク学習についての新たな知見を得るために別の学習目標を用いたマルチタスク学習の評価を行った.マルチタスク学習とは単一の入力から複数の出力を行う学習で,既存手法である AlphaGo Zero では単一の入力局面から,その局面の勝率とその局面で取るべき行動の予測という二つの出力を行っている.このマルチタスク学習について,取るべき行動の予測ではなく,別の予測に変更した際の性能の評価を行った.具最後に,上記の二つのアルゴリズムなどによって得られた推論器の妥当性を評価する手法について考案した.上記の二つのアルゴリズムは深層ニューラルネットワークの学習として実装されているが,深層ニューラルネットワークの予測は人間による理解が困難であるという問題点がある.深層ニューラルネットワークは多くの行列演算によって最終的な出力を計算するが,その過程は複雑であり,決定木や線形モデルのように人間が直感的に理解することが難しい.さらに深層ニューラルネットワークによる前向き枝刈りを行うゲーム木探索アルゴリズムによる推論の場合にはより理解が困難となる.この問題点を解決すべく,木探索アルゴリズムと深層ニューラルネットワークを組み合わせた際の判断の根拠となったような入力を検出するアルゴリズムを新たに考案した.
This year's annual に は yesterday quoted き 続 き, "human の game transcripts を い な い コ ン ピ ュ ー タ プ レ イ ヤ ー の build" と い う research topic を yuan に, よ り 発 exhibition し た content に つ い て の を line な っ た. Written research topic は large-scale な reinforcement learning に よ っ て reached さ れ て い る が, this year's は study results の qualitative を protect ち つ つ な computational resources necessary を cut す る と い な important research problem う に つ い て group take り ん だ. Computing resources を cut す る た め に, with じ training デ ー タ か ら よ り more く の intelligence を get す る と い う こ と を target に し て ア ル ゴ リ ズ ム を し design, have a sharper availability を し た. ま た masato even し て, existing technique で line な っ て い る マ ル チ タ ス ク learning に つ い て の new た な knowledge を have る た め に don't の learning goals を use い た マ ル チ タ ス ク learning の review 価 を line っ た. マ ル チ タ ス ク learning と は 単 a の into force か ら plural の output line を で う learning, existing methods で あ る AlphaGo Zero で は 単 a の situation into force か ら, そ の situation の odds と そ の situation で take る べ き の action be と い う two つ の output line を っ て い る. こ の マ ル チ タ ス ク learning に つ い て, take る べ き の action be で は な く, don't の be に - more し た interstate の の performance evaluation 価 を line っ た. Finally に, written の two つ の ア ル ゴ リ ズ ム な ど に よ っ て have ら れ た inference device の justice を review 価 す る gimmick に つ い て test case し た. Written の two つ の ア ル ゴ リ ズ ム は deep ニ ュ ー ラ ル ネ ッ ト ワ ー ク の learning と し て be loaded さ れ て い る が, deep ニ ュ ー ラ ル ネ ッ ト ワ ー ク は の to test human に よ る が difficult で あ る と い う problem point が あ る. Deep ニ ュ ー ラ ル ネ ッ ト ワ ー ク は more く の ranks calculus に よ っ て final な output を computing す る が, そ は の process after 雑 で あ り, decided to wood や linear モ デ ル の よ う に に understanding towards human が す る こ と が difficult し い. さ ら に deep ニ ュ ー ラ ル ネ ッ ト ワ ー ク に よ る forward き branch mow り を line う ゲ ー ム wood explore ア ル ゴ リ ズ ム に よ る inference の occasions に は よ り が difficult と な る. こ の problem point を す べ く, wood explore ア ル ゴ リ ズ ム と deep ニ ュ ー ラ ル ネ ッ ト ワ ー ク を group み close わ せ た interstate の judgment の root 拠 と な っ た よ う な を into force 検 out す る ア ル ゴ リ ズ ム を new た に test case し た.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
囲碁ニューラルネットワークの判断根拠の可視化
Go神经网络决策基础可视化
An Alternative Multitask Training for Evaluation Functions in the Game of Go
围棋评估函数的另一种多任务训练
  • DOI:
    10.1109/taai.2018.00037
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hiroki Tamari;Shohei Nakamura;Shigeru Takano;Yoshihiro Okada;田中匠,武田直人,関洋平;Yusaku Mandai and Tomoyuki Kaneko
  • 通讯作者:
    Yusaku Mandai and Tomoyuki Kaneko
局面の組合せを用いた囲碁評価関数の学習
使用位置组合学习 Go 评估函数
Alternative Multitask Training for Evaluation Functions in Game of Go
围棋评估函数的替代多任务训练
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    万代 悠作;金子 知適;Yusaku Mandai
  • 通讯作者:
    Yusaku Mandai
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

万代 悠作其他文献

Meeting Support Interface Seamlessly Integrating Shared and Individual Workspaces
会议支持界面无缝集成共享和个人工作空间
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    万代 悠作;金子 知適;Rim Hajjami,Ryo Nishide,Ian Piumarta,Hideyuki Takada
  • 通讯作者:
    Rim Hajjami,Ryo Nishide,Ian Piumarta,Hideyuki Takada
プレストレス量と鋼材比が異なる繊維補強PFCはりのせん断挙動
不同预应力量和钢配比纤维增强PFC梁的剪切性能
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    万代 悠作;金子 知適;Yusaku Mandai;万代 悠作;万代悠作,金子知適;林 佑希子,柳田 龍平,河野 克哉,二羽 淳一郎
  • 通讯作者:
    林 佑希子,柳田 龍平,河野 克哉,二羽 淳一郎

万代 悠作的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

情報幾何学的メタモデリングに基づいた変分推論法のマルチタスク学習
基于信息几何元建模的变分推理方法多任务学习
  • 批准号:
    24K15088
  • 财政年份:
    2024
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
マルチタスク学習に向けた高品質データセット構築に関する研究
构建高质量多任务学习数据集的研究
  • 批准号:
    24K03044
  • 财政年份:
    2024
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
語句の意味推定モデルとのマルチタスク学習に基づく世界知識を考慮した対話システム
基于词义估计模型的多任务学习考虑世界知识的对话系统
  • 批准号:
    19J14522
  • 财政年份:
    2019
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
データに基づき情報共有の方法を決定するマルチタスク学習手法の開発
开发基于数据确定信息共享方法的多任务学习方法
  • 批准号:
    16J07970
  • 财政年份:
    2016
  • 资助金额:
    $ 1.09万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了