权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

Online machine learning methods using Monte Carlo tree search

使用蒙特卡罗树搜索的在线机器学习方法

基本信息

批准号：
17J09685
负责人：
万代悠作
金额：
$ 1.09万
依托单位：
The University of Tokyo
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2017
资助国家：
日本
起止时间：
2017-04-26 至 2019-03-31
项目状态：
已结题

项目摘要

本年度は昨年度に引き続き，「人間の棋譜を用いないコンピュータプレイヤーの構築」という研究課題を元に，より発展した内容についての研究を行なった．上記研究課題は大規模な強化学習によって達成されているが，本年度は学習結果の質を保ちつつ必要な計算資源を削減するという重要な研究課題について取り組んだ．計算資源を削減するために，同じ訓練データからより多くの情報を獲得するということを目標にしてアルゴリズムを設計し，有効性を確認した．また関連して，既存手法で行なっているマルチタスク学習についての新たな知見を得るために別の学習目標を用いたマルチタスク学習の評価を行った．マルチタスク学習とは単一の入力から複数の出力を行う学習で，既存手法である AlphaGo Zero では単一の入力局面から，その局面の勝率とその局面で取るべき行動の予測という二つの出力を行っている．このマルチタスク学習について，取るべき行動の予測ではなく，別の予測に変更した際の性能の評価を行った．具最後に，上記の二つのアルゴリズムなどによって得られた推論器の妥当性を評価する手法について考案した．上記の二つのアルゴリズムは深層ニューラルネットワークの学習として実装されているが，深層ニューラルネットワークの予測は人間による理解が困難であるという問題点がある．深層ニューラルネットワークは多くの行列演算によって最終的な出力を計算するが，その過程は複雑であり，決定木や線形モデルのように人間が直感的に理解することが難しい．さらに深層ニューラルネットワークによる前向き枝刈りを行うゲーム木探索アルゴリズムによる推論の場合にはより理解が困難となる．この問題点を解決すべく，木探索アルゴリズムと深層ニューラルネットワークを組み合わせた際の判断の根拠となったような入力を検出するアルゴリズムを新たに考案した．

This year's annual には yesterday quoted き続き, "human の game transcripts をいないコンピュータプレイヤーの build" という research topic を yuan に, より発 exhibition した content についてのを line なった. Written research topic は large-scale な reinforcement learning によって reached されているが, this year's は study results の qualitative を protect ちつつな computational resources necessary を cut するといな important research problem うについて group take りんだ. Computing resources を cut するために, with じ training データからより more くの intelligence を get するということを target にしてアルゴリズムをし design, have a sharper availability をした. また masato even して, existing technique で line なっているマルチタスク learning についての new たな knowledge を have るために don't の learning goals を use いたマルチタスク learning の review 価を line った. マルチタスク learning とは単 a の into force から plural の output line をでう learning, existing methods である AlphaGo Zero では単 a の situation into force から, その situation の odds とその situation で take るべきの action be という two つの output line をっている. このマルチタスク learning について, take るべきの action be ではなく, don't の be に - more した interstate のの performance evaluation 価を line った. Finally に, written の two つのアルゴリズムなどによって have られた inference device の justice を review 価する gimmick について test case した. Written の two つのアルゴリズムは deep ニューラルネットワークの learning として be loaded されているが, deep ニューラルネットワークはの to test human によるが difficult であるという problem point がある. Deep ニューラルネットワークは more くの ranks calculus によって final な output を computing するが, そはの process after 雑であり, decided to wood や linear モデルのようにに understanding towards human がすることが difficult しい. さらに deep ニューラルネットワークによる forward き branch mow りを line うゲーム wood explore アルゴリズムによる inference の occasions にはよりが difficult となる. この problem point をすべく, wood explore アルゴリズムと deep ニューラルネットワークを group み close わせた interstate の judgment の root 拠となったようなを into force 検 out するアルゴリズムを new たに test case した.

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

囲碁ニューラルネットワークの判断根拠の可視化

Go神经网络决策基础可视化

DOI：
发表时间：
2018
期刊：
第23回ゲームプログラミングワークショップ
影响因子：
0
作者：
山本卓嗣;高田秀志;万代悠作金子知適
通讯作者：
万代悠作金子知適

An Alternative Multitask Training for Evaluation Functions in the Game of Go

围棋评估函数的另一种多任务训练

DOI：
10.1109/taai.2018.00037
发表时间：
2018
期刊：
IEEE Technologies and Applications of Artificial Intelligence
影响因子：
0
作者：
Hiroki Tamari;Shohei Nakamura;Shigeru Takano;Yoshihiro Okada;田中匠，武田直人，関洋平;Yusaku Mandai and Tomoyuki Kaneko
通讯作者：
Yusaku Mandai and Tomoyuki Kaneko

局面の組合せを用いた囲碁評価関数の学習

使用位置组合学习 Go 评估函数