权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

方策勾配法に基づく強化学習法と複雑システム制御への応用

基于策略梯度法的强化学习方法及其在复杂系统控制中的应用

基本信息

批准号：
05J02773
负责人：
森健
金额：
$ 1.15万
依托单位：
Nara Institute of Science and Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2005
资助国家：
日本
起止时间：
2005 至 2006
项目状态：
已结题

项目摘要

近年提案されたNatural Actor-Critic法と呼ばれる方策勾配法は、速く確実に学習できる強化学習法として注目されている。しかし、方策を改善するごとに過去の方策の下で生成したサンプルを捨てなければならないという問題があった。これに対して、昨年我々が提案した「方策オフ型 Natural Actor-Critic法(Off-NAC法)」と呼ぶ方策勾配法は、過去の方策の下で生成したサンプルを現在の方策勾配の推定に再利用することができる。このため、サンプルの生成が困難である実システム(複雑システム)の制御則獲得課題に対しても、少ないサンプル数で速く学習することができると考えられ、シミュレーション実験によりその有効性を示した。本年はまず、Off-NAC法の分散分析を行い、過去の方策の下で生成した系列の長さに依存して、方策勾配推定の分散が指数関数的に大きくなることを検証した。この問題を回避するためには、系列の長さを有限にする必要があるが、従来のTD法を用いて方策勾配推定を行った場合、方策勾配推定が発散する可能性が生じる。しかし、off-NAC法では、最小二乗法に基づくTD法である「方策オフ型LSTD(λ)法」を提案し用いており、従来のTD法と収束条件が異なる。我々は、方策オフ型LSTD(λ)法が、任意の長さの系列を用いた場合でも収束することを証明し、従来のTD法では発散するシミュレーション課題において、収束することを示した。これにより、off-NAC法が、これまで提案されてきた重点サンプリングに基づく方策オフ型強化学習法の中で、唯一収束が保証されることを示すことができた。その他、近年提案された隠れマルコフモデルに基づく方策勾配法をマルチエージェント課題に適用した。他のエージェントのダイナミクスの特徴を、内部状態遷移モデルとして抽出することができ、従来法よりも良い性能を持つことを示した。

Recent proposal された Natural Actor - と Critic method called ばれる order hook method は, speed く really be に learning できる reinforcement learning method として attention されている. しかし, order を improve するごとに past の order under ので generated したサンプルを shed てなければならないという problem があった. これにし seaborne て, yesterday I 々が proposal した "order オフ type Natural Actor - Critic method (NAC) Off -" と shout ぶ order hook method は, past の order under ので generated したサンプルをの now in order to hang up with presumption のに reuse することができる. このため, サンプルの generated が difficult である be システム (after 雑システム) の suppression received subject にし seaborne ても, less ないサンプル number で speed く learning することができると exam えられ, シミュレーション be 験によりその have sharper sex を shown した. This year はまず, Off - line NAC の dispersion analysis をい, past の order under ので generated した long series のさに dependent して presumption, in order to hang up with の scattered が index number of masato に big きくなることを検 card した. この problem を avoid するためには, long series のさを limited にする necessary があるが, 従のを TD method with いて in order to hang up with presumed line をった occasions, in order to hang up with presumed が発 scattered する possibility が raw じる. しかし, off - NAC では, least squares method にづく TD method である "order オフ type LSTD method (lambda)" を proposal し with いており, 従 to の TD と収が beam conditions different なる. Type I 々は, order オフ LSTD が (lambda) method, the arbitrary のさの series をいた occasions でも収 beam することを prove し, 従 to の TD では発 scattered するシミュレーション subject において, 収することを shown した. これにより, off - NAC が, これまで proposal されてきた key サンプリングに base づく order オフで in reinforcement learning method の, only 収 beam が guarantee されることを shown すことができた. Government その him, and in recent years, proposed されたれマルコフモデルに base づく order hook match method をマルチエージェント subject に applicable した. He のエージェントのダイナミクスの, 徴を, internal state transition モデルとして spare することができ, 従 to よりいも good performance を hold つことを shown した.

项目成果

期刊论文数量（5）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

Reinforcement learning for a biped robot based on a CPG-actor-critic method

DOI：
10.1016/j.neunet.2007.01.002
发表时间：
2007-08
期刊：
Neural networks : the official journal of the International Neural Network Society
影响因子：
0
作者：
Yutaka Nakamura;Takeshi Mori;Masa-aki Sato;S. Ishii
通讯作者：
Yutaka Nakamura;Takeshi Mori;Masa-aki Sato;S. Ishii

Off-Policy Natural Policy Gradient Method for a Biped Walking Using a CPG Controller

DOI：
10.20965/jrm.2005.p0636
发表时间：
2005-12
期刊：
J. Robotics Mechatronics
影响因子：
0
作者：
Yutaka Nakamura;Takeshi Mori;Yoichi Tokita;T. Shibata;S. Ishii
通讯作者：
Yutaka Nakamura;Takeshi Mori;Yoichi Tokita;T. Shibata;S. Ishii

重点サンプリングに基づく natural actor-critic 法による効果的なサンプルの再利用

使用基于加权采样的自然行动者批评方法进行有效的样本重用

DOI：
发表时间：
2006
期刊：
電子情報通信学会論文誌 J89-D・5
影响因子：
0
作者：
Masae Naruse;et al.;Akiko Hasegawa et al.;Takahashi Satoko;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Yutaka Nakamura;森健
通讯作者：
森健

重点サンプリングに基づくnatural actor-critic法による効果的なサンプルの再利用

使用基于加权采样的自然行动者批评方法进行有效的样本重用

DOI：
发表时间：
2006
期刊：
電子情報通信学会論文誌 J89-D・5
影响因子：
0
作者：
Masae Naruse;et al.;Akiko Hasegawa et al.;Takahashi Satoko;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Yutaka Nakamura;森健;森健
通讯作者：
森健

Off-Policy Natural Actor-Critic

非政策自然演员评论家

DOI：
发表时间：
2005
期刊：
NAIST Technical Report 20050007
影响因子：
0
作者：
Masae Naruse;et al.;Akiko Hasegawa et al.;Takahashi Satoko;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Yutaka Nakamura;森健;森健;T.Mori
通讯作者：
T.Mori