方策勾配法に基づく強化学習法と複雑システム制御への応用

基于策略梯度法的强化学习方法及其在复杂系统控制中的应用

基本信息

  • 批准号:
    05J02773
  • 负责人:
  • 金额:
    $ 1.15万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2005
  • 资助国家:
    日本
  • 起止时间:
    2005 至 2006
  • 项目状态:
    已结题

项目摘要

近年提案されたNatural Actor-Critic法と呼ばれる方策勾配法は、速く確実に学習できる強化学習法として注目されている。しかし、方策を改善するごとに過去の方策の下で生成したサンプルを捨てなければならないという問題があった。これに対して、昨年我々が提案した「方策オフ型 Natural Actor-Critic法(Off-NAC法)」と呼ぶ方策勾配法は、過去の方策の下で生成したサンプルを現在の方策勾配の推定に再利用することができる。このため、サンプルの生成が困難である実システム(複雑システム)の制御則獲得課題に対しても、少ないサンプル数で速く学習することができると考えられ、シミュレーション実験によりその有効性を示した。本年はまず、Off-NAC法の分散分析を行い、過去の方策の下で生成した系列の長さに依存して、方策勾配推定の分散が指数関数的に大きくなることを検証した。この問題を回避するためには、系列の長さを有限にする必要があるが、従来のTD法を用いて方策勾配推定を行った場合、方策勾配推定が発散する可能性が生じる。しかし、off-NAC法では、最小二乗法に基づくTD法である「方策オフ型LSTD(λ)法」を提案し用いており、従来のTD法と収束条件が異なる。我々は、方策オフ型LSTD(λ)法が、任意の長さの系列を用いた場合でも収束することを証明し、従来のTD法では発散するシミュレーション課題において、収束することを示した。これにより、off-NAC法が、これまで提案されてきた重点サンプリングに基づく方策オフ型強化学習法の中で、唯一収束が保証されることを示すことができた。その他、近年提案された隠れマルコフモデルに基づく方策勾配法をマルチエージェント課題に適用した。他のエージェントのダイナミクスの特徴を、内部状態遷移モデルとして抽出することができ、従来法よりも良い性能を持つことを示した。
Recent proposal さ れ た Natural Actor - と Critic method called ば れ る order hook method は, speed く really be に learning で き る reinforcement learning method と し て attention さ れ て い る. し か し, order を improve す る ご と に past の order under の で generated し た サ ン プ ル を shed て な け れ ば な ら な い と い う problem が あ っ た. こ れ に し seaborne て, yesterday I 々 が proposal し た "order オ フ type Natural Actor - Critic method (NAC) Off -" と shout ぶ order hook method は, past の order under の で generated し た サ ン プ ル を の now in order to hang up with presumption の に reuse す る こ と が で き る. こ の た め, サ ン プ ル の generated が difficult で あ る be シ ス テ ム (after 雑 シ ス テ ム) の suppression received subject に し seaborne て も, less な い サ ン プ ル number で speed く learning す る こ と が で き る と exam え ら れ, シ ミ ュ レ ー シ ョ ン be 験 に よ り そ の have sharper sex を shown し た. This year は ま ず, Off - line NAC の dispersion analysis を い, past の order under の で generated し た long series の さ に dependent し て presumption, in order to hang up with の scattered が index number of masato に big き く な る こ と を 検 card し た. こ の problem を avoid す る た め に は, long series の さ を limited に す る necessary が あ る が, 従 の を TD method with い て in order to hang up with presumed line を っ た occasions, in order to hang up with presumed が 発 scattered す る possibility が raw じ る. し か し, off - NAC で は, least squares method に づ く TD method で あ る "order オ フ type LSTD method (lambda)" を proposal し with い て お り, 従 to の TD と 収 が beam conditions different な る. Type I 々 は, order オ フ LSTD が (lambda) method, the arbitrary の さ の series を い た occasions で も 収 beam す る こ と を prove し, 従 to の TD で は 発 scattered す る シ ミ ュ レ ー シ ョ ン subject に お い て, 収 す る こ と を shown し た. こ れ に よ り, off - NAC が, こ れ ま で proposal さ れ て き た key サ ン プ リ ン グ に base づ く order オ フ で in reinforcement learning method の, only 収 beam が guarantee さ れ る こ と を shown す こ と が で き た. Government そ の him, and in recent years, proposed さ れ た れ マ ル コ フ モ デ ル に base づ く order hook match method を マ ル チ エ ー ジ ェ ン ト subject に applicable し た. He の エ ー ジ ェ ン ト の ダ イ ナ ミ ク ス の, 徴 を, internal state transition モ デ ル と し て spare す る こ と が で き, 従 to よ り い も good performance を hold つ こ と を shown し た.

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Reinforcement learning for a biped robot based on a CPG-actor-critic method
Off-Policy Natural Policy Gradient Method for a Biped Walking Using a CPG Controller
  • DOI:
    10.20965/jrm.2005.p0636
  • 发表时间:
    2005-12
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yutaka Nakamura;Takeshi Mori;Yoichi Tokita;T. Shibata;S. Ishii
  • 通讯作者:
    Yutaka Nakamura;Takeshi Mori;Yoichi Tokita;T. Shibata;S. Ishii
重点サンプリングに基づく natural actor-critic 法による効果的なサンプルの再利用
使用基于加权采样的自然行动者批评方法进行有效的样本重用
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Masae Naruse;et al.;Akiko Hasegawa et al.;Takahashi Satoko;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Yutaka Nakamura;森 健
  • 通讯作者:
    森 健
重点サンプリングに基づくnatural actor-critic法による効果的なサンプルの再利用
使用基于加权采样的自然行动者批评方法进行有效的样本重用
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Masae Naruse;et al.;Akiko Hasegawa et al.;Takahashi Satoko;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Yutaka Nakamura;森 健;森 健
  • 通讯作者:
    森 健
Off-Policy Natural Actor-Critic
非政策自然演员评论家
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Masae Naruse;et al.;Akiko Hasegawa et al.;Takahashi Satoko;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Hiroki Nakata;Yutaka Nakamura;森 健;森 健;T.Mori
  • 通讯作者:
    T.Mori
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

森 健其他文献

生体分子の効率的捕捉・送達のための高分子ナノカプセルの開発
开发用于有效捕获和递送生物分子的聚合物纳米胶囊
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岸村 顕広;秦 智貴;唐 ヘン敏;劉 一イ;森 健;片山 佳樹
  • 通讯作者:
    片山 佳樹
酵素増感反応による低発現膜タンパク質の検出を目指したキノンメチド型蛍光基質の開発
酶敏反应检测低表达膜蛋白的醌甲基化物型荧光底物的研制
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    桝井 美咲;小野 啓一郎;野口 克也;下村 隆;大内 雄也;石山 宗孝;志賀 匡宣;上野 右一郎;岸村 顕広;森 健;片山 佳樹
  • 通讯作者:
    片山 佳樹
方策こう配法に基づく強化学習法と二足歩行運動制御への応用
基于策略梯度法的强化学习方法及其在双足运动控制中的应用
An improvement key deletiob method for double-array structure using single-nodes
一种改进的单节点双数组结构关键删除方法
ジアミンオキシダーゼ封入PICsomeの開発とヒスタミン分解・除去機能の評価
二胺氧化酶封装的PICsome的开发及组胺分解/去除功能的评价
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    唐 衡敏;森 健;田中智之;片山佳樹;岸村顕広
  • 通讯作者:
    岸村顕広

森 健的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('森 健', 18)}}的其他基金

抗体医薬を真に置き換える小タンパク質医薬の開発
开发真正替代抗体药物的小蛋白药物
  • 批准号:
    23K21153
  • 财政年份:
    2024
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
膜タンパク質のノックダウンを可能にする新しい創薬概念の提案
提出一种能够敲除膜蛋白的新药物发现概念
  • 批准号:
    21K19054
  • 财政年份:
    2021
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
抗体医薬を真に置き換える小タンパク質医薬の開発
开发真正替代抗体药物的小蛋白药物
  • 批准号:
    21H02061
  • 财政年份:
    2021
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
金融機関とのリレーションシップが企業の経営危機に与える影響-距離からのアプローチ
与金融机构的关系对企业管理危机的影响——远程方法
  • 批准号:
    22530382
  • 财政年份:
    2010
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
統計的学習に基づく強化学習に関する研究
基于统计学习的强化学习研究
  • 批准号:
    20700208
  • 财政年份:
    2008
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
導電性高分子のひも状集合体を化学架橋により固定化・被覆したナノ導線の開発
开发具有化学交联固定和涂覆的导电聚合物绳状聚集体的纳米导线
  • 批准号:
    14750711
  • 财政年份:
    2002
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
感熱性ポリマー・DNA複合体の開発と遺伝子診断ならびにDDSへの応用
热敏聚合物/DNA复合物的开发及其在基因诊断和DDS中的应用
  • 批准号:
    99J03315
  • 财政年份:
    1999
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
超塩基性岩の化学的カイネティクスと組織
超镁铁质岩石的化学动力学和结构
  • 批准号:
    58540518
  • 财政年份:
    1983
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
バウシンガー効果の転位構造依存性
包辛格效应对位错结构的依赖性
  • 批准号:
    X00210----575436
  • 财政年份:
    1980
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
部分融解の状態にある岩石の組織, およびマグマの発生と分離の研究
岩石部分熔融状态结构及岩浆生成与分离研究
  • 批准号:
    X00090----554258
  • 财政年份:
    1980
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了