深層強化学習技術の導入によるカオスベース強化学習の性能向上

通过引入深度强化学习技术提高基于混沌的强化学习性能

基本信息

  • 批准号:
    22K17969
  • 负责人:
  • 金额:
    $ 2.91万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

本研究の目的は,カオスベース強化学習(CBRL)に深層強化学習の技術を導入し学習性能を向上させることである。CBRLとはリザバーネットワーク(RN)などのような動的な学習システムが,自身の内的なカオスダイナミクスによって環境内で探索活動を行い学習する強化学習手法である。本研究では,CBRLは従来の乱数を用いて探索を行う強化学習と違い探索まで含めた学習が可能となるのではないかと期待している。深層強化学習において学習性能を向上させるために用いられる強力な手法の一つに経験リプレイがある。これは,環境との相互作用によって得られた過去の経験を保存しておき,それらをサンプリングすることで学習する手法である。RNを用いた深層強化学習のアプローチの一つとして,学習のための計算処理を必要としないRNに入力を与え,その出力をリプレイメモリに保存することで時系列処理の学習を効率化する手法がある。本研究ではまず,この手法を用いてカオスベース強化学習と深層強化学習の融合を図りCBRLの性能向上を試みる。強化学習において連続値行動を扱う場合の学習手法の一つとしてActor-Critic(AC)がある。ACでは,連続値行動を出力するActorと状態行動価値を出力するCriticとに分けてエージェントネットワークを構成し学習を行う。従来のCBRL研究においては探索方向のベクトルとしての乱数が必要なAC手法を用いて学習していたため,乱数を用いないCBRLにとって連続値行動出力の学習は本質的に難しかった。そこで,今年度はこれまでとは異なるAC手法であるTD3により課題の解決を試みた。TD3では,Actorの学習にCriticネットワークから伝わる勾配情報を用いるため,探索ベクトルを必要としない。この手法により,CBRLにおいても連続値行動の学習が可能になった。
は の purpose, this study カ オ ス ベ ー ス reinforcement learning (CBRL) に deep reinforcement learning を の technology import し study performance を up さ せ る こ と で あ る. CBRL と は リ ザ バ ー ネ ッ ト ワ ー ク (RN) な ど の よ う な moving な learning シ ス テ ム が, within their own の な カ オ ス ダ イ ナ ミ ク ス に よ っ て environment で exploration line を い learning す る reinforcement learning methods で あ る. This study で は, CBRL は 従 to の random number を with い て exploration line を う reinforcement learning と violations い explore ま で containing め た learning が may と な る の で は な い か と expect し て い る. Deep reinforcement learning に お い て study performance を up さ せ る た め に with い ら れ る powerful な gimmick の a つ に 経 験 リ プ レ イ が あ る. こ れ は, environmental と の interaction に よ っ て have ら れ た past の 経 験 を save し て お き, そ れ ら を サ ン プ リ ン グ す る こ と study で す る gimmick で あ る. RN を with い た deep reinforcement learning の ア プ ロ ー チ の a つ と し て, learning の た め の computing 処 Richard を necessary と し な い RN に を into force and え そ の output を リ プ レ イ メ モ リ に save す る こ と で series 処 reason の learn を sharper rate change す る gimmick が あ る. This study で は ま ず, こ の gimmick を with い て カ オ ス ベ ー ス reinforcement learning と deep reinforcement learning の fusion を 図 り CBRL の performance up を try み る. Reinforcement learning にお て て continuous 続 value action を handling う situation <s:1> learning method <e:1> one と と て てActor-Critic (AC) がある. AC で は, even on 続 numerical action を output す る Actor と state action on 価 numerical を output す る Critic と に points け て エ ー ジ ェ ン ト ネ ッ ト ワ ー ク を constitute し learning う を line. 従 to の CBRL research に お い て は exploration direction の ベ ク ト ル と し て の random number が な AC technique を with necessary い て learning し て い た た め, random number を with い な い CBRL に と っ て even 続 numerical efforts の は essential に learning difficult し か っ た. Youdaoplaceholder0 で で で, this year 's <s:1> れまでと れまでと <e:1> topic of the なるAC method であるTD3によ によ みた is to solve を attempts みた. TD3 で は, Actor の learning に Critic ネ ッ ト ワ ー ク か ら 伝 わ る hooks with intelligence を い る た め, explore ベ ク ト ル を necessary と し な い. The <s:1> <s:1> technique によ によ, CBRLにお て て 続 in connection with 続 value action <e:1> learning が may になった.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

松木 俊貴其他文献

平均テンプレートと複数DTW重み付統合のオンライン署名照合
平均模板在线签名匹配及多重DTW加权积分
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    寺島 雅人;松木 俊貴;大川 学;大川 学;大川 学;大川 学;大川 学
  • 通讯作者:
    大川 学
Deep Learningによる指文字認識システムの開発
利用深度学习开发手指字符识别系统
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高橋真司;仲間 祐貴;土門 寛幸;中村 達哉;松木 俊貴
  • 通讯作者:
    松木 俊貴
組込みシステム実習教育を支援するための拡張現実感による学習情報の可視化
利用增强现实实现学习信息可视化,支持嵌入式系统培训教育
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高橋真司;仲間 祐貴;土門 寛幸;中村 達哉;松木 俊貴;小木曽 晴信・矢ケ崎 朋樹;原槙 稔幸
  • 通讯作者:
    原槙 稔幸
深層強化学習で非線形な制御が学習できるか~オートエンコーダによる入力圧縮の導入~
是否可以使用深度强化学习来学习非线性控制?使用自动编码器引入输入压缩?
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    寺島 雅人;松木 俊貴
  • 通讯作者:
    松木 俊貴
平均テンプレートと複数DTWの重み付き統合によるオンライン署名照合
使用平均模板和多个DTW的加权集成进行在线签名匹配
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    寺島 雅人;松木 俊貴;大川 学;大川 学;大川 学;大川 学
  • 通讯作者:
    大川 学

松木 俊貴的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('松木 俊貴', 18)}}的其他基金

深層強化学習で非線形な制御が学習できるか~物理演算ゲームの学習を通じた検証~
是否可以通过学习物理游戏来使用深度强化学习来学习非线性控制?
  • 批准号:
    18H00543
  • 财政年份:
    2018
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists
Deep LearningとKinectセンサによる手話認識システムの開発
使用深度学习和 Kinect 传感器开发手语识别系统
  • 批准号:
    17H00380
  • 财政年份:
    2017
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists
聴覚障害者福祉の向上を目指したDeep Learning手話認識システムの開発
开发深度学习手语识别系统,旨在改善听力障碍者的福利
  • 批准号:
    16H00392
  • 财政年份:
    2016
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists

相似海外基金

超高速コヒーレント光パルス伝送技術に基づく大容量複素リザバーコンピューティング
基于超快相干光脉冲传输技术的大容量复杂油藏计算
  • 批准号:
    24K00878
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
強誘電体デバイスを用いたリザバーコンピューティングの実証と高性能化
使用铁电器件进行储层计算的演示和性能改进
  • 批准号:
    24KJ0561
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Construction of a programmable chemical computer driven by chemical oscillator networks
化学振荡器网络驱动的可编程化学计算机的构建
  • 批准号:
    23K03257
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
合成開口レーダ画像データの適応的処理のためのリザバーコンピューティングの体系化
合成孔径雷达图像数据自适应处理的储层计算系统化
  • 批准号:
    23KJ0549
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Development of cluster-based reduced-order model for optimal feedback control of dynamic stall flow
开发基于集群的动态失速流最优反馈控制降阶模型
  • 批准号:
    22KJ0183
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
セレン化銀ナノワイヤを用いたリザバーコンピューティングデバイスの開発と評価
使用硒化银纳米线的储层计算装置的开发和评估
  • 批准号:
    22KJ2493
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
興奮抑制バランスを用いたリザバー層の自律的構成
利用激励抑制平衡的储层自主配置
  • 批准号:
    22K12202
  • 财政年份:
    2022
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Cognitive sensing system where machines perform machine learning
机器执行机器学习的认知传感系统
  • 批准号:
    22K18289
  • 财政年份:
    2022
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Pioneering)
Continuous healthcare sensor patch with immediate data analysis function
具有即时数据分析功能的连续医疗保健传感器贴片
  • 批准号:
    22H00594
  • 财政年份:
    2022
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
エッジ応用に向けた超低消費電力スパイキングニューラルネットワークハードウェア
适用于边缘应用的超低功耗尖峰神经网络硬件
  • 批准号:
    22H03657
  • 财政年份:
    2022
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了