权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

深層強化学習技術の導入によるカオスベース強化学習の性能向上

通过引入深度强化学习技术提高基于混沌的强化学习性能

基本信息

批准号：
22K17969
负责人：
松木俊貴
金额：
$ 2.91万
依托单位：
Oita University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Early-Career Scientists
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2026-03-31
项目状态：
未结题

项目摘要

本研究の目的は，カオスベース強化学習(CBRL)に深層強化学習の技術を導入し学習性能を向上させることである。CBRLとはリザバーネットワーク（RN）などのような動的な学習システムが，自身の内的なカオスダイナミクスによって環境内で探索活動を行い学習する強化学習手法である。本研究では，CBRLは従来の乱数を用いて探索を行う強化学習と違い探索まで含めた学習が可能となるのではないかと期待している。深層強化学習において学習性能を向上させるために用いられる強力な手法の一つに経験リプレイがある。これは，環境との相互作用によって得られた過去の経験を保存しておき，それらをサンプリングすることで学習する手法である。RNを用いた深層強化学習のアプローチの一つとして，学習のための計算処理を必要としないRNに入力を与え，その出力をリプレイメモリに保存することで時系列処理の学習を効率化する手法がある。本研究ではまず，この手法を用いてカオスベース強化学習と深層強化学習の融合を図りCBRLの性能向上を試みる。強化学習において連続値行動を扱う場合の学習手法の一つとしてActor-Critic（AC）がある。ACでは，連続値行動を出力するActorと状態行動価値を出力するCriticとに分けてエージェントネットワークを構成し学習を行う。従来のCBRL研究においては探索方向のベクトルとしての乱数が必要なAC手法を用いて学習していたため，乱数を用いないCBRLにとって連続値行動出力の学習は本質的に難しかった。そこで，今年度はこれまでとは異なるAC手法であるTD3により課題の解決を試みた。TD3では，Actorの学習にCriticネットワークから伝わる勾配情報を用いるため，探索ベクトルを必要としない。この手法により，CBRLにおいても連続値行動の学習が可能になった。

はの purpose, this study カオスベース reinforcement learning (CBRL) に deep reinforcement learning をの technology import し study performance を up させることである. CBRL とはリザバーネットワーク (RN) などのような moving な learning システムが, within their own のなカオスダイナミクスによって environment で exploration line をい learning する reinforcement learning methods である. This study では, CBRL は従 to の random number を with いて exploration line をう reinforcement learning と violations い explore まで containing めた learning が may となるのではないかと expect している. Deep reinforcement learning において study performance を up させるために with いられる powerful な gimmick の a つに経験リプレイがある. これは, environmental との interaction によって have られた past の経験を save しておき, それらをサンプリングすること study でする gimmick である. RN を with いた deep reinforcement learning のアプローチの a つとして, learning のための computing 処 Richard を necessary としない RN にを into force and えその output をリプレイメモリに save することで series 処 reason の learn を sharper rate change する gimmick がある. This study ではまず, この gimmick を with いてカオスベース reinforcement learning と deep reinforcement learning の fusion を図り CBRL の performance up を try みる. Reinforcement learning におてて continuous 続 value action を handling う situation <s:1> learning method <e:1> one ととててActor-Critic (AC) がある. AC では, even on 続 numerical action を output する Actor と state action on 価 numerical を output する Critic とに points けてエージェントネットワークを constitute し learning うを line. 従 to の CBRL research においては exploration direction のベクトルとしての random number がな AC technique を with necessary いて learning していたため, random number を with いない CBRL にとって even 続 numerical efforts のは essential に learning difficult しかった. Youdaoplaceholder0 ででで, this year 's <s:1> れまでとれまでと <e:1> topic of the なるAC method であるTD3によによみた is to solve を attempts みた. TD3 では, Actor の learning に Critic ネットワークから伝わる hooks with intelligence をいるため, explore ベクトルを necessary としない. The <s:1> <s:1> technique によによ, CBRLにおてて続 in connection with 続 value action <e:1> learning が may になった.