权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

安全性を保証したヘテロジニアスなマルチロボットシステムの学習制御

安全有保障的异构多机器人系统的学习控制

基本信息

批准号：
21J10780
负责人：
池本隼也
金额：
$ 1.09万
依托单位：
Osaka University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2021
资助国家：
日本
起止时间：
2021-04-28 至 2023-03-31
项目状态：
已结题

项目摘要

信号時相論理(Signal Temporal Logic, STL)で記述された制御仕様を満たすための深層強化学習に関する研究をおこなった．主に下記の2つの課題に取り組んだ．1) ネットワーク化制御への応用遠隔に制御対象を制御するネットワーク化制御では，制御対象と制御器との間のデータ転送に遅延が生じる．本研究では，遅延の影響を考慮した上で，STL仕様を満たす方策を学習する手法を考案した．一般に，時間的な制御仕様を満たすためには過去のシステムの状態列が必要となるが，加えて，遅延を学習主体が考慮できるよう，過去の制御入力列も環境の状態の一部として利用する手法を考案し，シミュレーションによってその有効性を確認した．この研究成果を査読つき国際会議にて発表した．2) STL制約つき深層強化学習の開発本研究では，燃料消費量などのSTL仕様とは別の制御指標を定義し，STL仕様を満たすという制約の下で，制御指標に関して方策の最適化をおこなうアルゴリズムを考案した．制約付き最適制御問題を，制約付きマルコフ決定過程(Constrained Markov Decision Process, CMDP)によって定式化し，このCMDPに対してラグランジュ緩和を用いたアルゴリズムによって所望の方策を設計する方法を開発した．ただ，学習初期の段階では，制約と制御指標の両立が難しかったため，まずはSTL仕様を満たす方策を事前学習し，その方策をもとに，制御指標に関して方策を最適化するアルゴリズムを提案し，その有効性をシミュレーションによって確認した．この研究成果は査読付き英文誌に掲載された．最終的にはマルチロボットシステムへの応用までは遂行できなかったが，時相論理を用いることで，より広いクラスの安全性を考えることが可能となった点から，当初の研究計画では想定していない進展があったと評価する．

Logical Signal phase, Signal Temporal Logic, STL) account でされた suppression shi others を against たすための deep reinforcement learning に masato する research をおこなった. The main subject に is denoted by に 2 にに the subject に takes the sequence んだ. 1) ネットワーク the suppression への応 with far に suppression like を seaborne suppression するネットワーク the suppression では, royal elephant と seaborne &broom imperial unit との between のデータ planning send に遅 delay が raw じる. This study では, 遅の influence を consider したで, STL shi others を against たす order を learning すしる gimmick を test case た. Time, generally にな suppression shi others を against たすためには past のシステムの status column が necessary となるが, plus えて, 遅 delay をが consider learning subject できるよう, past の suppression column into force status of environmental のもの a として using する gimmick しを test case, シミュレーションによってその have sharper sex を confirm した. The research results of たを check 読読にて international conference にて release table たた. 2) the STL restrict つき deep reinforcement learning の open 発 this study では, fuel consumption などの STL shi others とは don't のを definition し suppression index, STL shi others を against たすという restriction ので, the suppression index に masato して order optimal のをおこなうアルゴリズムを test case した. Constrained Markov <s:1> optimal control problem を, constrained markov をコフコフコフ the Constrained Markov Decision Process (CMDP)によって formulaic によってこの CMDP にし seaborne てラグランジュ ease を with いたアルゴリズムによって hoped の order を design する method を open 発した. ただ, study early の Duan Jie では, restricting と suppression index の struck made が difficult しかったため, まずは STL shi others を against たす order を prior learning しその order をもとに, suppression index に masato して order optimal をするアルゴリズムを proposal し, その have sharper sex をシミュレーションによって confirm した. The research results of <s:1> 読 were published in the 読 English journal に at された. Final にはマルチロボットシステムへの応 by までは carries out できなかったが, phase when logical を with いることで, より hiroo いクラスの security を exam えることが may となった point から, の original research projects では scenarios していない progress があったと review 価する.

项目成果

期刊论文数量（8）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

Deep Reinforcement Learning Based Networked Control with Network Delays for Signal Temporal Logic Specifications

DOI：
10.1109/etfa52439.2022.9921505
发表时间：
2021-08
期刊：
2022 IEEE 27th International Conference on Emerging Technologies and Factory Automation (ETFA)
影响因子：
0
作者：
Junya Ikemoto;T. Ushio
通讯作者：
Junya Ikemoto;T. Ushio

Continuous deep Q-learning with a simulator for stabilization of uncertain discrete-time systems

使用模拟器进行连续深度 Q 学习，以稳定不确定离散时间系统