安全性を保証したヘテロジニアスなマルチロボットシステムの学習制御
安全有保障的异构多机器人系统的学习控制
基本信息
- 批准号:21J10780
- 负责人:
- 金额:$ 1.09万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-28 至 2023-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
信号時相論理(Signal Temporal Logic, STL)で記述された制御仕様を満たすための深層強化学習に関する研究をおこなった.主に下記の2つの課題に取り組んだ.1) ネットワーク化制御への応用遠隔に制御対象を制御するネットワーク化制御では,制御対象と制御器との間のデータ転送に遅延が生じる.本研究では,遅延の影響を考慮した上で,STL仕様を満たす方策を学習する手法を考案した.一般に,時間的な制御仕様を満たすためには過去のシステムの状態列が必要となるが,加えて,遅延を学習主体が考慮できるよう,過去の制御入力列も環境の状態の一部として利用する手法を考案し,シミュレーションによってその有効性を確認した.この研究成果を査読つき国際会議にて発表した.2) STL制約つき深層強化学習の開発本研究では,燃料消費量などのSTL仕様とは別の制御指標を定義し,STL仕様を満たすという制約の下で,制御指標に関して方策の最適化をおこなうアルゴリズムを考案した.制約付き最適制御問題を,制約付きマルコフ決定過程(Constrained Markov Decision Process, CMDP)によって定式化し,このCMDPに対してラグランジュ緩和を用いたアルゴリズムによって所望の方策を設計する方法を開発した.ただ,学習初期の段階では,制約と制御指標の両立が難しかったため,まずはSTL仕様を満たす方策を事前学習し,その方策をもとに,制御指標に関して方策を最適化するアルゴリズムを提案し,その有効性をシミュレーションによって確認した.この研究成果は査読付き英文誌に掲載された.最終的にはマルチロボットシステムへの応用までは遂行できなかったが,時相論理を用いることで,より広いクラスの安全性を考えることが可能となった点から,当初の研究計画では想定していない進展があったと評価する.
Logical Signal phase, Signal Temporal Logic, STL) account で さ れ た suppression shi others を against た す た め の deep reinforcement learning に masato す る research を お こ な っ た. The main subject に is denoted by に 2 に に the subject に takes the sequence んだ. 1) ネ ッ ト ワ ー ク the suppression へ の 応 with far に suppression like を seaborne suppression す る ネ ッ ト ワ ー ク the suppression で は, royal elephant と seaborne &broom imperial unit と の between の デ ー タ planning send に 遅 delay が raw じ る. This study で は, 遅 の influence を consider し た で, STL shi others を against た す order を learning す し る gimmick を test case た. Time, generally に な suppression shi others を against た す た め に は past の シ ス テ ム の status column が necessary と な る が, plus え て, 遅 delay を が consider learning subject で き る よ う, past の suppression column into force status of environmental の も の a と し て using す る gimmick し を test case, シ ミ ュ レ ー シ ョ ン に よ っ て そ の have sharper sex を confirm し た. The research results of た を check 読 読 にて international conference にて release table た た. 2) the STL restrict つ き deep reinforcement learning の open 発 this study で は, fuel consumption な ど の STL shi others と は don't の を definition し suppression index, STL shi others を against た す と い う restriction の で, the suppression index に masato し て order optimal の を お こ な う ア ル ゴ リ ズ ム を test case し た. Constrained Markov <s:1> optimal control problem を, constrained markov を コフ コフ コフ the Constrained Markov Decision Process (CMDP)によって formulaic によって こ の CMDP に し seaborne て ラ グ ラ ン ジ ュ ease を with い た ア ル ゴ リ ズ ム に よ っ て hoped の order を design す る method を open 発 し た. た だ, study early の Duan Jie で は, restricting と suppression index の struck made が difficult し か っ た た め, ま ず は STL shi others を against た す order を prior learning し そ の order を も と に, suppression index に masato し て order optimal を す る ア ル ゴ リ ズ ム を proposal し, そ の have sharper sex を シ ミ ュ レ ー シ ョ ン に よ っ て confirm し た. The research results of <s:1> 読 were published in the 読 English journal に at された. Final に は マ ル チ ロ ボ ッ ト シ ス テ ム へ の 応 by ま で は carries out で き な か っ た が, phase when logical を with い る こ と で, よ り hiroo い ク ラ ス の security を exam え る こ と が may と な っ た point か ら, の original research projects で は scenarios し て い な い progress が あ っ た と review 価 す る.
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Deep Reinforcement Learning Based Networked Control with Network Delays for Signal Temporal Logic Specifications
- DOI:10.1109/etfa52439.2022.9921505
- 发表时间:2021-08
- 期刊:
- 影响因子:0
- 作者:Junya Ikemoto;T. Ushio
- 通讯作者:Junya Ikemoto;T. Ushio
Continuous deep Q-learning with a simulator for stabilization of uncertain discrete-time systems
使用模拟器进行连续深度 Q 学习,以稳定不确定离散时间系统
- DOI:10.1587/nolta.12.738
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Ikemoto Junya;Ushio Toshimitsu
- 通讯作者:Ushio Toshimitsu
Deep Reinforcement Learning Under Signal Temporal Logic Constraints Using Lagrangian Relaxation
- DOI:10.1109/access.2022.3218216
- 发表时间:2022-01
- 期刊:
- 影响因子:3.9
- 作者:Junya Ikemoto;T. Ushio
- 通讯作者:Junya Ikemoto;T. Ushio
信号時相論理仕様を満たす連続行動方策の深層強化学習
用于满足信号时序逻辑规范的连续行动策略的深度强化学习
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Fujimoto Manato;Kariyado Toshikaze;Junya Ikemoto and Toshimitsu Ushio;池本 隼也,潮 俊光
- 通讯作者:池本 隼也,潮 俊光
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
池本 隼也其他文献
池本 隼也的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
時相論理式で与えられた広範な制御仕様を扱うことのできるニューラル制御器の構築
构建可以处理由时序逻辑公式给出的各种控制规范的神经控制器
- 批准号:
23KJ1451 - 财政年份:2023
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for JSPS Fellows
ロングテールアイテム集合に対する時相論理を適用したデータマイニング
将时序逻辑应用于长尾项目集的数据挖掘
- 批准号:
21650054 - 财政年份:2009
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
分岐時間正則時相論理による論理回路の仕様記述・設計検証手法の研究
采用分支时间正则时序逻辑的逻辑电路规范描述及设计验证方法研究
- 批准号:
04750328 - 财政年份:1992
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
リアルタイム時相論理に基づく高速時間検証方式に関する研究
基于实时时序逻辑的高速时间验证方法研究
- 批准号:
04750310 - 财政年份:1992
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
時相論理に基づく論理設計支援の研究
基于时序逻辑的逻辑设计支持研究
- 批准号:
01790381 - 财政年份:1989
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
正則時相論理に基づくハードウェア仕様記述とその検証支援システムの研究
基于正则时序逻辑的硬件规格描述及其验证支持系统研究
- 批准号:
62750322 - 财政年份:1987
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)