权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

安全性と信頼性を備えたロボット強化学習の技術基盤の創出

为安全可靠的机器人强化学习奠定技术基础

基本信息

批准号：
21H03522
负责人：
松原崇充
金额：
$ 11.15万
依托单位：
Nara Institute of Science and Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (B)
财政年份：
2021
资助国家：
日本
起止时间：
2021-04-01 至 2024-03-31
项目状态：
已结题

项目摘要

2022年度は、初年度に検討したロボット強化学習における(1)試行錯誤の安全性と(2)学習の信頼性に関する理論をベースとする(1)安全性と信頼性を備えた深層強化学習アルゴリズムの開発と、(2)実機実験環境の構築に従事した。(1) 前年度に構築した理論をベースに、実用性の高いロボット深層強化学習アルゴリズムの開発に取り組んだ。具体的には、安全性を担保する環境不確実性に応じた制御入力強度の動的制約と、信頼性を担保する更新方策の改善性を予測するExpected Policy Advantage(EPA)の両方を考慮したアルゴリズムを導出した。さらに、導出したアルゴリズムの有効性を検証するために、シミュレーション実験を行った。この実験では、強化学習のメタパラメータ設定や離散行動空間の設定の精度に対する方策改善効果を調査し、従来手法と比較して提案手法の優位性を確認した。また、別のアプローチとして、教示データやタスク依存の付加情報を活用し、方策改善の信頼性を向上させる手法も開発した。(2) 開発するロボット強化学習アルゴリズムの有効性の検証用に、実機実験環境の構築に取り組んだ。速度制御モードや、力・トルクセンサを利用したバーチャルインピーダンス制御が利用可能な協働ロボットアームを購入し、モーションキャプチャや画像・深度カメラと統合した実験環境を構築した。さらに、物理接触を豊富に伴う作業として「部品組み立て作業」と「調理作業」を想定した作業タスクを設計・実装した。さらに、提案手法の汎用性の検証用環境として、所属機関が保有するプールおよび水中ドローンを活用した水中作業環境の構築にも取り組んだ。ドローンの位置を計測するセンサを購入し、実装および必要ソフトウェアを開発した。

Early 2022 annual は, annual に beg し検たロボット reinforcement learning における (1) trial error の security と learning (2) the letter の頼に masato する theory をベースとする (1) security と letter 頼を prepared えた deep reinforcement learning アルゴリズムの open 発と, (2) be machine be 験 environment の construct に従 matter した. (1) year before に build した theory をベースに, be use sex の high いロボット deep reinforcement learning アルゴリズムの open 発に group take りんだ. Specific には, security を guarantee する environment uncertainty be sex に応じた suppression strength の dynamic restriction と into force, letter 頼を guarantee する update order の improve sexual を be する Expected Policy Advantage (EPA) の struck を take したアルゴリズムを export した. さらに, export したアルゴリズムの have sharper sex を検 card するために, シミュレーション be 験を line った. この be 験では, reinforcement learning のメタパラメータ setting のや discrete action space setting の precision にす seaborne る in order to improve working fruit をし, 従 gimmick と compare して proposal gimmick の primacy を confirm した. また, don't のアプローチとして, teaching データやタスク dependent の plus intelligence を use し upward, in order to improve の letter 頼をさせる gimmick も open 発した. (2) Develop するロボット reinforcement learning アアゴリズムゴリズム <s:1> effectiveness <e:1> proof using に, real machine and experimental environment <e:1> to construct に and <s:1> groups んだ. Speed suppression モードや, Rio DE トルクセンサを using したバーチャルインピーダンス suppression が may use な association 働ロボットアームを buy し, モーションキャプチャや portraits, depth カメラと integration した be 験 environment を construct した. さらに, physical contact を aboundant に with う homework として "part group み made て operations" と "operations" を scenarios した homework タスクを design, be installed した. さらに, the proposed technique の domestic の検 card with environmental として, subordinate machine masato が retain するプールおよび water ドローンを use した water work environment の build にも group take りんだ. Youdaoplaceholder0 ドロ <e:1> <s:1> location を measurement するセ <e:1> サをサを purchase <s:1> actual installation および necessary ソフトウェアを development た.

项目成果

期刊论文数量（3）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

Goal-aware generative adversarial imitation learning from imperfect demonstration for robotic cloth manipulation

DOI：
10.1016/j.robot.2022.104264
发表时间：
2022-09-20
期刊：
ROBOTICS AND AUTONOMOUS SYSTEMS
影响因子：
4.3
作者：
Tsurumine, Yoshihisa;Matsubara, Takamitsu
通讯作者：
Matsubara, Takamitsu

Cautious Actor-Critic

DOI：
发表时间：
2021-07
期刊：
ArXiv
影响因子：
0
作者：
Lingwei Zhu;Toshinori Kitamura;Takamitsu Matsubara
通讯作者：
Lingwei Zhu;Toshinori Kitamura;Takamitsu Matsubara

Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning

DOI：
发表时间：
2021-07
期刊：
ArXiv
影响因子：
0
作者：
Toshinori Kitamura;Lingwei Zhu;Takamitsu Matsubara
通讯作者：
Toshinori Kitamura;Lingwei Zhu;Takamitsu Matsubara

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ patent.updateTime }}

松原崇充其他文献

人間動作より抽出される低次元特徴空間におけるヒューマノイドの全身運動制御

从人体运动中提取的低维特征空间中的仿人全身运动控制

DOI：
发表时间：
2007
期刊：
影响因子：
0
作者：
Takamitsu Matsubara;Jun Morimoto;Jun Nakanishi;Masa-aki Sato;Kenji Doya;Takamitsu Matsubara;松原崇充;Takamitsu Matsubara;松原崇充;松原崇充
通讯作者：
松原崇充