安全性と信頼性を備えたロボット強化学習の技術基盤の創出
为安全可靠的机器人强化学习奠定技术基础
基本信息
- 批准号:21H03522
- 负责人:
- 金额:$ 11.15万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
2022年度は、初年度に検討したロボット強化学習における(1)試行錯誤の安全性と(2)学習の信頼性に関する理論をベースとする(1)安全性と信頼性を備えた深層強化学習アルゴリズムの開発と、(2)実機実験環境の構築に従事した。(1) 前年度に構築した理論をベースに、実用性の高いロボット深層強化学習アルゴリズムの開発に取り組んだ。具体的には、安全性を担保する環境不確実性に応じた制御入力強度の動的制約と、信頼性を担保する更新方策の改善性を予測するExpected Policy Advantage(EPA)の両方を考慮したアルゴリズムを導出した。さらに、導出したアルゴリズムの有効性を検証するために、シミュレーション実験を行った。この実験では、強化学習のメタパラメータ設定や離散行動空間の設定の精度に対する方策改善効果を調査し、従来手法と比較して提案手法の優位性を確認した。また、別のアプローチとして、教示データやタスク依存の付加情報を活用し、方策改善の信頼性を向上させる手法も開発した。(2) 開発するロボット強化学習アルゴリズムの有効性の検証用に、実機実験環境の構築に取り組んだ。速度制御モードや、力・トルクセンサを利用したバーチャルインピーダンス制御が利用可能な協働ロボットアームを購入し、モーションキャプチャや画像・深度カメラと統合した実験環境を構築した。さらに、物理接触を豊富に伴う作業として「部品組み立て作業」と「調理作業」を想定した作業タスクを設計・実装した。さらに、提案手法の汎用性の検証用環境として、所属機関が保有するプールおよび水中ドローンを活用した水中作業環境の構築にも取り組んだ。ドローンの位置を計測するセンサを購入し、実装および必要ソフトウェアを開発した。
Early 2022 annual は, annual に beg し 検 た ロ ボ ッ ト reinforcement learning に お け る (1) trial error の security と learning (2) the letter の 頼 に masato す る theory を ベ ー ス と す る (1) security と letter 頼 を prepared え た deep reinforcement learning ア ル ゴ リ ズ ム の open 発 と, (2) be machine be 験 environment の construct に 従 matter し た. (1) year before に build し た theory を ベ ー ス に, be use sex の high い ロ ボ ッ ト deep reinforcement learning ア ル ゴ リ ズ ム の open 発 に group take り ん だ. Specific に は, security を guarantee す る environment uncertainty be sex に 応 じ た suppression strength の dynamic restriction と into force, letter 頼 を guarantee す る update order の improve sexual を be す る Expected Policy Advantage (EPA) の struck を take し た ア ル ゴ リ ズ ム を export し た. さ ら に, export し た ア ル ゴ リ ズ ム の have sharper sex を 検 card す る た め に, シ ミ ュ レ ー シ ョ ン be 験 を line っ た. こ の be 験 で は, reinforcement learning の メ タ パ ラ メ ー タ setting の や discrete action space setting の precision に す seaborne る in order to improve working fruit を し, 従 gimmick と compare し て proposal gimmick の primacy を confirm し た. ま た, don't の ア プ ロ ー チ と し て, teaching デ ー タ や タ ス ク dependent の plus intelligence を use し upward, in order to improve の letter 頼 を さ せ る gimmick も open 発 し た. (2) Develop するロボット reinforcement learning ア ア ゴリズム ゴリズム <s:1> effectiveness <e:1> proof using に, real machine and experimental environment <e:1> to construct に and <s:1> groups んだ. Speed suppression モ ー ド や, Rio DE ト ル ク セ ン サ を using し た バ ー チ ャ ル イ ン ピ ー ダ ン ス suppression が may use な association 働 ロ ボ ッ ト ア ー ム を buy し, モ ー シ ョ ン キ ャ プ チ ャ や portraits, depth カ メ ラ と integration し た be 験 environment を construct し た. さ ら に, physical contact を aboundant に with う homework と し て "part group み made て operations" と "operations" を scenarios し た homework タ ス ク を design, be installed し た. さ ら に, the proposed technique の domestic の 検 card with environmental と し て, subordinate machine masato が retain す る プ ー ル お よ び water ド ロ ー ン を use し た water work environment の build に も group take り ん だ. Youdaoplaceholder0 ドロ <e:1> <s:1> location を measurement するセ <e:1> サを サを purchase <s:1> actual installation および necessary ソフトウェアを development た.
项目成果
期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Goal-aware generative adversarial imitation learning from imperfect demonstration for robotic cloth manipulation
- DOI:10.1016/j.robot.2022.104264
- 发表时间:2022-09-20
- 期刊:
- 影响因子:4.3
- 作者:Tsurumine, Yoshihisa;Matsubara, Takamitsu
- 通讯作者:Matsubara, Takamitsu
Cautious Actor-Critic
- DOI:
- 发表时间:2021-07
- 期刊:
- 影响因子:0
- 作者:Lingwei Zhu;Toshinori Kitamura;Takamitsu Matsubara
- 通讯作者:Lingwei Zhu;Toshinori Kitamura;Takamitsu Matsubara
Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning
- DOI:
- 发表时间:2021-07
- 期刊:
- 影响因子:0
- 作者:Toshinori Kitamura;Lingwei Zhu;Takamitsu Matsubara
- 通讯作者:Toshinori Kitamura;Lingwei Zhu;Takamitsu Matsubara
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
松原 崇充其他文献
人間動作より抽出される低次元特徴空間におけるヒューマノイドの全身運動制御
从人体运动中提取的低维特征空间中的仿人全身运动控制
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
Takamitsu Matsubara;Jun Morimoto;Jun Nakanishi;Masa-aki Sato;Kenji Doya;Takamitsu Matsubara;松原 崇充;Takamitsu Matsubara;松原 崇充;松原 崇充 - 通讯作者:
松原 崇充
A Gaussian Process-Based Active Learning Approach for Exoskeleton Robots
一种基于高斯过程的外骨骼机器人主动学习方法
- DOI:
10.11509/isciesci.62.10_423 - 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
濱屋 政志;松原 崇充;森本 淳 - 通讯作者:
森本 淳
見かけ上の誤差に頑健なシミュレーションから実環境への方策転移学習
从模拟到真实环境的策略迁移学习对明显错误具有鲁棒性
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
則永 悠;小澤 裕斗;松原 崇充 - 通讯作者:
松原 崇充
フロー合成したコポリマーに対する機械学習予測の量子化学計算による外挿性向上
使用量子化学计算改进流合成共聚物的机器学习预测的外推
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
高須賀 聖五;及川 駿登;吉村 誠慶;伊藤 翔;原嶋 庸介;高山 大鑑;浅野 重人;黒澤 哲;菅原 哲徳;畑中 美穂;宮尾 知幸;松原 崇充;大西 裕也;網代 広治;藤井 幹也 - 通讯作者:
藤井 幹也
平均報酬の多様体に基づく方策勾配法
基于平均奖励流形的策略梯度方法
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
Takamitsu Matsubara;Jun Morimoto;Jun Nakanishi;Masa-aki Sato;Kenji Doya;Takamitsu Matsubara;松原 崇充 - 通讯作者:
松原 崇充
松原 崇充的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('松原 崇充', 18)}}的其他基金
日常作業データによる模倣学習技術基盤の確立
利用日常工作数据建立模仿学习技术库
- 批准号:
24K03018 - 财政年份:2024
- 资助金额:
$ 11.15万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
学習システムを備えた生物規範に基づく2足歩行の実現
通过学习系统实现基于生物规范的双足运动
- 批准号:
05J02829 - 财政年份:2005
- 资助金额:
$ 11.15万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
Discrete and Continuous Reinforcement Learning with a Library of Skills and its Application to Robotic Food Manipulation
具有技能库的离散和连续强化学习及其在机器人食品操作中的应用
- 批准号:
21K12070 - 财政年份:2021
- 资助金额:
$ 11.15万 - 项目类别:
Grant-in-Aid for Scientific Research (C)