权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

Discrete and Continuous Reinforcement Learning with a Library of Skills and its Application to Robotic Food Manipulation

具有技能库的离散和连续强化学习及其在机器人食品操作中的应用

基本信息

批准号：
21K12070
负责人：
山口明彦
金额：
$ 2.58万
依托单位：
Tohoku University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2021
资助国家：
日本
起止时间：
2021-04-01 至 2024-03-31
项目状态：
已结题

项目摘要

本研究では，スキルの組み合わせ探索とパラメータの最適化で構成される「離散連続強化学習」手法の構築と，これにより，ロボットによって調理などの高度な物体操作を自動化することを目標とする．具体的には，次の(A)(B)(C)を研究項目として設定している．(A)スキルライブラリの構築，(B)スキルライブラリを利用したロボット動作の計画・制御・学習手法の開発，(C)シミュレーションやロボットを用いたタスクでの検証．本年度は，各研究項目について，以下の進展があった．(C-1)視触覚センサFingerVisionを搭載した高機能ロボットハンドを開発し，触覚情報処理プログラムや基本制御プログラムを開発した．このハンドを利用し，(A-1)手探り把持スキルを実装した．回日本ロボット学会学術講演会にて(C-1)(A-1)の学会発表を行った．(C-2)注ぐタスクにおいて，漏斗などの道具の使用やマヨネーズの容器のような柔軟な容器をシミュレーション実験で扱えるようにするためのシミュレータを開発した．このシミュレータは，これまでに我々が開発した注ぐタスクの検証シミュレータを改良する形で行われており，これまでと同様に粘性をもった液体などのシミュレーションが実施できることに加えて，(C-2)の改良が導入されている．この成果を回日本ロボット学会学術講演会にて発表した．このシミュレータを利用し，(A-2)注ぐタスクのための新たなスキルとして漏斗を利用するスキル，柔軟な容器を圧縮するスキルを開発した．さらに，(B-1)提案する離散連続強化学習手法で効率的に扱えるようにするダイナミクスモデルの構成方法を開発した．特に，学習したモデルが異なる状況でも共有できる（再利用できる）ような工夫を導入することで，学習効率を向上させることに成功した．一連の成果は国際会議にて発表した．

Group, this study ではスキルのみ close わせ explore とパラメータの optimization で constitute される "discrete 続 reinforcement learning" gimmick の build と, これにより, ロボットによって regulate などの highly な object operation を automation することを target とする. The specific にに, sub-projects of <s:1> (A)(B)(C)を set up とてて and <s:1> てるる. (A) スキルライブラリの building, (B) スキルライブラリを using したロボット action の royal, learning plan, system technique の発, (C) シミュレーションやロボットを with いたタスクでの検 certificate. This year に, each research project ににててて the following is the progress of があった. (C - 1) contact 覚センサ FingerVision を carry した high-functioning ロボットハンドを open 発し, touch 覚 intelligence 処 Richard プログラムや basic suppression プログラムを open 発した. <s:1> ハドをドを use ハ, (A-1) hand probe <s:1> hold スキをを equipment た. Return to the academic lecture meeting of the ロボット society in Japan にて(C-1)(A-1) ロボット society release schedule を visit った. (C - 2) note ぐタスクにおいて, funnel などの props の use やマヨネーズの container のような soft な container をシミュレーション be 験で Cha えるようにするためのシミュレータを open 発した. このシミュレータは, これまでに I 々が open 発した note ぐタスクの検 card シミュレータを improved する line shape でわれており, これまでと with others に viscous をもった liquid などのシミュレーションが be applied できることに plus えて, (C - 2) modified がの import されている. The を results of を will be presented at the academic lecture of the Japan ロボット society にて and た. このシミュレータを using し, (A - 2) note ぐタスクのための new たなスキルとして funnel を using するスキル, soft な container を圧 shrinkage するスキルを open 発した. さらに, (1 B) proposal する discrete even 続 reinforcement learning technique could promote behavior rate でに Cha えるようにするダイナミクスモデルの composition method を open 発した. に, learning したモデルが different なる condition でも mutual できる (reuse できる) ような time を import することで, study working rate を up させることに successful した. A series of achievements were presented at the にて international conference た.