Discrete and Continuous Reinforcement Learning with a Library of Skills and its Application to Robotic Food Manipulation
具有技能库的离散和连续强化学习及其在机器人食品操作中的应用
基本信息
- 批准号:21K12070
- 负责人:
- 金额:$ 2.58万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では,スキルの組み合わせ探索とパラメータの最適化で構成される「離散連続強化学習」手法の構築と,これにより,ロボットによって調理などの高度な物体操作を自動化することを目標とする.具体的には,次の(A)(B)(C)を研究項目として設定している.(A)スキルライブラリの構築,(B)スキルライブラリを利用したロボット動作の計画・制御・学習手法の開発,(C)シミュレーションやロボットを用いたタスクでの検証.本年度は,各研究項目について,以下の進展があった.(C-1)視触覚センサFingerVisionを搭載した高機能ロボットハンドを開発し,触覚情報処理プログラムや基本制御プログラムを開発した.このハンドを利用し,(A-1)手探り把持スキルを実装した.回日本ロボット学会学術講演会にて(C-1)(A-1)の学会発表を行った.(C-2)注ぐタスクにおいて,漏斗などの道具の使用やマヨネーズの容器のような柔軟な容器をシミュレーション実験で扱えるようにするためのシミュレータを開発した.このシミュレータは,これまでに我々が開発した注ぐタスクの検証シミュレータを改良する形で行われており,これまでと同様に粘性をもった液体などのシミュレーションが実施できることに加えて,(C-2)の改良が導入されている.この成果を回日本ロボット学会学術講演会にて発表した.このシミュレータを利用し,(A-2)注ぐタスクのための新たなスキルとして漏斗を利用するスキル,柔軟な容器を圧縮するスキルを開発した.さらに,(B-1)提案する離散連続強化学習手法で効率的に扱えるようにするダイナミクスモデルの構成方法を開発した.特に,学習したモデルが異なる状況でも共有できる(再利用できる)ような工夫を導入することで,学習効率を向上させることに成功した.一連の成果は国際会議にて発表した.
Group, this study で は ス キ ル の み close わ せ explore と パ ラ メ ー タ の optimization で constitute さ れ る "discrete 続 reinforcement learning" gimmick の build と, こ れ に よ り, ロ ボ ッ ト に よ っ て regulate な ど の highly な object operation を automation す る こ と を target と す る. The specific に に, sub-projects of <s:1> (A)(B)(C)を set up と て て and <s:1> て る る. (A) ス キ ル ラ イ ブ ラ リ の building, (B) ス キ ル ラ イ ブ ラ リ を using し た ロ ボ ッ ト action の royal, learning plan, system technique の 発, (C) シ ミ ュ レ ー シ ョ ン や ロ ボ ッ ト を with い た タ ス ク で の 検 certificate. This year に, each research project に に て て て the following is the progress of があった. (C - 1) contact 覚 セ ン サ FingerVision を carry し た high-functioning ロ ボ ッ ト ハ ン ド を open 発 し, touch 覚 intelligence 処 Richard プ ロ グ ラ ム や basic suppression プ ロ グ ラ ム を open 発 し た. <s:1> ハ ドを ドを use ハ, (A-1) hand probe <s:1> hold スキ を を equipment た. Return to the academic lecture meeting of the ロボット society in Japan にて(C-1)(A-1) ロボット society release schedule を visit った. (C - 2) note ぐ タ ス ク に お い て, funnel な ど の props の use や マ ヨ ネ ー ズ の container の よ う な soft な container を シ ミ ュ レ ー シ ョ ン be 験 で Cha え る よ う に す る た め の シ ミ ュ レ ー タ を open 発 し た. こ の シ ミ ュ レ ー タ は, こ れ ま で に I 々 が open 発 し た note ぐ タ ス ク の 検 card シ ミ ュ レ ー タ を improved す る line shape で わ れ て お り, こ れ ま で と with others に viscous を も っ た liquid な ど の シ ミ ュ レ ー シ ョ ン が be applied で き る こ と に plus え て, (C - 2) modified が の import さ れ て い る. The を results of を will be presented at the academic lecture of the Japan ロボット society にて and た. こ の シ ミ ュ レ ー タ を using し, (A - 2) note ぐ タ ス ク の た め の new た な ス キ ル と し て funnel を using す る ス キ ル, soft な container を 圧 shrinkage す る ス キ ル を open 発 し た. さ ら に, (1 B) proposal す る discrete even 続 reinforcement learning technique could promote behavior rate で に Cha え る よ う に す る ダ イ ナ ミ ク ス モ デ ル の composition method を open 発 し た. に, learning し た モ デ ル が different な る condition で も mutual で き る (reuse で き る) よ う な time を import す る こ と で, study working rate を up さ せ る こ と に successful し た. A series of achievements were presented at the にて international conference た.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Reinforcement learning with incremental skill models: Extension to tool use as skills
- DOI:10.1109/sii55687.2023.10039431
- 发表时间:2023-01
- 期刊:
- 影响因子:0
- 作者:Ryota Yashima;Akihiko Yamaguchi;Koichi Hashimoto
- 通讯作者:Ryota Yashima;Akihiko Yamaguchi;Koichi Hashimoto
確率的モデルベース型強化学習における液体マニピュレーションのマルチモーダルダイナミクスの解析
基于随机模型的强化学习中液体操纵的多模态动力学分析
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:八島 諒汰;山口 明彦;橋本 浩一
- 通讯作者:橋本 浩一
視触覚センサFingerVisionを搭載した高機能ロボットハンド
配备视觉触觉传感器 FingerVision 的高性能机械手
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:八島 諒汰;山口 明彦;橋本 浩一;山口 明彦
- 通讯作者:山口 明彦
複雑なダイナミクス構造におけるモデルベース型強化学習のデバッグ手法
复杂动态结构中基于模型的强化学习调试方法
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:八島 諒汰;山口 明彦;橋本 浩一
- 通讯作者:橋本 浩一
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山口 明彦其他文献
性転換に伴うホシササノハベラの脳下垂体における生殖腺刺激ホルモン(GtH)mRNA発現量の変化
性别改变导致 Hoshisasanohabera 垂体促性腺激素 (GtH) mRNA 表达水平的变化
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
入江 奨;北野 載;山口 明彦;太田 耕平;松山 倫也 - 通讯作者:
松山 倫也
人の把持行動に基づく物体操作データベースの構築手法
一种基于人类抓取行为的物体操纵数据库构建方法
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
島田 健史;杉垣 彰教;山口 明彦;池田 篤俊;高松 淳;小笠原 司 - 通讯作者:
小笠原 司
等身大ヒューマノイドロボットによる給仕動作の実現と実行時間に対する考察
真人大小的仿人机器人服务行为的实现及执行时间的考虑
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
築地原 里樹;山口 明彦;吉川 雅博;高松 淳;小笠原 司 - 通讯作者:
小笠原 司
山口 明彦的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山口 明彦', 18)}}的其他基金
Development of the gonadotropin secretion promotion technique using the Tiger puffer pituitary spheroid culture
利用虎鲀垂体球培养促进促性腺激素分泌技术的开发
- 批准号:
21K05727 - 财政年份:2021
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
汎用ロボットの行動獲得のための目的主導型プログラミング言語
用于通用机器人行为获取的目的驱动编程语言
- 批准号:
10J09030 - 财政年份:2010
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for JSPS Fellows
機能的過負荷に伴う筋肥大、筋線維組成の変化に及ぼす局所的因子の影響
局部因素对肌肉肥大的影响以及功能超负荷引起的肌纤维组成的变化
- 批准号:
11780034 - 财政年份:1999
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
機能的過負荷による骨格筋線維組成の変化に及ぼす神経の役割
神经在功能超负荷引起的骨骼肌纤维组成变化中的作用
- 批准号:
08780096 - 财政年份:1996
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
Learning to Reason in Reinforcement Learning
在强化学习中学习推理
- 批准号:
DP240103278 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Discovery Projects
Collaborative Research: CDS&E: Generalizable RANS Turbulence Models through Scientific Multi-Agent Reinforcement Learning
合作研究:CDS
- 批准号:
2347423 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Standard Grant
CAREER: Stochasticity and Resilience in Reinforcement Learning: From Single to Multiple Agents
职业:强化学习中的随机性和弹性:从单个智能体到多个智能体
- 批准号:
2339794 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Continuing Grant
計測・通信品質が保証されない環境下の多目的フィードフォワード最適制御と強化学習
测量和通信质量无法保证环境下的多目标前馈最优控制和强化学习
- 批准号:
23K20948 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
遅延を考慮した非同期分散型マルチモジュール・タイムスケール深層強化学習の開発
考虑延迟的异步分布式多模块时间尺度深度强化学习的开发
- 批准号:
23K21710 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
強化学習を用いた分散制御によるネットワーク信号制御の最適化に関する研究
基于强化学习的分布式控制网络信号控制优化研究
- 批准号:
23K26216 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
深層強化学習を用いた運動ノイズの影響を最小化する運動制御推定フレームワークの構築
使用深度强化学习构建运动控制估计框架,最大限度地减少运动噪声的影响
- 批准号:
24KJ2223 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for JSPS Fellows
強化学習モデル・ネットワーク分析によるサイコパシーの情報処理メカニズムの解明
利用强化学习模型和网络分析阐明精神病态的信息处理机制
- 批准号:
24K16865 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
汎用かつ再利用可能な方策に基づく階層強化学習
基于通用和可重用策略的分层强化学习
- 批准号:
23K28140 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
リスクの不確実性に対処する自律分散型マルチエージェント強化学習の研究開発
应对风险不确定性的自主分布式多智能体强化学习研发
- 批准号:
24K20873 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Early-Career Scientists