ロボットにおける心の機能の実現:メンタルシミュレーションを併用したロボット学習の高速化
机器人心理功能的实现:利用心理模拟加速机器人学习
基本信息
- 批准号:10780232
- 负责人:
- 金额:$ 1.22万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)
- 财政年份:1998
- 资助国家:日本
- 起止时间:1998 至 1999
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
ロボットの動作速度よりも速く学習や試行錯誤を行なうにはどうすれば可能か?実ロボット学習の最大の問題点は,学習時間の長さである.しかも従来手法では、タスクが複雑になるにつれ学習コストが大きく増加する問題が生じる.そこで本年度は、複数ロボットの協調行動学習のシミュレーションシステムを構築した上で、基本となる強化学習手法の効率化および状況変化に対する収束精度の改善手法を提案し、実験的にその効果を評価した。1.r-確実探索法による、変動にすばやく適応する環境同定手法の実現複数の学習ロボットのいる環境では、ロボットが自身のいる環境の状況や変化を正確に把握することは、学習精度を保つ上で重要な役割を持つ。しかしながら、従来の強化学習手法は、緩やかな変動には適応できても、他の学習ロボットの政策変更などによって生じる状況の断続的な変動への対応が困難だった。そこで本手法は逐次的な観測データから環境の変動点を推定し、同定モデルを変動点の前後で分割することにより、変動に対し、同定精度を悪化させない手法を提案し、実験を行なった。2.報酬獲得効率:RAEに基づく最適政策の高速な強化学習手法従来の最適政策の強化学習法の基本原理は、割引期待報酬和の最大化であった。しかしながら、従来手法は計算コストが大きく、しかも、割引期待報酬手法では目先の利益を優先し、遠くの利益を過小評価するという問題点があった。そこで本手法では、強化学習法の本来の学習目的である報酬獲得効率を直接算出し、これを最大化する政策を効率良く求める新しいアルゴリズムを提案し、計算量の減少を既存手法と実験的に比較、評価した。3.学習の副目標を自律的に設定する強化学習法の実験与えられた学習目標である報酬を手がかりに,報酬を獲得する中間地点に副目標である副報酬を設定することで,強化学習を効率化,高速化する新しい手法を実験した.
Youdaoplaceholder0 <s:1> action speed よ よ <s:1> speed く learning や trial error を line なうに なうに うすれば うすれば possible よ? Be ロ ボ ッ の の biggest problem point は ト learning, learning の long さ で あ る. し か も 従 to technique で は, タ ス ク が complex 雑 に な る に つ れ learning コ ス ト が big き く raised plus す る problem が raw じ る. そ こ で は this year, the plural ロ ボ ッ ト の coordinated action learning の シ ミ ュ レ ー シ ョ ン シ ス テ ム を build し た で, basic と な る reinforcement learning The efficiency of the technique および situation change に on the improvement of the する binding accuracy を proposal <e:1> and the を effect evaluation of the experiment 価 た た. 1. R - indeed be exploring method に よ る, - に す ば や く optimum 応 す る environment with constant approach の be plural の now learning ロ ボ ッ ト の い る environment で は, ロ ボ ッ ト が itself の い る environment の conditions や variations change を に grasp the correct す る こ と は を つ で important bao, learning precision cut を hold つ な service. し か し な が ら, 従 の reinforcement learning methods は, slow や か な - move に は optimum 応 で き て も, he studied の ロ ボ ッ ト の policy - more な ど に よ っ て raw じ る condition の broken 続 な - move へ の 応 seaborne が difficult だ っ た. そ こ で this technique は successive な 観 measuring デ ー タ か ら environment の - fixed point を presumption し, with constant モ デ ル を variations before and after the fixed point の で す segmentation る こ と に よ り, - に し, with accuracy of seaborne を 悪 change さ せ な い を proposal し, be 験 を line な っ た. 2. Reward acquisition efficiency :RAEに basis づく optimal policy <e:1> high-speed な reinforcement learning methods 従 to <s:1> optimal policy <e:1> reinforcement learning methods <e:1> basic principles <e:1>, cutting expected returns and <s:1> maximization であった. し か し な が ら, 従 to technique は calculation コ ス ト が big き く, し か も, leads forward to cut compensation technique で は し を の interests first priority, far く の interests を too small review 価 す る と い う problem point が あ っ た. そ こ で this gimmick で は, reinforcement learning method の の learning purpose originally で あ を る get sharper remuneration rate directly calculate し, こ れ を maximize す る policy を く sharper rate good for め る new し い ア ル ゴ リ ズ ム を proposal し, の reduce amount of calculation を existing technique と be 験 に comparison and evaluation of 価 し た. 3. Learning の set pair of target を self-discipline に す る の reinforcement learning method be 験 and え ら れ た learning goals で あ る remuneration を hand が か り に, remuneration を get す る middle place に vice target で あ る vice を setting remuneration す る こ と で, reinforcement learning を working rate, high speed す る new し い gimmick を be 験 し た.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山口 智浩其他文献
多次元空間問題における商品属性の関係理解と商品選定の支援
理解产品属性之间的关系并支持多维空间问题中的产品选择
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
沢田石 祐弥;原田 智広;佐藤 寛之;服部 聖彦;高玉 圭樹;山口 智浩 - 通讯作者:
山口 智浩
Evaluation for Acquiring Method for Agents' Actions using Pheromone Communication in Multi-Agent System
多Agent系统中信息素通信的Agent行为获取方法评价
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
沢田石 祐弥;原田 智広;佐藤 寛之;服部 聖彦;高玉 圭樹;山口 智浩;Hisayuki Sasaoka;Hisayuki Sasaoka - 通讯作者:
Hisayuki Sasaoka
異文化体験ゲームにおける集団適応エージェントモデルとインタラクション設計
跨文化体验游戏中的集体自适应代理模型与交互设计
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
山口 智浩;山口 浩基;高玉 圭樹;Hisayuki Sasaoka;牛田 裕也,大谷 雅之,市川 嘉裕,佐藤 圭二,服部 聖彦,佐藤 寛之,高玉 圭樹 - 通讯作者:
牛田 裕也,大谷 雅之,市川 嘉裕,佐藤 圭二,服部 聖彦,佐藤 寛之,高玉 圭樹
別カテゴリ商品提示による好みの明確化を促す推薦システムの設計と評価
设计和评估推荐系统,通过展示不同类别的产品来促进偏好的明确化
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
佐藤 史盟;大谷 雅之;服部 聖彦;佐藤寛之;高玉 圭樹;山口 智浩 - 通讯作者:
山口 智浩
山口 智浩的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山口 智浩', 18)}}的其他基金
同型性に基づく抽象化プランニングのロボットの行動学習への応用
基于同构的抽象规划在机器人行为学习中的应用
- 批准号:
07750460 - 财政年份:1995
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
同型性に基づく抽象化問題解決
基于同构的抽象问题求解
- 批准号:
06750420 - 财政年份:1994
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
深層強化学習を用いた運動ノイズの影響を最小化する運動制御推定フレームワークの構築
使用深度强化学习构建运动控制估计框架,最大限度地减少运动噪声的影响
- 批准号:
24KJ2223 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for JSPS Fellows
強化学習モデル・ネットワーク分析によるサイコパシーの情報処理メカニズムの解明
利用强化学习模型和网络分析阐明精神病态的信息处理机制
- 批准号:
24K16865 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
リスクの不確実性に対処する自律分散型マルチエージェント強化学習の研究開発
应对风险不确定性的自主分布式多智能体强化学习研发
- 批准号:
24K20873 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
計測・通信品質が保証されない環境下の多目的フィードフォワード最適制御と強化学習
测量和通信质量无法保证环境下的多目标前馈最优控制和强化学习
- 批准号:
23K20948 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
遅延を考慮した非同期分散型マルチモジュール・タイムスケール深層強化学習の開発
考虑延迟的异步分布式多模块时间尺度深度强化学习的开发
- 批准号:
23K21710 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
汎用かつ再利用可能な方策に基づく階層強化学習
基于通用和可重用策略的分层强化学习
- 批准号:
23K28140 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
強化学習を用いた分散制御によるネットワーク信号制御の最適化に関する研究
基于强化学习的分布式控制网络信号控制优化研究
- 批准号:
23K26216 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
強化学習に基づく自己位置推定のための地図および環境の最適化
基于强化学习的自定位地图与环境优化
- 批准号:
24K15136 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
強化学習に基づく「先読み」を用いた小規模・高効率ゲノミック選抜法の開発と実装
基于强化学习的“前瞻”小规模高效基因组选择方法的开发和实施
- 批准号:
23K23572 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
VRによる外国語学習の動機づけ強化:学習環境デザインの構築に向けて
利用 VR 增强外语学习动机:构建学习环境设计
- 批准号:
24K16763 - 财政年份:2024
- 资助金额:
$ 1.22万 - 项目类别:
Grant-in-Aid for Early-Career Scientists