強化学習法における効率的なサンプリング法の開発
强化学习方法中高效采样方法的发展
基本信息
- 批准号:18700147
- 负责人:
- 金额:$ 1.34万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2006
- 资助国家:日本
- 起止时间:2006 至 2007
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究は,強化学習法の一手法である方策勾配法において,効率的な試行錯誤の仕方についての研究を行うものである.方策オフ型の強化学習法では環境との相互作用を行う場合に任意の方策を用いることが可能であるため,現在の方策で学習を行う方策オン型の学習法では制約される,効率的な学習を行うため試行錯誤のための方策を利用することが可能である.しかし,どのような試行錯誤により効率的な学習が可能であるかはまだ分かっていない,そこで,本研究では方策パラメータが確率的に出力される枠組みを提案することで群による学習を実現するモデルを提案した.すなわち,方策パラメータを個体と見なすと,その個体を生成する群のパラメータを獲得する方法となっており,通常の強化学習では行動の探索が主に扱われるが,本提案手法は方策自体の探索の過程ともなっており,より効率的な学習の実現が期待できる.昨年度は歩行運動の獲得課題(シミュレーション)に適用し,効率的に学習できる事を示した,しかし,適用した課題は比較的少ない数の線形な結合重みを学習する物であり,状態から行動への非線形なマッピングを扱う枠組みにはなっていなかった.そこで,本年度は非線形なマッピングを行う方策として同径基底関数ネットワークを用いた方策を用い,倒立振子の倒立制御に対する方策の学習課題に適用し,確率的方策パラメータを持つ方策の学習がより多数の方策パラメータを持つ方策関数の学習にも効率的な学習ができることを示した.この枠組みは,基底関数の和で表される方策であれば適用可能であり,状態から行動への非線形なマッピングも表現可能である.一方,より複雑なダイナミクスを持つ制御対象に適応する場合には,基底関数の設計が重要となってくるため,今後の課題となる.
The purpose of this study is to strengthen the chemical method, the method of matching, the method of matching. The method of strengthening the chemical method of environmental environmental interaction is in line with the use of random strategies. At present, it is possible to use the method of environmental interaction. At present, it is possible to make use of the method of environmental interaction. In this study, the policy of this study is to determine the accuracy of the accuracy rate. In this study, the strategy of this study is to determine the accuracy of the accuracy rate. In this proposal, we use the method of self-exploration to explore the process of learning, and the strategy of this proposal is to self-explore the process of learning, and the method of this proposal is to self-explore the process of learning, and the method of this proposal is to self-explore the process of learning. In the last year, the system was successfully applied in the field of computer science, and the number of data in the system was analyzed. The number of data in the system was compared with the number of data in the system. This is combined with the weight of the system, and the status of the system is similar to that of the system. This year, in the current year, the number of strategies for the same diameter base, handstand oscillator, handstand oscillator, handstand The information system, the base number and the table policy are used to determine the possibility of operation, and the status of the operation shows that it is possible to cause a failure. On the other hand, the system is responsible for the control of the system, and the base system is used to design the important system.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Reinforcement learning for a biped robot based on a CPG-actor-critic method
- DOI:10.1016/j.neunet.2007.01.002
- 发表时间:2007-08
- 期刊:
- 影响因子:0
- 作者:Yutaka Nakamura;Takeshi Mori;Masa-aki Sato;S. Ishii
- 通讯作者:Yutaka Nakamura;Takeshi Mori;Masa-aki Sato;S. Ishii
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
中村 泰其他文献
ガウス過程回帰の信頼度に基づく確率的ロードマップを用いた動作計画
基于高斯过程回归可靠性的概率路线图运动规划
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
岡留 有哉;中村 泰;石黒 浩 - 通讯作者:
石黒 浩
ベーリング海陸棚斜面域の高生産を支える水塊構造・混合に関する観測的研究
支持白令海陆架斜坡区高产的水团结构和混合观测研究
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
原田 智樹;中村 泰;松本 吉央;石黒 浩;中馬宏之;赤堀卓也;田中雄大 - 通讯作者:
田中雄大
重点サンプリング法に基づくNatural Actor-Critic法による効果的なサンプルの再利用
使用基于临界采样方法的 Natural Actor-Critic 方法进行有效样本重用
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
森 健;中村 泰;石井 信 - 通讯作者:
石井 信
筋骨格構造の進化的発生過程シミュレーションの為の空圧駆動ロボットの開発
开发气动机器人来模拟肌肉骨骼结构的进化发育过程
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
笠 秀行;仲田 佳弘;岡留 有哉;中村 泰;石黒 浩 - 通讯作者:
石黒 浩
アウトドア用パーカのデザイン・素材特性が温熱的快適性におよぼす効果
户外派克大衣设计和材料特性对热舒适性的影响
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
岡留 有哉;中村 泰;石黒 浩;青柳卓也,薩本弥生 - 通讯作者:
青柳卓也,薩本弥生
中村 泰的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
海洋探査、制御工学、知能ロボティクス、機械力学・制御、救命
海洋探索、控制工程、智能机器人、机械动力学/控制、救生
- 批准号:
20560748 - 财政年份:2008
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)