深層強化学習で非線形な制御が学習できるか~物理演算ゲームの学習を通じた検証~
是否可以通过学习物理游戏来使用深度强化学习来学习非线性控制?
基本信息
- 批准号:18H00543
- 负责人:
- 金额:$ 0.33万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Scientists
- 财政年份:2018
- 资助国家:日本
- 起止时间:2018 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では, 「目標軌道」ではなく, 報酬を最大化するという「目的」に基づいた制御則学習の実現可能性について調査するため, 物理演算ゲームタスクを深層強化学習によって学習させて検証を行った.エージェントが学習するタスクとして, ボードをうまく傾けることによりボード上の球をゴールへと導くRoll-a-Ballと呼ばれるゲームを用いた. ボード上には落とし穴がランダムに出現し, 落ちるとエージェントには罰が与えられ, うまく避けながらゴールすると報酬が与えられる. このタスクではランダムに位置が変わる落とし穴の存在により事前に決まった軌道を生成することができず, また, 壁に衝突した際のバウンドなども考慮しつつ非線形に傾斜角を変えていく必要があることから, 本課題における制御則学習のタスクとして設定した. 上記のようなタスクに対し, エージェントの状態を入力としボードの傾斜角を出力とするニューラルネットワーク(NN)をActor-Criticと呼ばれる手法で学習した. タスク環境の非線形なダイナミクスの中で情報を処理し操作量を出力するためにリカレントニューラルネットワーク(RNN)と呼ばれる再帰構造を持つNNを用いた. さらに本研究では時間を遡る学習処理を伴わないため, 高速かつ安定的に学習ができ, パターン生成などの研究にも使われることの多いリザバネットワーク(RN)と呼ばれる特殊なRNNを中間層に導入した多層のNNを用いた.当初の計画では環境の画像を直接NNに与えて学習を行う予定であったが, 上層から伝播してきた誤差信号をRNより下層へ伝播させて学習することが困難であった. しかし, RNに画像のような高次元の入力を直接与えることはできないため, 球, ゴール, 落とし穴などの座標, 相対速度, 相対距離, 相対角度といった事前処理済みの入力に切り替えて学習したところ学習に成功した. 今後, 下層の学習を実現する方法を検討することが課題として残った.
This study で は "target orbit" で は な く, reward maximize を す る と い う に base づ "intent" い た suppression is learning の possibility be presently に つ い て survey す る た め, physical calculus ゲ ー ム タ ス ク を deep reinforcement learning に よ っ て learning さ せ て 検 line card を っ た. エ ー ジ ェ ン ト が learning す る タ ス ク と し て, ボ ー ド を う ま く pour け る こ と に よ り ボ ー ド の Ball on を ゴ ー ル へ と く guide Roll - a - Ball と shout ば れ る ゲ ー ム を with い た. ボ ー ド on に は fall と し den が ラ ン ダ ム に し, fall ち る と エ ー ジ ェ ン ト に は penalty が and え ら れ, う ま く avoid け な が ら ゴ ー ル す る と が remuneration and え ら れ る. こ の タ ス ク で は ラ ン ダ ム が に position - わ る fall と し den の is に よ に り advance definitely ま っ た orbit を generated す る こ と が で き ず, ま た, The event wall に conflict し た の バ ウ ン ド な ど も consider し つ つ nonlinear に Angle を - え て い く necessary が あ る こ と か ら, this topic に お け る suppression is learning の タ ス ク と し て set し た. Above it is written that ようなタス に に and に. エ ー ジ ェ ン ト の state を と into force し ボ ー ド の Angle を output と す る ニ ュ ー ラ ル ネ ッ ト ワ ー ク (NN) を Actor - Critic と shout ば れ る gimmick で learning し た. タ ス ク environment の nonlinear な ダ イ ナ ミ ク ス の で in intelligence を 処 Richard し を operation quantity output す る た め に リ カ レ ン ト ニ ュ ー ラ ル ネ ッ ト ワ ー ク (RNN) と shout ば れ る 帰 tectonic を again hold つ NN を with い た. さ ら に this study で は time roving を る learning 処 を with わ な い た め, high-speed か つ stable に learning が で き, パ タ ー ン generated な ど の research に も make わ れ る こ と の more い リ ザ バ ネ ッ ト ワ ー ク (RN) と shout ば れ る special な RNN を middle-tier に import し た multilayer の NN を with い た. の original plan で は environmental の portraits を directly NN に and え て line learning を う designated で あ っ た が, upper か ら 伝 sowing し て き た error signal を RN よ り lower へ 伝 sowing さ せ て learning す る こ と が difficult で あ っ た. し か し, RN に portrait の よ う な の を directly into force and the high dimensional え る こ と は で き な い た め, ball, ゴ ー ル, と し den な ど の coordinates, phase velocity, seaborne seaborne distance, phase Angle と seaborne い っ た prior 処 Richard 済 み の に り cutting into force for え て learning し た と こ ろ learning に successful し た. In the future, the lower-level students will study the を practical する method を検 and discuss the する <s:1> とが topic と て and った.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
松木 俊貴其他文献
平均テンプレートと複数DTW重み付統合のオンライン署名照合
平均模板在线签名匹配及多重DTW加权积分
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
寺島 雅人;松木 俊貴;大川 学;大川 学;大川 学;大川 学;大川 学 - 通讯作者:
大川 学
Deep Learningによる指文字認識システムの開発
利用深度学习开发手指字符识别系统
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
高橋真司;仲間 祐貴;土門 寛幸;中村 達哉;松木 俊貴 - 通讯作者:
松木 俊貴
組込みシステム実習教育を支援するための拡張現実感による学習情報の可視化
利用增强现实实现学习信息可视化,支持嵌入式系统培训教育
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
高橋真司;仲間 祐貴;土門 寛幸;中村 達哉;松木 俊貴;小木曽 晴信・矢ケ崎 朋樹;原槙 稔幸 - 通讯作者:
原槙 稔幸
深層強化学習で非線形な制御が学習できるか~オートエンコーダによる入力圧縮の導入~
是否可以使用深度强化学习来学习非线性控制?使用自动编码器引入输入压缩?
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
寺島 雅人;松木 俊貴 - 通讯作者:
松木 俊貴
平均テンプレートと複数DTWの重み付き統合によるオンライン署名照合
使用平均模板和多个DTW的加权集成进行在线签名匹配
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
寺島 雅人;松木 俊貴;大川 学;大川 学;大川 学;大川 学 - 通讯作者:
大川 学
松木 俊貴的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('松木 俊貴', 18)}}的其他基金
深層強化学習技術の導入によるカオスベース強化学習の性能向上
通过引入深度强化学习技术提高基于混沌的强化学习性能
- 批准号:
22K17969 - 财政年份:2022
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Deep LearningとKinectセンサによる手話認識システムの開発
使用深度学习和 Kinect 传感器开发手语识别系统
- 批准号:
17H00380 - 财政年份:2017
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
聴覚障害者福祉の向上を目指したDeep Learning手話認識システムの開発
开发深度学习手语识别系统,旨在改善听力障碍者的福利
- 批准号:
16H00392 - 财政年份:2016
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
相似海外基金
可制御性・可到達性にもとづいた写像学習によるロボットの統合的非線形制御の検討
基于可控可达的映射学习机器人非线性综合控制研究
- 批准号:
23K21707 - 财政年份:2024
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
連結車両特有の事故発生メカニズムの解明と非線形制御理論を用いた制御手法構築
阐明联网车辆特有的事故发生机制并利用非线性控制理论构建控制方法
- 批准号:
24K17475 - 财政年份:2024
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
非線形制御系における制御リアプノフ関数のパラメトリック変形とその応用
非线性控制系统中控制Lyapunov函数的参数变形及其应用
- 批准号:
23K26124 - 财政年份:2024
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
人に「寄り添う」制御の理論体系の構築:非線形制御とあいまいさに基づくアプローチ
构建人性化控制理论体系:基于非线性控制和模糊性的方法
- 批准号:
20K14767 - 财政年份:2020
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
推定問題への帰着とデータ集約的方法の適用に基づく非線形制御系設計法の研究
基于估计问题还原的非线性控制系统设计方法及数据密集型方法的应用研究
- 批准号:
19J23306 - 财政年份:2019
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for JSPS Fellows
多次元多変量光学計測と大規模DNSの融合による希薄乱流火炎の構造解明と非線形制御
结合多维多元光学测量和大规模 DNS 的稀湍流火焰的结构阐明和非线性控制
- 批准号:
20676004 - 财政年份:2008
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Young Scientists (S)
局所火炎構造に基づく希薄乱流予混合燃焼の非線形制御
基于局部火焰结构的稀薄湍流预混燃烧非线性控制
- 批准号:
19360097 - 财政年份:2007
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
超小型衛星群の効率的利用を目指した非線形制御理論の研究
微小卫星星座高效利用非线性控制理论研究
- 批准号:
16760338 - 财政年份:2004
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
ソリッドロータを支持する磁気軸受のゼロパワー非線形制御
支撑实心转子磁力轴承的零功率非线性控制
- 批准号:
16760171 - 财政年份:2004
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
受動性を保存する離散化法とそれに基づくデジタル非線形制御法の構築
保留无源性的离散化方法及基于该方法的数字非线性控制方法的构建
- 批准号:
15760313 - 财政年份:2003
- 资助金额:
$ 0.33万 - 项目类别:
Grant-in-Aid for Young Scientists (B)