Development of inverse reinforcement learning focusing on the multiobjective nature of humans and autonomous systems: towards zero risk and comfort maximization.
逆向强化学习的发展侧重于人类和自主系统的多目标性质:实现零风险和舒适度最大化。
基本信息
- 批准号:22H03665
- 负责人:
- 金额:$ 8.32万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本課題は,近い将来,人間の行動範囲に共存する自律機械のうち,ドローン,自動車,鉄道の自律制御るに対す機械学習の導入への信頼(安全性と安心)を担保することを目的としている.今年度は,上記目的に沿った適用可能な機械学習のアルゴリズムの検討と改善,および,学習によって獲得した制御則に基づいた運行(飛行,走行を総じて運行と呼ぶ)軌跡から,制御則の目的関数を推定する方法を検討し,簡易なベンチマークを用いて,方法の妥当性を検証した.ドローンは,既に実用が進む海外の状況から,複数台の飛行状況における協調と競合を想定して,衝突回避しながら,効率よく目的タスクの遂行を実施する深層強化学習アルゴリズムを提案し,計算機シミュレーション実験において良好な結果を得た.鉄道の運行については,定時運行の大前提の下で,鉄道運行における喫緊の課題である省エネルギー運転制御を実現する方法を,二段階最適化問題として定式化した方法のプロトタイプを作成し,従来の方法よりも有意に優れた性能を示すことを確認した.以上は,機械学習によって得られた制御方法によって,タスクの最適性の向上可能性を示唆する成果であるが,併せて,これらの動きに対する,人(設計者や,共存する人々)の反応を検証することも本課題の重要なエッセンスである.これについては,まず,設計者の理解を促す方法として,学習後の制御入力と出力の対応関係を統計的に分析し,入力次元に関して「アテンション」(機械が着目した重要な“特徴”)を抽出することによって,出力との因果関係を導出する方法を検討し,理解の妥当性を評価した.これによって,学習結果のフィルタ効果を確認しており,副次的な効果として,2023年度の研究計画に盛り込む予定である.理解や説明を促すための方法が,学習による制御の冗長な部分や,これまで不可避であった,確率的な挙動解消に対しての有効性が期待できる.
In this project, in the near future, the range of human behavior will co-exist in the field of self-regulation, self-regulation, self-regulation and self-regulation. You can learn how to control the rules and conditions of the system, such as the number of rules, the number of rules, the number of rules. It is necessary to suddenly avoid the situation, and the purpose of the experiment is to carry out the in-depth study of the proposal to strengthen the chemical test, and the good results of the computer system. The main premise of the real-time operation is down, and the main premise of the operation is down, and the method of controlling the problem is effective. In the second stage, the optimization problem is established. The method is completed, and the method is intended to show that the performance is valid. the above, mechanical engineering, mechanical performance, control, control, performance, performance and performance. The co-existence of human health is not a problem. This is an important problem. This is an important problem. The designer understands the method to promote the performance of the computer. After learning to control the input of the computer, the statistical analysis of the statistics is performed, and the force is extracted from the mechanical device. Use cause and effect to determine the effectiveness of the method, and understand the appropriate information. The results show that the results confirm the results and the secondary results. The 2023 research plan is expected to be successful. Understand how to improve the performance of the research program, improve the performance of the system, and make sure that you can not avoid the problem. To make sure that the rate of action is eliminated, there is a lot of sexual expectation.
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
深層強化学習を用いた自動運転の制御限界の検出
使用深度强化学习检测自动驾驶的控制极限
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:岸川 大航;荒井 幸代;今村麟太郎,荒井幸代
- 通讯作者:今村麟太郎,荒井幸代
Multi-objective deep inverse reinforcement learning for weight estimation of objectives
用于目标权重估计的多目标深度逆强化学习
- DOI:10.1007/s10015-022-00773-8
- 发表时间:2022
- 期刊:
- 影响因子:0.9
- 作者:Takayama Naoya;Arai Sachiyo
- 通讯作者:Arai Sachiyo
Reward Matrix Decomposition for Multi-Objective Inverse Reinforcement Learning
多目标逆强化学习的奖励矩阵分解
- DOI:10.11517/pjsai.jsai2022.0_4e1gs205
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:岸川 大航;荒井 幸代
- 通讯作者:荒井 幸代
強化学習とモデル予測制御を用いた UAV の自律的バッテリー管理による飛行経路最適化
使用强化学习和模型预测控制进行无人机自主电池管理的飞行路径优化
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:岸川 大航;荒井 幸代;今村麟太郎,荒井幸代;堀江直人,荒井幸代
- 通讯作者:堀江直人,荒井幸代
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
荒井 幸代其他文献
自動運転技術入門
自动驾驶技术简介
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
日本ロボット学会;香月 理絵;荒井 幸代;大前 学;大日方 五郎;川崎 敦史;橘川 雄樹;小林 祐一;菅沼 直樹;田崎 豪;谷沢 昭行;新田 修平;野呂瀬 琴;馬場 厚志;藤吉 弘亘;目黒 淳一;森出 茂樹;谷口 敦司;山下 倫央 - 通讯作者:
山下 倫央
粘土層の過剰間隙水圧が表層の液状化に及ぼす影響,第42回地盤工学研究発表会
粘土层超孔隙水压力对表层液化的影响,第42届岩土工程研究会议
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
Sekiguchi;T.;Toru SEKIGUCHI;今宿誠己;Masaki IMAJUKU;永田葉子;中井正一;土佐内優介;太田尚利;べ・ぜぎゅ;藤川智;Yoko NAGATA;Shoichi NAKAI;Yusuke TOSAUCHI;Takatoshi OHTA;Jaegyu BAE;Satoshi FUJIKAWA;永田 葉子;中井 正一;土佐内 優介;永田 葉子;関口 徹;丸山 喜久;丸山 喜久;福島 康宏;荒井 幸代;高澤 知也;荒井 幸代;藤川 智 - 通讯作者:
藤川 智
Charge/Discharge Control of Wayside Batteries via Reinforcement Learning for Energy-Saving in Electrified Railway Systems
通过强化学习对路边电池进行充电/放电控制,以实现电气化铁路系统节能
- DOI:
10.1541/ieejias.140.807 - 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
吉田 賢央;荒井 幸代;小林 宏泰;近藤 圭一郎 - 通讯作者:
近藤 圭一郎
荒井 幸代的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('荒井 幸代', 18)}}的其他基金
人と自律システム系の多目的性に着目した逆強化学習の展開:危険ゼロと快適最大化
逆向强化学习的发展重点关注人类和自主系统的多用途性质:零危险和最大舒适度
- 批准号:
23K24921 - 财政年份:2024
- 资助金额:
$ 8.32万 - 项目类别:
Grant-in-Aid for Scientific Research (B)