Development of Collision Avoidance System for Maritime Autonomous Surface Ship: Imitating and Surpassing Human Experts by Deep Inverse Reinforcement Learning
海上自主水面船舶防撞系统开发:通过深度逆强化学习模仿并超越人类专家
基本信息
- 批准号:22KJ2623
- 负责人:
- 金额:$ 1.34万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2023
- 资助国家:日本
- 起止时间:2023-03-08 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本研究課題では、人間の経験に従って実行される避航操船行動の定量化を図るとともに、熟練船長の感覚に基づく避航航路の獲得に取り組んだ。まず、最大エントロピー逆強化学習を用いて任意の避航航路から最適報酬を導出する手法を提案した。その検証のため、Dangerous Area of Collision (DAC)と呼ばれる衝突危険領域を避けるようなサンプル航路をあらかじめ生成し、その航路を逆強化学習の入力とすることで報酬関数を推定した。推定された報酬分布がDACの形状と良く一致することから、操船の感覚を定量化する手段として最大エントロピー逆強化学習が有効であることを示した。続いて、一般商船の船長経験者の協力のもと、船長による操船シミュレーション実験を実施した。実験で得られた操船航路をエキスパートデータとし報酬関数を導出することで、熟練船長による避航操船の特徴を明らかにした。さらに、得られる報酬が最大となるような経路探索を行うことで熟練船長の感覚に基づく最適航路計画を提案し、今津問題と呼ばれる避航操船のテストシナリオを用いて最適航路計画の有用性を示した。一連の研究成果は日本船舶海洋工学会論文集36巻に掲載されている。他方、研究の遂行にあたり、逆強化学習の適用範囲が小規模かつ離散的な状態空間に限られるという課題に直面した。そこで、強化学習と逆強化学習の2段階最適化問題を1つのミニマックス問題として定式化した敵対的生成模倣学習を導入し、大規模連続状態空間に適用可能な避航航路計画手法を開発した。本年度は、相手船1隻に対する避航航路のサンプルデータが与えられた際、本手法によって所与の航路を精度良く模倣できること確認した。
This research topic で は, human の 経 験 に 従 っ て line be さ れ る avoid air handling operation の quantitative を 図 る と と も に, skilled captain の 覚 に base づ く navigation route avoiding の won ん に take り だ. ま ず, maximum エ ン ト ロ ピ ー inverse reinforcement learning を with い て の navigation route avoiding any か ら optimum remuneration を export す る technique proposed を し た. そ の 検 card の た め, the Dangerous Area of Collision (DAC) と shout ば れ る conflict を avoid Dangerous 険 field け る よ う な サ ン プ ル route を あ ら か じ め generated し, そ の route を inverse reinforcement learning の と into force す る こ と で masato remuneration for presumption を し た. Presumption さ れ た remuneration distribution が DAC の consistent good shape と く す る こ と か ら, fuck boat の 覚 を quantitative す る means と し て biggest エ ン ト ロ ピ ー inverse reinforcement learning が have sharper で あ る こ と を shown し た. Captain 続 い て, general merchant の 経 験 is の together の も と, captain に よ る ship manoeuvring シ ミ ュ レ ー シ ョ ン be 験 を be applied し た. Be 験 で have ら れ た handling route を エ キ ス パ ー ト デ ー タ と し masato several を remuneration derived す る こ と で and skilled captain に よ る avoid air ship manoeuvring の, 徴 を Ming ら か に し た. さ ら に, ら れ る remuneration が biggest と な る よ う な 経 line road explore を う こ と で skilled captain の feeling 覚 に base づ く the airworthiness road project proposals を し, this problem, tianjin と shout ば れ る avoid air ship manoeuvring の テ ス ト シ ナ リ オ を with い て's most airworthiness road project の usefulness を shown し た. A series of research results are published in the 36th volume of the proceedings of the Japan Society of Ship and Ocean Engineers, に, されて されて る る. Fang, research の carries out に あ た り, inverse reinforcement learning の applicable van 囲 が small-scale か つ discrete state-space に な limit ら れ る と い う subject に face し た. そ こ で inverse reinforcement learning, reinforcement learning と の 2 paragraph order optimization problem を 1 つ の ミ ニ マ ッ ク ス problem と し て demean し た enemy ain the generation of imitative learning を import し, large-scale even 続 state space appropriate に practices may avoid な navigation route plan を open 発 し た. This year は, phase 1 hand boat に す seaborne る navigation route avoiding の サ ン プ ル デ ー タ が and え ら れ た interstate, this technique に よ っ て with good imitation く で の airway を precision by き る こ と confirm し た.
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
自動避航操船のための最適航路計画の策定 -逆強化学習による熟練船長の模倣-
制定自动让路机动的最佳航线规划 -使用逆强化学习模仿经验丰富的船长-
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:檜垣岳史;橋本博公;吉岡舜
- 通讯作者:吉岡舜
Investigation and Imitation of Human Captains' Maneuver Using Inverse Reinforcement Learning
人类船长的考察与模仿
- DOI:10.2534/jjasnaoe.36.137
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Higaki Takefumi;Hashimoto Hirotada;Yoshioka Hitoshi
- 通讯作者:Yoshioka Hitoshi
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
檜垣 岳史其他文献
檜垣 岳史的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
OZTを用いた避航操船スキルの評価および教育訓練への利用
使用 OZT 评估避让船操纵技能并用于教育和培训
- 批准号:
21K04498 - 财政年份:2021
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)