权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

Development of Collision Avoidance System for Maritime Autonomous Surface Ship: Imitating and Surpassing Human Experts by Deep Inverse Reinforcement Learning

海上自主水面船舶防撞系统开发：通过深度逆强化学习模仿并超越人类专家

基本信息

批准号：
22KJ2623
负责人：
檜垣岳史
金额：
$ 1.34万
依托单位：
Osaka Metropolitan University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2023
资助国家：
日本
起止时间：
2023-03-08 至 2025-03-31
项目状态：
未结题

项目摘要

本研究課題では、人間の経験に従って実行される避航操船行動の定量化を図るとともに、熟練船長の感覚に基づく避航航路の獲得に取り組んだ。まず、最大エントロピー逆強化学習を用いて任意の避航航路から最適報酬を導出する手法を提案した。その検証のため、Dangerous Area of Collision (DAC)と呼ばれる衝突危険領域を避けるようなサンプル航路をあらかじめ生成し、その航路を逆強化学習の入力とすることで報酬関数を推定した。推定された報酬分布がDACの形状と良く一致することから、操船の感覚を定量化する手段として最大エントロピー逆強化学習が有効であることを示した。続いて、一般商船の船長経験者の協力のもと、船長による操船シミュレーション実験を実施した。実験で得られた操船航路をエキスパートデータとし報酬関数を導出することで、熟練船長による避航操船の特徴を明らかにした。さらに、得られる報酬が最大となるような経路探索を行うことで熟練船長の感覚に基づく最適航路計画を提案し、今津問題と呼ばれる避航操船のテストシナリオを用いて最適航路計画の有用性を示した。一連の研究成果は日本船舶海洋工学会論文集36巻に掲載されている。他方、研究の遂行にあたり、逆強化学習の適用範囲が小規模かつ離散的な状態空間に限られるという課題に直面した。そこで、強化学習と逆強化学習の2段階最適化問題を1つのミニマックス問題として定式化した敵対的生成模倣学習を導入し、大規模連続状態空間に適用可能な避航航路計画手法を開発した。本年度は、相手船1隻に対する避航航路のサンプルデータが与えられた際、本手法によって所与の航路を精度良く模倣できること確認した。

This research topic では, human の経験に従って line be される avoid air handling operation の quantitative を図るとともに, skilled captain の覚に base づく navigation route avoiding の won んに take りだ. まず, maximum エントロピー inverse reinforcement learning を with いての navigation route avoiding any から optimum remuneration を export する technique proposed をした. その検 card のため, the Dangerous Area of Collision (DAC) と shout ばれる conflict を avoid Dangerous 険 field けるようなサンプル route をあらかじめ generated し, その route を inverse reinforcement learning のと into force することで masato remuneration for presumption をした. Presumption された remuneration distribution が DAC の consistent good shape とくすることから, fuck boat の覚を quantitative する means として biggest エントロピー inverse reinforcement learning が have sharper であることを shown した. Captain 続いて, general merchant の経験 is の together のもと, captain による ship manoeuvring シミュレーション be 験を be applied した. Be 験で have られた handling route をエキスパートデータとし masato several を remuneration derived することで and skilled captain による avoid air ship manoeuvring の, 徴を Ming らかにした. さらに, られる remuneration が biggest となるような経 line road explore をうことで skilled captain の feeling 覚に base づく the airworthiness road project proposals をし, this problem, tianjin と shout ばれる avoid air ship manoeuvring のテストシナリオを with いて's most airworthiness road project の usefulness を shown した. A series of research results are published in the 36th volume of the proceedings of the Japan Society of Ship and Ocean Engineers, に, されてされてるる. Fang, research の carries out にあたり, inverse reinforcement learning の applicable van 囲が small-scale かつ discrete state-space にな limit られるという subject に face した. そこで inverse reinforcement learning, reinforcement learning との 2 paragraph order optimization problem を 1 つのミニマックス problem として demean した enemy ain the generation of imitative learning を import し, large-scale even 続 state space appropriate に practices may avoid な navigation route plan を open 発した. This year は, phase 1 hand boat にす seaborne る navigation route avoiding のサンプルデータが and えられた interstate, this technique によって with good imitation くでの airway を precision by きること confirm した.