安定・安全を指向する逆強化学習に基づく運転行動モデリング
基于逆强化学习的驾驶行为建模,以稳定性和安全性为目标
基本信息
- 批准号:21H03517
- 负责人:
- 金额:$ 10.9万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
近年,先進運転支援システムと呼ばれる,ドライバの運転をアシストする技術の開発が盛んである.それらの技術の発展に,熟練ドライバの運転規範の適切なモデル化と予測技術の開発が望まれている.本研究では,モデル化・予測の枠組の一つとして逆強化学習に注目する.本研究では,運転行動という応用上の特性を踏まえ,「安定性・安全性」に注目した方法論の確立を目指している.逆強化学習は大きく分けて,1) 与えられた報酬場での最適パス生成,2) 教示軌道と1)における最適パス生成との差分に基づく報酬場の更新,から構成される.2)は1)に大きく依存することから,1)の性質が逆強化学習の成否に大きく影響を与えることが分かる.自動車運転行動を対象とした場合,古典的な逆強化学習で議論されてきたような離散的状態空間での大域的に最適なパス生成は難しい.一方,高次元連続状態空間中の局所最適性のパス生成を扱う必要があり,その際のパス生成の安定性の欠如が課題となっている.本研究では,パス生成の枠組として,探索空間全体を確率的・網羅的に探索する枠組を採用することで,パス生成の安定化の達成を試みた.また,従来の研究では議論されてこなかった,2)における1)の結果の利活用の効率化についても注力して手法を開発した.具体的には,1) について,ロボット工学分野でよく使われるRRTパス探索技法を非ホロノミック運動に適したテンプレートベース探索手法を開発した.さらに,2) について,このRRTの結果を活用する重点サンプリング手法を開発し,これに基づく効率的な報酬場更新アルゴリズムを構築した.車線変更タスク,交差点での右左折タスクに関してパス生成および報酬場復元それぞれについて性能を評価し,提案した枠組の有効性を検証した.
In recent years, the development of advanced operation support technology has been booming. In the development of these technologies, the development of prediction technologies is expected to be carried out in accordance with the appropriate specifications for the operation of skilled equipment. This study focuses on the problem of inverse reinforcement learning. This study focuses on the establishment of methodology for stability and safety. Inverse reinforcement learning is divided into two parts: 1) optimal generation of compensation field, 2) teaching orbit, 1) optimal generation of compensation field, difference of compensation field, and updating of compensation field. 2) inverse reinforcement learning is divided into two parts: 1) large dependence, 1) large influence of inverse reinforcement learning. In case of automatic vehicle movement, classical inverse reinforcement learning is difficult to generate optimal solution in discrete state space and large domain. In a square, the optimal state of a high-dimensional continuum in the state space is generated by a necessary problem. This study is aimed at exploring the possibility of establishing a stable system of spatial integration. 2) The efficiency of the results of the study and the development of the methods of study. Specific, 1), the technical division, the exploration of RRT techniques, the development of non-sports exploration techniques. In addition, 2) in the middle of the process, the results of the RRT are used to develop key service delivery methods, and the basic compensation field is updated and constructed. The car line changes the position, the intersection point changes the position, the right side changes the position, the intersection point changes the position.
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
特徴量探索とパラメータ最適化の交互実行によるコンパクトな運転行動推定モデル
通过交替特征搜索和参数优化的紧凑驾驶行为估计模型
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:平川 優伎;下坂 正倫
- 通讯作者:下坂 正倫
Driving Behavior Modeling in Residensial Roads with Inverse Reinforcement Learning
利用逆强化学习的住宅道路驾驶行为建模
- DOI:10.7210/jrsj.39.631
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Kazuki Yamamoto;Keisuke Maeda;Ren Togo ,Takahiro Ogawa;Miki Haseyama;下坂正倫
- 通讯作者:下坂正倫
RRT-based maximum entropy inverse reinforcement learning for robust and efficient driving behavior prediction
基于 RRT 的最大熵逆强化学习,用于鲁棒高效的驾驶行为预测
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Shinpei Hosoma;Masato Sugasaki;Hiroaki Arie;and Masamichi Shimosaka
- 通讯作者:and Masamichi Shimosaka
Smooth and Stopping Interval Aware Driving Behavior Prediction at Un-signalized Intersection with Inverse Reinforcement Learning on Sequential MDPs.
通过序列 MDP 上的逆强化学习,在无信号交叉口进行平滑和停止间隔感知驾驶行为预测。
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Shaoyu Yang;Hiroshi Yoshitake;Motoki Shino;and Masamichi Shimosaka.
- 通讯作者:and Masamichi Shimosaka.
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
下坂 正倫其他文献
空間構造正則化と多タスク回帰に基づく赤外線センサアレイ人密度分布推定
基于空间结构正则化和多任务回归的红外传感器阵列人体密度分布估计
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
下坂 正倫;子安 秀昇;税所 修;川尻 亮真 - 通讯作者:
川尻 亮真
スマートウォッチ端末と電力センサを用いた複数居住者屋内行動認識
使用智能手表终端和功率传感器的多用户室内行为识别
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
下坂 正倫;渡辺 康平;税所 修;秋元 啓;小西 達也;築地 毅 - 通讯作者:
築地 毅
Wi-Fi RTTを用いたデバイスフリー複数人屋内測位
使用 Wi-Fi RTT 实现无设备多人室内定位
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
須ヶ﨑 聖人;坪内 孝太;西尾 信彦;下坂 正倫 - 通讯作者:
下坂 正倫
Recognition of Daily Life Action and Its Perfomiance Adjustment based on Support Vector Learning
基于支持向量学习的日常生活行为识别及其表现调节
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
森 武俊;瀬川 友史;下坂 正倫;佐藤 知正.;T.Mori et al. - 通讯作者:
T.Mori et al.
日中平和友好条約と福田外交
日中和平友好条约与福田外交
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
下坂 正倫;渡辺 康平;税所 修;秋元 啓;小西 達也;築地 毅;Masahiro Fukuda;井上正也 - 通讯作者:
井上正也
下坂 正倫的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('下坂 正倫', 18)}}的其他基金
マルチスケール性と安全性を指向する逆強化学習ベース運転行動モデリング
基于逆强化学习的驾驶行为建模,旨在实现多可扩展性和安全性
- 批准号:
24K03015 - 财政年份:2024
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
人間の動作の知的モデリングを利用した統計的手法に基づく動作認識法の研究
基于人体运动智能建模的统计方法的运动识别方法研究
- 批准号:
04J10886 - 财政年份:2004
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
模倣学習による航路プランナーの開発と評価
使用模仿学习的路线规划器的开发和评估
- 批准号:
23K26321 - 财政年份:2024
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
サンプルベースモデル予測制御を用いた新奇動作生成可能な模倣学習
模仿学习可以使用基于样本的模型预测控制生成新颖的行为
- 批准号:
24K00905 - 财政年份:2024
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
熟練技能の模倣学習手法を用いたグラップルローダ操作の自動化
采用熟练技能模仿学习法实现抓斗装载机操作自动化
- 批准号:
24K08996 - 财政年份:2024
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
日常作業データによる模倣学習技術基盤の確立
利用日常工作数据建立模仿学习技术库
- 批准号:
24K03018 - 财政年份:2024
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
ロボット支援下手術技術向上における同期模倣学習の有用性についての検討
同步模仿学习在提高机器人辅助手术技术中的作用研究
- 批准号:
23K15461 - 财政年份:2023
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
状況認知と問題解決の双方向創発による深層模倣学習の省データ化と高汎化性達成
通过情境识别和问题解决的双向涌现,实现深度模仿学习的数据保存和高泛化性
- 批准号:
22H00528 - 财政年份:2022
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
母子間相互作用から探る乳幼児期の模倣学習メカニズムの解明
通过母婴互动阐明婴儿期模仿学习机制
- 批准号:
16J09229 - 财政年份:2016
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows
ハイブリッドインタラクティブロボットアーキテクチャを用いた可塑的な模倣学習
使用混合交互式机器人架构的塑料模仿学习
- 批准号:
12F02046 - 财政年份:2012
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows
多自由度人間型ロボットのための生物学的模倣学習に関する研究
多自由度仿人机器人生物模仿学习研究
- 批准号:
03F03713 - 财政年份:2003
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows
多自由度人間型ロボットのための生物学的模倣学習に関する研究
多自由度仿人机器人生物模仿学习研究
- 批准号:
03F00713 - 财政年份:2003
- 资助金额:
$ 10.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows