权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

強化学習にもとづく有限時間整定とフォーメーション制御への応用

基于强化学习的有限时间稳定和编队控制应用

基本信息

批准号：
22KF0201
负责人：
加嶋健司
金额：
$ 0.96万
依托单位：
Kyoto University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2023
资助国家：
日本
起止时间：
2023-03-08 至 2025-03-31
项目状态：
未结题

来源：
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-22KF0201/
关键词：
強化学習最適化

项目摘要

研究員のこれまでの研究を拡張する方向性として、受入研究者が分布ロバスト最適化、深層学習、最適輸送の３つを提示し、それぞれの基礎理論を教示しつつ、最新の論文を調査するために４ヶ月を費やした。その結果、分布ロバスト制御を取り入れた強化学習に関する研究に焦点を定め、定式化とその可解性を検討してきた。分布ロバスト最適化（DRO）は、不確実性の下で意思決定を行うという課題に取り組む数理最適化の研究分野である。多くの実用的な場面で、意思決定者は、意思決定に影響を与える不確実性を支配する確率分布に関する不完全な情報や曖昧な情報に直面する。DROは、このような不確実性に強い意思決定を最適化するためのフレームワークを提供する。DROでは、可能性のあるすべての不確実性に対応する確率分布の集合に対して意思決定が頑健であることを保証する。この特徴により、DROはサプライチェーンマネジメント、金融、エネルギー、輸送など、幅広い応用先に適用されてきた。こうした活発な研究は、モーメントベースのアプローチ、曖昧性集合、Wassersteinベースのアプローチなど、いくつかの理論的および計算的アプローチの開発につながった。申請者はこうした研究背景を適切に理解しつつ、ネットワーク化制御、強化学習に関連する形でいくつかの定式化をおこなった。残念ながら、事情により滞在は今年度で終了となったが、共同研究を継続するための問題意識の共有はおこなうことができた。

Researcher のこれまでをの research company, zhang する directional として, incoming researchers がロバスト optimization, the deep study, the optimal transportation の 3 つをし, それぞれのを basic theory teaching しつつ, latest の thesis を survey するためにヶ four months を fee やした. その results, distribution ロバスト suppression を take りれた reinforcement learning に masato すにる research focus をめ, demean とその solvability を beg し検てきた. Distribution ロバスト optimization (droz) は, uncertain be ので meaning decided to line をうといにう subject group take りむ mathematical optimization の research eset である. More くの be は decides with な scenes で, meaning, mean に influence を and える uncertain be sex を dominate する probabilistic distribution に masato する incomplete なや ambiguity な intelligence に face する. DRO する, <s:1> ような, uncertainty に, strong <s:1> will determination を, optimization するため, フレ, ムワ, ムワ and を provide する. Droz では, possibility のあるすべての uncertain be sex に応 seaborne する collection of probabilistic distribution のにし seaborne て mean decision が robust であることを guarantee する. この, 徴により, droz はサプライチェーンマネジメント, finance, エネルギー, conveying など, hiroo picture い応 with に first apply されてきた. Live こうした発な research は, モーメントベースのアプローチ, vague set, out ベースのアプローチなど, いくつかの theory および computing アプローチの open 発につながった. Applicants はこうした background を appropriate に understand しつつ, ネットワーク suppression and reinforcement learning に masato even する form でいくつかの demean をおこなった. Remnants read aloud ながら, things により lag in は "at the end of this year でとなったが and common research を継続するための problem consciousness の mutual はおこなうことができた.