AI技術に基づく安定性の保証付き制御手法の開発

基于AI技术的稳定性保障控制方法开发

基本信息

批准号：
21K14178
负责人：
川口貴弘
金额：
$ 2.83万
依托单位：
Gunma University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Early-Career Scientists
财政年份：
2021
资助国家：
日本
起止时间：
2021-04-01 至 2024-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-21K14178/
关键词：
分散制御強化学習レトロフィット制御制御工学安定性

项目摘要

本研究では，レトロフィット制御理論と強化学習法を組み合わせることで，どのようなデータが得られたとしても制御系の安定性を保証できる適応的な分散制御法の構築を目指している．レトロフィット制御理論によって安定性を保証する鍵の一つは，対象の物理によって決まる整流器を制御器の内部に含めることである．したがって，レトロフィット制御の考え方を強化学習に取り入れるためには，このような整流器を含んだうえで，内部制御器のみを学習する，構造付きの学習法が必要になる．本年度は，昨年度提案した方法である有限インパルス応答表現を用いたレトロフィット強化学習法の適用について，精度向上のための手法の検討を行った．インパルス応答表現を用いる際には，制御に用いる信号の過去の値を多数保持し，それらの係数を学習によって求めることが必要である．この特徴から，求めるパラメータ数が多くなり，雑音などの影響を受けやすくなるという欠点があった．この問題点を解決するために，近年システム同定の分野で注目されているインパルス応答推定法である，カーネルに基づく正則化法を組み合わせて利用することを提案した．これにより，雑音の影響を受けにくくなり，学習後の制御性能が向上することをシミュレーションを通して確かめた．その過程で，システム同定にも利用可能な新たなカーネル正則化法を提案することができた．さらに，これまでは強化学習を行う主体が単一であることを仮定して研究を行ってきたが，一つの大規模システムを複数の主体が管理する状況を想定し，複数主体が同時に強化学習を行う状況への適用についても検討した．シミュレーションを通して，それぞれの主体の学習結果が互いに悪影響を及ぼすことはなく，単一主体での学習では達成不可能な性能を達成できることを示した．

这项研究旨在创建一种自适应分布式控制方法，无论通过将改造控制理论与强化学习方法相结合，可以保证控制系统的稳定性。通过改造控制理论确保稳定性的一个关键是在控制器中包括一个由感兴趣的物理学确定的整流器。因此，为了将改造控制的概念纳入增强学习中，有必要一种结构化学习方法，其中包括整流器，并且只有学习内部控制。今年，我们研究了一种使用有限的脉冲响应表达表达的方法，以提高改造增强学习方法的准确性，该方法是去年提出的。当使用脉冲响应表达式时，有必要保留用于控制的信号的许多过去值，并通过学习找到其系数。此功能的缺点是，参数的数量需要增加，并且更容易受到噪声和其他因素的影响。为了解决这个问题，我们建议使用基于内核的正则化方法，这是一种脉冲响应估计方法，最近引起了系统识别领域的关注。这使其不太容易受到噪声的影响，并通过模拟学习后改善了控制性能。在此过程中，我们能够提出一种新的内核正则化方法，该方法也可以用于系统识别。此外，已经对有一个单个实体进行强化学习的假设进行了研究，但是假设多个参与者管理一个大规模系统的情况，我们还检查了对多个参与者同时执行强化学习的情况的应用。通过模拟，我们证明了每个受试者的学习结果不会彼此产生负面影响，并且可以通过单个学科的学习无法实现表现。

项目成果

期刊论文数量（7）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

カーネル正則化を用いたレトロフィット強化学習法

使用核正则化改进强化学习方法

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
K. Isoshima;M. Tanemura;and Y. Chida;柴公平，種村昌也，千田有一，畑中健志，東俊一;五十嶋洸人，種村昌也，千田有一;米田尭広，種村昌也，千田有一，東　俊一，畑中健志;中山龍雅，種村昌也，千田有一，東俊一，畑中健志;柴公平，種村昌也，千田有一，畑中健志，東俊一;根岸航平，川口貴弘，橋本誠司;五十嶋洸人，種村昌也，千田有一;川口貴弘;三上凌，川口貴弘，橋本誠司;松井一馬，種村昌也，千田有一;橋本直季，根岸航平，川口貴弘，橋本誠司
通讯作者：
橋本直季，根岸航平，川口貴弘，橋本誠司

複数主体の存在下におけるレトロフィット強化学習法

改进多参与者存在下的强化学习方法

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
K. Isoshima;M. Tanemura;and Y. Chida;柴公平，種村昌也，千田有一，畑中健志，東俊一;五十嶋洸人，種村昌也，千田有一;米田尭広，種村昌也，千田有一，東　俊一，畑中健志;中山龍雅，種村昌也，千田有一，東俊一，畑中健志;柴公平，種村昌也，千田有一，畑中健志，東俊一;根岸航平，川口貴弘，橋本誠司
通讯作者：
根岸航平，川口貴弘，橋本誠司

Retrofit Controller Design Using a Finite Impulse Response Representation and Reinforcement Learning

使用有限脉冲响应表示和强化学习改进控制器设计

DOI：
发表时间：
2022
期刊：
影响因子：
0
作者：
Kohei Negishi;Takahiro Kawaguchi;Seiji Hashimoto
通讯作者：
Seiji Hashimoto

インパルス応答のモード表現に基づくカーネル正則化を用いたシステム同定法

基于脉冲响应模态表示的核正则化系统辨识方法

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
K. Isoshima;M. Tanemura;and Y. Chida;柴公平，種村昌也，千田有一，畑中健志，東俊一;五十嶋洸人，種村昌也，千田有一;米田尭広，種村昌也，千田有一，東　俊一，畑中健志;中山龍雅，種村昌也，千田有一，東俊一，畑中健志;柴公平，種村昌也，千田有一，畑中健志，東俊一;根岸航平，川口貴弘，橋本誠司;五十嶋洸人，種村昌也，千田有一;川口貴弘
通讯作者：
川口貴弘

ブロックスパース最適化を用いたARXモデルの同定法

使用块稀疏优化的ARX模型识别方法

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
K. Isoshima;M. Tanemura;and Y. Chida;柴公平，種村昌也，千田有一，畑中健志，東俊一;五十嶋洸人，種村昌也，千田有一;米田尭広，種村昌也，千田有一，東　俊一，畑中健志;中山龍雅，種村昌也，千田有一，東俊一，畑中健志;柴公平，種村昌也，千田有一，畑中健志，東俊一;根岸航平，川口貴弘，橋本誠司;五十嶋洸人，種村昌也，千田有一;川口貴弘;三上凌，川口貴弘，橋本誠司
通讯作者：
三上凌，川口貴弘，橋本誠司