权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

ロバスト統計を用いた異常値の影響を受けないシステム同定法の構築

利用鲁棒统计构建不受异常值影响的系统识别方法

基本信息

批准号：
19K04448
负责人：
福永修一
金额：
$ 2.75万
依托单位：
Tokyo Metropolitan College of Industrial Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2019
资助国家：
日本
起止时间：
2019-04-01 至 2024-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-19K04448/
关键词：
システム同定機械学習ロバスト統計強化学習

项目摘要

本研究では観測に異常値が含まれるデータからシステムを推定するアルゴリズムを開発することが目的である．計画4年目にあたる2022年度は以下の3つの課題に取り組んだ．(1) システム同定のための非線形モデルとして本研究はポートハミルトン系に着目し，ポートハミルトン系のための強化学習法を提案した．強化学習は試行錯誤により報酬を最大化する制御則を獲得するアルゴリズムである．ポートハミルトン系のための強化学習は，未知パラメータを含むポートハミルトン系に対して制御則を学習する方法である．従来提案されていたポートハミルトン系のための強化学習に対して自然勾配法を導入することにより，従来よりも高速に学習が可能なアルゴリズムを提案した．(2) ポートハミルトン系のための強化学習はこれまで確率的方策が用いられてきたが，制御入力に含まれるノイズがシステムの意図しない動作を引き起こす可能性がある．本研究では確率的方策を決定論的方策に置きかえることにより制御入力にノイズが入らないようにし，決定論的方策を勾配法により学習するアルゴリズムを提案した．(3) 強化学習は報酬を最大化するアルゴリズムであるが，実問題を考えると報酬の観測に外れ値が混入する場合がある．外れ値の影響を抑えた推定を行う方法としてベータダイバージェンスを用いたロバスト推定が提案されている．ベータダイバージェンスを用いたロバスト推定は重み関数を用いることにより外れ値の影響を抑えた推定を行うことができる．本研究ではポートハミルトン系のための強化学習において，報酬の観測に外れ値が含まれる問題に対してベータダイバージェンスを用いたロバストなパラメータ更新則を提案した．

This study では観に abnormal numerical measuring が containing まれるデータからシステムを presumption するアルゴリズムを open 発することが purpose である. For the 4th year of the plan, にあたる for the year 2022, the following <s:1> 3 にに projects に will be selected from the んだ group. (1) システム with fixed のための nonlinear モデルとして in this study はポートハミルトンに the mesh し, ポートハミルトン is のための reinforcement learning method proposed をした. Reinforcement learning によ trial error によ payoff を maximization する rules を obtain するアゴリズムであるゴリズムである. ポートハミルトン is のための reinforcement learning は, unknown パラメータを containing むポートハミルトン department にし seaborne て suppression is を learning する method である. 従 proposals to されていたポートハミルトン is のための reinforcement learning にし seaborne て natural hook with method を import することにより, 従 to よりも high-speed に learning が may なアルゴリズムを proposal した. (2) ポートハミルトン is のための reinforcement learning はこれまで order of probabilistic が with いられてきたが, suppression に into force including まれるノイズがシステムの meaning 図しない action packed を lead きこす possibility がある. This study では order of probabilistic を deterministic order に buy きかえることにより suppression into force にノイズが into らないようにし, deterministic order を hook match method により learning するアルゴリズムを proposal した. (3) reinforcement learning は reward maximize をするアルゴリズムであるが, be problem を exam えると remuneration の観に outside れ numerical measuring が mixed with する occasions がある. Presumption on outside れ numerical の influence をえ suppression たを line う method としてベータダイバージェンスを with いたロバスト constructive proposals がされている. ベータダイバージェンスを with いたロバスト presumption は heavy み masato number を with いることにより outside れ numerical の influence をえ suppression た presumed line をうことができる. This study ではポートハミルトン is のための reinforcement learning において, remuneration の観に outside れ numerical measuring が containing まれる problem にし seaborne てベータダイバージェンスを with いたロバストなパラメータ update is しを proposal た.