Analysis of the latent preference mechanism that produces diverse behaviors

产生多样化行为的潜在偏好机制分析

基本信息

批准号：
22KJ0480
负责人：
岸川大航
金额：
$ 1.09万
依托单位：
Chiba University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2023
资助国家：
日本
起止时间：
2023-03-08 至 2024-03-31
项目状态：
已结题

项目摘要

ベースラインの不要な分類型逆強化学習と，多目的逆強化学習についての研究を実施した．分類型逆強化学習については，手本となるエキスパートデータのみから学習するために，エキスパートは常に報酬の高い方向へ進行し続ける，という「報酬追跡原理」と呼ばれる報酬モデルを考案し，このモデルをもとに学習する手法「報酬追跡学習法」を提案した．この手法を後述する多目的深層逆強化学習において逆強化学習手法として利用し，論文内において発表した．多目的逆強化学習については，2022年度に大きく研究が進展した．2021年にまず発表した，非負値行列因子分解（NMF）によって多目的逆強化学習を解くことが可能な手法をもとに，2022年に勾配降下法を導入することで非負の制約が不要となった手法（報酬行列分解）を提案した．申請者は，この発表と同時並行で，行列分解をニューラルネットワークの構造として構築し，従来の深層逆強化学習手法の中に組み込むことによって学習する手法を検討・実験しており，その成果を「多目的深層逆強化学習」として続けて発表した．多目的深層逆強化学習は世界初の試みであり，学習が成功することを示すことができたことは重要な成果と言える．そして，多目的深層逆強化学習の研究を更に発展させ，重みと報酬の総和を計算する（線形スカラー化と呼ばれる）という仮定をなくすために，最大値を取るチェビシェフスカラー化（非線形スカラー化の一種）を含んだ重み付けスカラー化の一般化を定義し，このスカラー化操作をニューラルネットワークによって学習する「ニューラルスカラー化」を開発した．この研究成果は査読を経て，英文ジャーナルに採択された．また，常に最適行動を取り続けるエキスパートは非現実的であるため，時に最適でない行動を取るエキスパート（準最適なエキスパート）のデータにも対応するべく，新たな視点からの手法を開発し，現在実験を進めている．

我们对不必要的基线分类逆增强学习和多目标逆增强学习进行了研究。关于基于分类的逆增强学习，我们设计了一个称为“奖励跟踪原则”的奖励模型，其中专家继续朝着更高的奖励迈进，以仅从模型专家数据中学习，并提出了一种“奖励跟踪学习方法”，一种使用该模型来学习的方法。该方法被用作一种用于多目标深逆增强学习的逆增强学习方法，该方法将在后面进行描述，并在论文中介绍。对多用途逆增强学习的研究在2022年取得了显着进展。基于2021年首次发布的方法，该方法允许使用非阴性矩阵分解（NMF）求解多目标的逆增强学习学习，我们提出了一种方法（奖励Matrix分解），从而消除了对非介绍的介绍的方法（奖励Matrix解析），以介绍了20种介绍的方法。通过此介绍，申请人通过构建矩阵分解作为神经网络结构并将其纳入常规深度逆增强学习方法，研究并尝试了一种学习方法，并继续将结果作为“多目标深度逆增强学习”。多功能深度逆增强学习是世界上第一个尝试，这是一个重要的成就，即能够证明学习将是成功的。 In order to further develop the research on multi-objective deep inverse reinforcement learning, and to eliminate the assumption that the sum of weights and rewards is calculated (called linear scalarization), we defined a generalization of weighting scalarization, including Chebyshev's scalarization (a type of nonlinear scalarization), which takes the maximum value, and developed a "neural scalarization" in which this scalarization operation is learned using a neural network.这项研究结果经过同行审查，并由英语期刊通过。此外，始终采取最佳行动的专家是不现实的，因此，为了适应有时会糟糕的专家的数据（次优专家），我们已经从新的角度开发了方法，目前正在进行实验。

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

多目的逆強化学習のための報酬行列分解

多目标逆强化学习的奖励矩阵分解

DOI：
发表时间：
2022
期刊：
影响因子：
0
作者：
岸川大航;荒井幸代
通讯作者：
荒井幸代

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ patent.updateTime }}

岸川大航其他文献

深層強化学習を用いた自動運転の制御限界の検出

使用深度强化学习检测自动驾驶的控制极限

DOI：
发表时间：
2022
期刊：
影响因子：
0
作者：
岸川大航;荒井幸代;今村麟太郎，荒井幸代
通讯作者：
今村麟太郎，荒井幸代

Reward Matrix Decomposition for Multi-Objective Inverse Reinforcement Learning

多目标逆强化学习的奖励矩阵分解

DOI：
10.11517/pjsai.jsai2022.0_4e1gs205
发表时间：
2022
期刊：
Proceedings of the Annual Conference of JSAI
影响因子：
0
作者：
岸川大航;荒井幸代
通讯作者：
荒井幸代

強化学習とモデル予測制御を用いた UAV の自律的バッテリー管理による飛行経路最適化

使用强化学习和模型预测控制进行无人机自主电池管理的飞行路径优化

DOI：
发表时间：
2022
期刊：
影响因子：
0
作者：
岸川大航;荒井幸代;今村麟太郎，荒井幸代;堀江直人，荒井幸代
通讯作者：
堀江直人，荒井幸代

岸川大航的其他文献

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

相似海外基金

PATHOLOGY

病理

批准号：
7671835
财政年份：
2008
资助金额：
$ 1.09万
项目类别：

Defining Melanoma Therapeutic Avenues by Integrative Functional Genomics

通过综合功能基因组学定义黑色素瘤治疗途径

批准号：
7431956
财政年份：
2007
资助金额：
$ 1.09万
项目类别：

bDNA Microfluidic Disc for Accurate Monitoring of HIV-1

用于准确监测 HIV-1 的 bDNA 微流控盘

批准号：
7187376
财政年份：
2006
资助金额：
$ 1.09万
项目类别：

Ceriodaphnia DNA Microarrays

Ceriodaphnia DNA 微阵列

批准号：
7407595
财政年份：
2002
资助金额：
$ 1.09万
项目类别：

会员权益说明：