Analysis of the latent preference mechanism that produces diverse behaviors
产生多样化行为的潜在偏好机制分析
基本信息
- 批准号:22KJ0480
- 负责人:
- 金额:$ 1.09万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2023
- 资助国家:日本
- 起止时间:2023-03-08 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
ベースラインの不要な分類型逆強化学習と,多目的逆強化学習についての研究を実施した.分類型逆強化学習については,手本となるエキスパートデータのみから学習するために,エキスパートは常に報酬の高い方向へ進行し続ける,という「報酬追跡原理」と呼ばれる報酬モデルを考案し,このモデルをもとに学習する手法「報酬追跡学習法」を提案した.この手法を後述する多目的深層逆強化学習において逆強化学習手法として利用し,論文内において発表した.多目的逆強化学習については,2022年度に大きく研究が進展した.2021年にまず発表した,非負値行列因子分解(NMF)によって多目的逆強化学習を解くことが可能な手法をもとに,2022年に勾配降下法を導入することで非負の制約が不要となった手法(報酬行列分解)を提案した.申請者は,この発表と同時並行で,行列分解をニューラルネットワークの構造として構築し,従来の深層逆強化学習手法の中に組み込むことによって学習する手法を検討・実験しており,その成果を「多目的深層逆強化学習」として続けて発表した.多目的深層逆強化学習は世界初の試みであり,学習が成功することを示すことができたことは重要な成果と言える.そして,多目的深層逆強化学習の研究を更に発展させ,重みと報酬の総和を計算する(線形スカラー化と呼ばれる)という仮定をなくすために,最大値を取るチェビシェフスカラー化(非線形スカラー化の一種)を含んだ重み付けスカラー化の一般化を定義し,このスカラー化操作をニューラルネットワークによって学習する「ニューラルスカラー化」を開発した.この研究成果は査読を経て,英文ジャーナルに採択された.また,常に最適行動を取り続けるエキスパートは非現実的であるため,時に最適でない行動を取るエキスパート(準最適なエキスパート)のデータにも対応するべく,新たな視点からの手法を開発し,現在実験を進めている.
我们对不必要的基线分类逆增强学习和多目标逆增强学习进行了研究。关于基于分类的逆增强学习,我们设计了一个称为“奖励跟踪原则”的奖励模型,其中专家继续朝着更高的奖励迈进,以仅从模型专家数据中学习,并提出了一种“奖励跟踪学习方法”,一种使用该模型来学习的方法。该方法被用作一种用于多目标深逆增强学习的逆增强学习方法,该方法将在后面进行描述,并在论文中介绍。对多用途逆增强学习的研究在2022年取得了显着进展。基于2021年首次发布的方法,该方法允许使用非阴性矩阵分解(NMF)求解多目标的逆增强学习学习,我们提出了一种方法(奖励Matrix分解),从而消除了对非介绍的介绍的方法(奖励Matrix解析),以介绍了20种介绍的方法。通过此介绍,申请人通过构建矩阵分解作为神经网络结构并将其纳入常规深度逆增强学习方法,研究并尝试了一种学习方法,并继续将结果作为“多目标深度逆增强学习”。多功能深度逆增强学习是世界上第一个尝试,这是一个重要的成就,即能够证明学习将是成功的。 In order to further develop the research on multi-objective deep inverse reinforcement learning, and to eliminate the assumption that the sum of weights and rewards is calculated (called linear scalarization), we defined a generalization of weighting scalarization, including Chebyshev's scalarization (a type of nonlinear scalarization), which takes the maximum value, and developed a "neural scalarization" in which this scalarization operation is learned using a neural network.这项研究结果经过同行审查,并由英语期刊通过。此外,始终采取最佳行动的专家是不现实的,因此,为了适应有时会糟糕的专家的数据(次优专家),我们已经从新的角度开发了方法,目前正在进行实验。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
岸川 大航其他文献
深層強化学習を用いた自動運転の制御限界の検出
使用深度强化学习检测自动驾驶的控制极限
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
岸川 大航;荒井 幸代;今村麟太郎,荒井幸代 - 通讯作者:
今村麟太郎,荒井幸代
Reward Matrix Decomposition for Multi-Objective Inverse Reinforcement Learning
多目标逆强化学习的奖励矩阵分解
- DOI:
10.11517/pjsai.jsai2022.0_4e1gs205 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
岸川 大航;荒井 幸代 - 通讯作者:
荒井 幸代
強化学習とモデル予測制御を用いた UAV の自律的バッテリー管理による飛行経路最適化
使用强化学习和模型预测控制进行无人机自主电池管理的飞行路径优化
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
岸川 大航;荒井 幸代;今村麟太郎,荒井幸代;堀江直人,荒井幸代 - 通讯作者:
堀江直人,荒井幸代
岸川 大航的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
Defining Melanoma Therapeutic Avenues by Integrative Functional Genomics
通过综合功能基因组学定义黑色素瘤治疗途径
- 批准号:
7431956 - 财政年份:2007
- 资助金额:
$ 1.09万 - 项目类别:
bDNA Microfluidic Disc for Accurate Monitoring of HIV-1
用于准确监测 HIV-1 的 bDNA 微流控盘
- 批准号:
7187376 - 财政年份:2006
- 资助金额:
$ 1.09万 - 项目类别: