Analysis of the latent preference mechanism that produces diverse behaviors

产生多样化行为的潜在偏好机制分析

基本信息

  • 批准号:
    22KJ0480
  • 负责人:
  • 金额:
    $ 1.09万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2023
  • 资助国家:
    日本
  • 起止时间:
    2023-03-08 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

ベースラインの不要な分類型逆強化学習と,多目的逆強化学習についての研究を実施した.分類型逆強化学習については,手本となるエキスパートデータのみから学習するために,エキスパートは常に報酬の高い方向へ進行し続ける,という「報酬追跡原理」と呼ばれる報酬モデルを考案し,このモデルをもとに学習する手法「報酬追跡学習法」を提案した.この手法を後述する多目的深層逆強化学習において逆強化学習手法として利用し,論文内において発表した.多目的逆強化学習については,2022年度に大きく研究が進展した.2021年にまず発表した,非負値行列因子分解(NMF)によって多目的逆強化学習を解くことが可能な手法をもとに,2022年に勾配降下法を導入することで非負の制約が不要となった手法(報酬行列分解)を提案した.申請者は,この発表と同時並行で,行列分解をニューラルネットワークの構造として構築し,従来の深層逆強化学習手法の中に組み込むことによって学習する手法を検討・実験しており,その成果を「多目的深層逆強化学習」として続けて発表した.多目的深層逆強化学習は世界初の試みであり,学習が成功することを示すことができたことは重要な成果と言える.そして,多目的深層逆強化学習の研究を更に発展させ,重みと報酬の総和を計算する(線形スカラー化と呼ばれる)という仮定をなくすために,最大値を取るチェビシェフスカラー化(非線形スカラー化の一種)を含んだ重み付けスカラー化の一般化を定義し,このスカラー化操作をニューラルネットワークによって学習する「ニューラルスカラー化」を開発した.この研究成果は査読を経て,英文ジャーナルに採択された.また,常に最適行動を取り続けるエキスパートは非現実的であるため,時に最適でない行動を取るエキスパート(準最適なエキスパート)のデータにも対応するべく,新たな視点からの手法を開発し,現在実験を進めている.
The research of multi-purpose inverse reinforcement learning is carried out. In the case of inverse reinforcement learning, the principle of compensation tracing is proposed, and the method of compensation tracing is proposed. This technique is described later in this paper. Multi-purpose inverse reinforcement learning (MIRL) has been developed in 2022, and non-negative rank factorization (NMF) has been proposed in 2021. The applicant shall, in response to this request and in parallel with it, construct and construct the structure of the column decomposition and the structure of the column decomposition. Multi-purpose Deep Reinforcement Learning is the first attempt in the world. In addition, the research on multi-purpose deep inverse reinforcement learning should be further developed, focusing on the calculation of compensation and compensation.(Linear model and call model) and middle model, maximum value, maximum value The research results of this paper are as follows: The most appropriate action is often taken by the user, and the most appropriate action is taken by the user. The method of new viewpoint is developed, and now the method of new viewpoint is developed.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
多目的逆強化学習のための報酬行列分解
多目标逆强化学习的奖励矩阵分解
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岸川大航;荒井幸代
  • 通讯作者:
    荒井幸代
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

岸川 大航其他文献

深層強化学習を用いた自動運転の制御限界の検出
使用深度强化学习检测自动驾驶的控制极限
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岸川 大航;荒井 幸代;今村麟太郎,荒井幸代
  • 通讯作者:
    今村麟太郎,荒井幸代
Reward Matrix Decomposition for Multi-Objective Inverse Reinforcement Learning
多目标逆强化学习的奖励矩阵分解
強化学習とモデル予測制御を用いた UAV の自律的バッテリー管理による飛行経路最適化
使用强化学习和模型预测控制进行无人机自主电池管理的飞行路径优化
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岸川 大航;荒井 幸代;今村麟太郎,荒井幸代;堀江直人,荒井幸代
  • 通讯作者:
    堀江直人,荒井幸代

岸川 大航的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了