Integration of Kullback-Leibler control and intrinsic rewards for reinforcement learning

Kullback-Leibler 控制和强化学习内在奖励的集成

基本信息

项目摘要

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Deep reinforcement learning by parallelizing reward and punishment using MaxPain architecture
使用 MaxPain 架构并行奖励和惩罚进行深度强化学习
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiexin Wang;Stefan Elfwing;and Eiji Uchibe
  • 通讯作者:
    and Eiji Uchibe
Deterministic Policy Search Method for Real Robot Control
  • DOI:
    10.3902/jnns.24.195
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    E. Uchibe;Jiexin Wang
  • 通讯作者:
    E. Uchibe;Jiexin Wang
Imitation learning under entropy regularization
熵正则化下的模仿学习
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiexin Wang;Eiji Uchibe;Kenji Doya;Eiji Uchibe
  • 通讯作者:
    Eiji Uchibe
Cooperative and competitive reinforcement and imitation learning
合作和竞争强化和模仿学习
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiexin Wang;Eiji Uchibe;Kenji Doya;Eiji Uchibe;Eiji Uchibe
  • 通讯作者:
    Eiji Uchibe
方策探査法のための多重重点サンプリングを用いた経験再利用
使用多重重要性采样进行策略探索方法的经验重用
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiexin Wang;Stefan Elfwing;and Eiji Uchibe;Eiji Uchibe;内部英治
  • 通讯作者:
    内部英治
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

UCHIBE Eiji其他文献

UCHIBE Eiji的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('UCHIBE Eiji', 18)}}的其他基金

Information theoretic optimization of intrinsic rewards for reinforcement learning
强化学习内在奖励的信息论优化
  • 批准号:
    24500249
  • 财政年份:
    2012
  • 资助金额:
    $ 2.16万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

EMアルゴリズムに代わる欠測データを用いたパラメータ推定法の開発
开发利用缺失数据替代EM算法的参数估计方法
  • 批准号:
    18K11205
  • 财政年份:
    2018
  • 资助金额:
    $ 2.16万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
epsilon法によるEMアルゴリズムの加速化と数理的構造解析の研究
EM算法加速及epsilon方法数学结构分析研究
  • 批准号:
    18700279
  • 财政年份:
    2006
  • 资助金额:
    $ 2.16万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了