基于近似多步模型的连续空间强化学习方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61702055
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    25.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F06.人工智能
  • 结题年份:
    2020
  • 批准年份:
    2017
  • 项目状态:
    已结题
  • 起止时间:
    2018-01-01 至2020-12-31

项目摘要

Approximate reinforcement learning methods have the advantages such as strong generalization and saving computation resources so that they are especially suitable for the problems with the continuous spaces. However, their low sample efficiency and convergence rate hinder the further application in practice. The approximate reinforcement learning methods can accelerate the convergence for the algorithm by using model learning and planning, consequently the sample efficiency and convergence rate can be improved heavily. Therefore, they have been spots in the field of reinforcement learning. .The problems existed in the methods based on model learning such as low planning efficiency, slow policy convergence and poor in-time performance are the main focuses of this project. In order to solve these problems, we propose a reinforcement learning method for continuous spaces based on multi-step model and new policy update rule, where the primary innovation points include: 1) To improve the planning efficiency, an approximate multi-step model is constructed and is then used for planning, in the meanwhile, the value function error formula generated from the planning of the approximate model planning is derived, and it is further analyzed so as to set the parameters and improve the stability; 2) The improved policy update rule is designed based on the advantageous function so that the policy can be converged rapidly; 3) The approximate reinforcement learning algorithm based on approximate multi-step model and the improved policy update rule is proposed where the convergence is also analyzed theoretically; 4) Combined with the proposed algorithm, the approximate reinforcement learning framework with parallel operation is constructed and then it is applied in the practical building energy saving problem.
近似强化学习方法具有泛化能力强和节省计算资源的优点,尤其适合连续空间的最优策略求解,但却存在样本低效和收敛速度慢的问题,因而制约了其在实时问题中的应用。基于模型学习的近似强化学习能通过模型学习与规划促进算法收敛,从而提高样本效率和收敛速度,是强化学习领域的研究热点之一。.本项目主要针对现有的基于模型学习的方法存在的规划效率低、策略收敛慢和实时性欠佳等问题,提出了一种基于近似多步模型和新策略更新规则的连续空间强化学习方法,主要创新点为:1)建立近似的多步模型并利用其规划来提高规划效率,同时推导由近似模型规划产生的值函数误差,通过分析误差公式来指导算法参数设置,从而提高算法稳定性;2)设计基于优势函数的新策略更新规则,实现策略快速收敛;3)构建基于近似多步模型和新策略更新规则的近似强化学习算法,并对算法收敛性进行理论分析;4)结合所提算法,构建近似强化学习并行框架,并应用于实际的建筑节能问题。

结项摘要

基于近似模型的强化学习方法能充分利用样本数据从而提高最优策略的求解速度,尤其适合连续空间的最优策略求解,但却存在模型精确度难以保障和模型规划难以获取最优解的问题。为了解决该问题,本项目提出了一系列基于单步和多步模型近似并利用模型规划来加快算法收敛的连续空间强化学习方法,主要创新点为:1)基于单个样本和样本的轨迹,来建立近似的多步模型,并利用单步模型和多步模型的共同规划来提高规划的效率,构建基于近似多步模型和策略更新规则的近似强化学习算法,并对算法收敛性进行理论分析;2)建立基于模型加速和经验回放的策略学习机制,并设计基于优势函数的策略更新规则,实现策略快速收敛;3)通过对状态空间和动作空间的分段,建立一种双层的分段模型,实现对连续状态和动作空间的更精确地刻画,构造更为精确的模型;4)为更好地捕获模型中出现的不确定性,建立了一种基于高斯函数的模型,并给出了模型中参数的求解方式,实现了模型的不确定性的刻画;5)为了进一步提高样本的利用率,在Dyna框架中,采用最小二乘算法来取代时间差分算法,实现值函数、策略以及模型的参数求解,并加入资格迹,以加快整个算法的求解速度;6)设计端到端的无人驾驶深度网络模型,结合历史决策数据和当前感知图片来建立从感知数据到决策行为的映射。7)结合所提算法,构建近似强化学习并行框架,将其应用于清洁机器人、无人驾驶、倒立摆和平衡杆等问题中,并应用于实际的建筑节能问题。

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(1)
会议论文数量(2)
专利数量(4)
Modeling-Learning-Based Actor-Critic Algorithm with Gaussian Process Approximator
基于建模学习的带有高斯过程逼近器的 Actor-Critic 算法
  • DOI:
    10.1007/s10723-020-09512-4
  • 发表时间:
    2020-04
  • 期刊:
    Journal of Grid Computing
  • 影响因子:
    5.5
  • 作者:
    Zhong Shan;Tan Jack;Dong Husheng;Chen Xuemei;Gong Shengrong;Qian Zhenjiang
  • 通讯作者:
    Qian Zhenjiang
Crowd counting via scale-adaptive convolutional neural network in extremely dense crowd images
通过尺度自适应卷积神经网络在极其密集的人群图像中进行人群计数
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    Int. J. Computer Applications in Technology
  • 影响因子:
    --
  • 作者:
    Ran YAN;Shengrong Gong;Shan Zhong
  • 通讯作者:
    Shan Zhong
SAR Image Colorization Using Multidomain Cycle-Consistency Generative Adversarial Network
使用多域循环一致性生成对抗网络的 SAR 图像着​​色
  • DOI:
    10.1109/lgrs.2020.2969891
  • 发表时间:
    2021-02-01
  • 期刊:
    IEEE GEOSCIENCE AND REMOTE SENSING LETTERS
  • 影响因子:
    4.8
  • 作者:
    Ji, Guang;Wang, Zhaohui;Gong, Shengrong
  • 通讯作者:
    Gong, Shengrong
一种采用模型学习和经验回放加速的 正则化自然行动器评判器算法
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    钟珊;刘全;傅启明;龚声蓉;董虎胜
  • 通讯作者:
    董虎胜
SARSA Based Access Control with Approximation by TileCoding
基于 SARSA 的访问控制与 TileCoding 近似
  • DOI:
    10.2298/csis180830022z
  • 发表时间:
    2019
  • 期刊:
    Computer Science and Information Systems
  • 影响因子:
    1.4
  • 作者:
    Zhu Fei;Peng Pai;Liu Quan;Fu Yuchen;Zhong Shan
  • 通讯作者:
    Zhong Shan

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

贵溪市城市周边永久基本农田划定研究
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    江西农业大学学报
  • 影响因子:
    --
  • 作者:
    钟珊;赵小敏;郭熙;黄聪;李伟峰
  • 通讯作者:
    李伟峰
增量式自然策略梯度的行动者评论家算法
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    通信学报
  • 影响因子:
    --
  • 作者:
    章鹏;刘全;钟珊;翟建伟;钱伟晟
  • 通讯作者:
    钱伟晟
增量式双自然策略梯度的行动者评论家算法
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    通信学报
  • 影响因子:
    --
  • 作者:
    章鹏;刘全;钟珊;翟建伟;钱炜晟
  • 通讯作者:
    钱炜晟
一种基于视觉注意力机制的深度循环Q网络模型
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    刘全;翟建伟;钟珊;章宗长;周倩;章鹏
  • 通讯作者:
    章鹏
一种采用模型学习和经验回放加速的自然行动器评判器算法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    钟珊;刘全;傅启明;龚声蓉;董虎胜
  • 通讯作者:
    董虎胜

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

钟珊的其他基金

知识驱动下样本高效的跨模态强化学习方法研究
  • 批准号:
    62376041
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码