基于近似多步模型的连续空间强化学习方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61702055
- 项目类别:青年科学基金项目
- 资助金额:25.0万
- 负责人:
- 依托单位:
- 学科分类:F06.人工智能
- 结题年份:2020
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2020-12-31
- 项目参与者:龚声蓉; 王朝晖; 董瑞志; 姚宇峰; 董虎胜; 李永刚; 燕然; 戴兴华;
- 关键词:
项目摘要
Approximate reinforcement learning methods have the advantages such as strong generalization and saving computation resources so that they are especially suitable for the problems with the continuous spaces. However, their low sample efficiency and convergence rate hinder the further application in practice. The approximate reinforcement learning methods can accelerate the convergence for the algorithm by using model learning and planning, consequently the sample efficiency and convergence rate can be improved heavily. Therefore, they have been spots in the field of reinforcement learning. .The problems existed in the methods based on model learning such as low planning efficiency, slow policy convergence and poor in-time performance are the main focuses of this project. In order to solve these problems, we propose a reinforcement learning method for continuous spaces based on multi-step model and new policy update rule, where the primary innovation points include: 1) To improve the planning efficiency, an approximate multi-step model is constructed and is then used for planning, in the meanwhile, the value function error formula generated from the planning of the approximate model planning is derived, and it is further analyzed so as to set the parameters and improve the stability; 2) The improved policy update rule is designed based on the advantageous function so that the policy can be converged rapidly; 3) The approximate reinforcement learning algorithm based on approximate multi-step model and the improved policy update rule is proposed where the convergence is also analyzed theoretically; 4) Combined with the proposed algorithm, the approximate reinforcement learning framework with parallel operation is constructed and then it is applied in the practical building energy saving problem.
近似强化学习方法具有泛化能力强和节省计算资源的优点,尤其适合连续空间的最优策略求解,但却存在样本低效和收敛速度慢的问题,因而制约了其在实时问题中的应用。基于模型学习的近似强化学习能通过模型学习与规划促进算法收敛,从而提高样本效率和收敛速度,是强化学习领域的研究热点之一。.本项目主要针对现有的基于模型学习的方法存在的规划效率低、策略收敛慢和实时性欠佳等问题,提出了一种基于近似多步模型和新策略更新规则的连续空间强化学习方法,主要创新点为:1)建立近似的多步模型并利用其规划来提高规划效率,同时推导由近似模型规划产生的值函数误差,通过分析误差公式来指导算法参数设置,从而提高算法稳定性;2)设计基于优势函数的新策略更新规则,实现策略快速收敛;3)构建基于近似多步模型和新策略更新规则的近似强化学习算法,并对算法收敛性进行理论分析;4)结合所提算法,构建近似强化学习并行框架,并应用于实际的建筑节能问题。
结项摘要
基于近似模型的强化学习方法能充分利用样本数据从而提高最优策略的求解速度,尤其适合连续空间的最优策略求解,但却存在模型精确度难以保障和模型规划难以获取最优解的问题。为了解决该问题,本项目提出了一系列基于单步和多步模型近似并利用模型规划来加快算法收敛的连续空间强化学习方法,主要创新点为:1)基于单个样本和样本的轨迹,来建立近似的多步模型,并利用单步模型和多步模型的共同规划来提高规划的效率,构建基于近似多步模型和策略更新规则的近似强化学习算法,并对算法收敛性进行理论分析;2)建立基于模型加速和经验回放的策略学习机制,并设计基于优势函数的策略更新规则,实现策略快速收敛;3)通过对状态空间和动作空间的分段,建立一种双层的分段模型,实现对连续状态和动作空间的更精确地刻画,构造更为精确的模型;4)为更好地捕获模型中出现的不确定性,建立了一种基于高斯函数的模型,并给出了模型中参数的求解方式,实现了模型的不确定性的刻画;5)为了进一步提高样本的利用率,在Dyna框架中,采用最小二乘算法来取代时间差分算法,实现值函数、策略以及模型的参数求解,并加入资格迹,以加快整个算法的求解速度;6)设计端到端的无人驾驶深度网络模型,结合历史决策数据和当前感知图片来建立从感知数据到决策行为的映射。7)结合所提算法,构建近似强化学习并行框架,将其应用于清洁机器人、无人驾驶、倒立摆和平衡杆等问题中,并应用于实际的建筑节能问题。
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(1)
会议论文数量(2)
专利数量(4)
Modeling-Learning-Based Actor-Critic Algorithm with Gaussian Process Approximator
基于建模学习的带有高斯过程逼近器的 Actor-Critic 算法
- DOI:10.1007/s10723-020-09512-4
- 发表时间:2020-04
- 期刊:Journal of Grid Computing
- 影响因子:5.5
- 作者:Zhong Shan;Tan Jack;Dong Husheng;Chen Xuemei;Gong Shengrong;Qian Zhenjiang
- 通讯作者:Qian Zhenjiang
Crowd counting via scale-adaptive convolutional neural network in extremely dense crowd images
通过尺度自适应卷积神经网络在极其密集的人群图像中进行人群计数
- DOI:--
- 发表时间:2019
- 期刊:Int. J. Computer Applications in Technology
- 影响因子:--
- 作者:Ran YAN;Shengrong Gong;Shan Zhong
- 通讯作者:Shan Zhong
SAR Image Colorization Using Multidomain Cycle-Consistency Generative Adversarial Network
使用多域循环一致性生成对抗网络的 SAR 图像着色
- DOI:10.1109/lgrs.2020.2969891
- 发表时间:2021-02-01
- 期刊:IEEE GEOSCIENCE AND REMOTE SENSING LETTERS
- 影响因子:4.8
- 作者:Ji, Guang;Wang, Zhaohui;Gong, Shengrong
- 通讯作者:Gong, Shengrong
一种采用模型学习和经验回放加速的 正则化自然行动器评判器算法
- DOI:--
- 发表时间:2019
- 期刊:计算机学报
- 影响因子:--
- 作者:钟珊;刘全;傅启明;龚声蓉;董虎胜
- 通讯作者:董虎胜
SARSA Based Access Control with Approximation by TileCoding
基于 SARSA 的访问控制与 TileCoding 近似
- DOI:10.2298/csis180830022z
- 发表时间:2019
- 期刊:Computer Science and Information Systems
- 影响因子:1.4
- 作者:Zhu Fei;Peng Pai;Liu Quan;Fu Yuchen;Zhong Shan
- 通讯作者:Zhong Shan
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
贵溪市城市周边永久基本农田划定研究
- DOI:--
- 发表时间:2017
- 期刊:江西农业大学学报
- 影响因子:--
- 作者:钟珊;赵小敏;郭熙;黄聪;李伟峰
- 通讯作者:李伟峰
增量式自然策略梯度的行动者评论家算法
- DOI:--
- 发表时间:2017
- 期刊:通信学报
- 影响因子:--
- 作者:章鹏;刘全;钟珊;翟建伟;钱伟晟
- 通讯作者:钱伟晟
增量式双自然策略梯度的行动者评论家算法
- DOI:--
- 发表时间:2017
- 期刊:通信学报
- 影响因子:--
- 作者:章鹏;刘全;钟珊;翟建伟;钱炜晟
- 通讯作者:钱炜晟
一种基于视觉注意力机制的深度循环Q网络模型
- DOI:--
- 发表时间:2017
- 期刊:计算机学报
- 影响因子:--
- 作者:刘全;翟建伟;钟珊;章宗长;周倩;章鹏
- 通讯作者:章鹏
一种采用模型学习和经验回放加速的自然行动器评判器算法
- DOI:--
- 发表时间:--
- 期刊:计算机学报
- 影响因子:--
- 作者:钟珊;刘全;傅启明;龚声蓉;董虎胜
- 通讯作者:董虎胜
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
钟珊的其他基金
知识驱动下样本高效的跨模态强化学习方法研究
- 批准号:62376041
- 批准年份:2023
- 资助金额:49.00 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}