基于支持向量机的增量式强化学习技术及其应用研究
批准号:
61373094
项目类别:
面上项目
资助金额:
77.0 万元
负责人:
伏玉琛
依托单位:
学科分类:
F06.人工智能
结题年份:
2017
批准年份:
2013
项目状态:
已结题
项目参与者:
凌兴宏、朱斐、谷瑞、孙金霞、傅启明、朱文文、金玉净、房俊恒
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
本项目针对连续状态空间的"维数灾"问题,提出利用支持向量核方法对连续状态空间强化学习问题进行建模并逼近所建模型。主要思想是结合机器学习中最具发展前景的核方法来解决强化学习问题,结合了支持向量核方法的强化学习系统,学习过程与人类更加的相似,以自学习为主导、监督学习为辅助,相互配合从而更好的解决复杂问题。首先利用核方法对原输入空间复杂问题进行非线性建模,然后利用核函数机制将输入空间非线性问题转化到高维特征空间中的线性问题,并巧妙避开升维所带来的计算复杂性,这样就可以对原输入空间复杂问题进行精确的模型构建,同时在高维特征空间可以高效的求解线性模型,线性模型具有很优良的泛化特性,而泛化能力正是解决连续空间强化学习问题的核心需求。因此,基于支持向量核方法的连续空间强化学习模型构建与逼近研究极富理论价值和应用前景。
英文摘要
For the "Curse of Dimensionality" of the continuous state space, this research proposes a modeling mathod for reinforcement learning in continuous state space, which using support vector kernel methods and approach the model. The main idea of this reaearch is to solve reinforcement learning problems integrating with support vector kernel method. The learning process of the reinforcement learning system is more similar to human, in which self-learning as the leading, supervised learning for auxiliary, cooperate with each other and thus a better solution to the complex problem. Firstly, it uses kernel methods nonlinear modeling complex problems of the original input space. Then it transforms nonlinear problem into linear problem in high dimensional feature space, which takes advantage of the kernel function mechanism, and avoids the computational complexity caused by rising dimension. So we can build an accurate model of the original input space of complex problems, and can solve the linear model efficiently in high dimensional feature space. The linear model has excellent generalization performance, which is the core needs of solving the continuous space reinforcement learning problems. Therefore, the research of the continuous space reinforcement learning model construction and approximation has a highly theoretical value and application prospect.
项目组将机器学习中最具发展前景的支持向量核方法应用到强化学习问题中,采用核函数机制有效地将原输入空间的非线性问题转化到高维特征空间的线性问题,建立了一套完整的问题表示、转化和求解模型。在保证精确度的条件下,有效的提高了算法的泛化能力并降低了算法时间和空间复杂度。核方法是建立在统计学习理论基础上,有一个强有力的理论保障体系,利用核方法可以有效处理高维、非线性以及有限样本问题。.在连续状态MDP中,环境的连续性状态无法枚举,面临维数灾难问题。强化学习在线学习系统中,样本集构建的好坏直接决定了最终学习效果的好坏。基于核方法构建值函数的在线逼近模型,在线自适应的构建训练样本集,从而提高逼近模型的精度。.利用支持向量分类器来平衡强化学习中的探索和利用问题,探索和利用控制着学习过程的收敛速度和效果,有效平衡探索和利用是强化学习研究的核心问题,而支持向量机的典型应用就是二分类问题,提出利用支持向量分类器来平衡探索和利用将有效提高强化学习算法的性能。.当前强化学习的研究中,对于新模型、新算法的验证一般基于简单、理想的试验,如格子世界、Mountain Car、赌徒问题等;然而在实际应用中,由于种种原因导致新模型、新算法难以应用,使得新模型、新算法在理论实验上完美收敛,却在实际应用中无法实现。在本项目中,将研究的模型、算法应用于面向Deep Web搜索引擎的自适应爬虫搜索问题中,以验证所研究的成果在实际大规模问题中的作用。传统搜索引擎爬虫程序存在抓取信息结构不全、内容不够细化、对历史经验信息无记忆性等特点,本项目结合强化学习算法,构建一个智能的Deep Web检索原型,将检索过程构造成一个MDP模型,基于支持向量核方法的连续空间强化学习算法,利用已有的检索信息,优化检索策略。与传统方法相比,本项目所提出的爬虫模型具有较高的查询精度与查询速度。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2014
期刊:计算机研究与发展
影响因子:--
作者:朱斐;刘全;傅启明;伏玉琛
通讯作者:伏玉琛
DOI:10.1049/iet-syb.2014.0050
发表时间:2015-08
期刊:IET systems biology
影响因子:2.3
作者:Fei Zhu;Quan Liu;Xiaofang Zhang;Bairong Shen
通讯作者:Fei Zhu;Quan Liu;Xiaofang Zhang;Bairong Shen
DOI:--
发表时间:2014
期刊:计算机应用研究
影响因子:--
作者:朱文文;宋绪文;伏玉琛
通讯作者:伏玉琛
DOI:--
发表时间:2016
期刊:计算机研究与发展
影响因子:--
作者:陈冬火;刘全;金海东;朱斐;王辉
通讯作者:王辉
DOI:10.1007/s11704-015-5038-5
发表时间:2016-01
期刊:Frontiers of Computer Science
影响因子:4.2
作者:Zongzhang Zhang;Qi-ming Fu;Xiaofang Zhang;QUAN LIU
通讯作者:Zongzhang Zhang;Qi-ming Fu;Xiaofang Zhang;QUAN LIU
基于逻辑强化学习的Deep Web模式匹配研究
- 批准号:61070122
- 项目类别:面上项目
- 资助金额:32.0万元
- 批准年份:2010
- 负责人:伏玉琛
- 依托单位:
国内基金
海外基金















{{item.name}}会员


