基于已存知识重用的大数据分布式递进分类挖掘方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61702229
- 项目类别:青年科学基金项目
- 资助金额:22.0万
- 负责人:
- 依托单位:
- 学科分类:F06.人工智能
- 结题年份:2020
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2020-12-31
- 项目参与者:朱玉全; 耿霞; 刘湘雯; 彭晓冰; 闵信军; 王博宸; 缪琦;
- 关键词:
项目摘要
Human acquire the knowledge through learning and keep learning to get improvements with the help of the existing knowledge. Current data mining researches always emphasize discovering knowledge by analyzing data and lack the reuse of the learned knowledge and domain knowledge. This problem becomes very serious in the areas of big data mining. A lot of time and computing resources are spent on the process of repeated analysis for big data. Traditional incremental mining algorithms don’t preserve the old knowledge and would forget the old knowledge after getting the new knowledge. When the previous scenes or similar scenes reproduce, the old knowledge cannot play its due role. Considering the phases and time effectiveness and periodicity of the big data, this research project aims to present a novel method that can mine the big data in a step by step way in distributed environment by reusing the existing knowledge in order to improve the efficiency of classification mining and the accuracy of mining results from the perspective of knowledge reuse. The key research tasks include a novel method of distributed gradual classification mining for big data and a novel method of learned classification knowledge mergence and reuse and a novel method of learned classification knowledge validation, modification and ensembling by time effectiveness and a novel method of integrated utilizing domain knowledge. The aim of the research is to establish a mechanism that is not only can reuse the accumulated experiences from data set but also can reuse theoretical knowledge from domain knowledge and finally to form a virtuous cycle of distributed gradual classification learning for big data.
人类通过学习获取知识,在已有知识帮助之下继续学习而不断获得提高。现有的数据挖掘研究强调通过分析数据发现知识,缺乏对已学知识及领域知识的再利用。该问题在大数据挖掘领域变得尤为突出,大量时间及计算资源耗费在对大数据重复分析的过程中。传统增量挖掘没有保存老知识,在学到了新知识后会遗忘老知识。当先前或类似的场景再现时,老知识并没有很好地发挥应有作用。考虑到大数据的阶段性、时效性、周期性,本课题旨在研究分布式环境下重用已存知识对大数据分阶段递进分类挖掘的方法,从知识重用的角度提高分类挖掘的效率以及准确度。拟研究的主要内容包括:大数据分布式递进分类挖掘的方法,已学分类知识融合、选择重用的方法,已学分类知识验证、修正、纵向时序集成的方法,整合利用领域知识的方法。拟通过该研究建立起一种不仅能够重用来自数据的经验知识,而且能够重用来自领域的理论知识的机制,形成一种良性循环的大数据分布式递进分类学习过程。
结项摘要
针对非稳定环境中累积大数据的分类挖掘是机器学习及模式识别领域的热点问题之一。本课题研究对累积大数据分布式递进挖掘,并在挖掘过程中逐步存储并选择重用已存知识,形成一种有记忆的分类学习的方法,从知识重用的角度提高大数据分类挖掘的效率及准确率。研究内容:1)大数据分布式递进分类挖掘的方法;2)已学分类知识融合、选择重用的方法;3)已学分类知识验证、修正、纵向时序集成的方法;4)分布式递进分类挖掘过程中利用领域知识的方法。主要成果包括:1)提出了一种基于滑动窗口的快速LearnNSE算法。该算法仅考虑单个基分类器近期窗口内的分类准确率计算其投票权重,在与LearnNSE取得同等分类准确率的情况下,提高了分类学习的效率。2)提出了一种采用渐进学习模式的SBS-CLearning分类算法。该算法在前阶段基分类器的基础之上先增量学习,再完成最终的加权集成,相比LearnNSE提高了分类准确率。3)提出了一种并行反向PRLearnNSE分类算法。该算法改变了基分类器的集成机制,利用老的基分类器作为新基分类器的补充,形成了一种并行集成机制,在取得接近LearnNSE算法分类准确率的前提下,大幅提高了分类学习效率。4)提出了一种基于正向补充机制的多分类器时序集成算法。该算法调整了LearnNSE的集成机制,设计了一种新的利用最新基分类器的集成追踪数据产生环境的变化,再选择有助于当前分类的老基分类器进行正向补充集成的机制。该算法拥有对已学分类知识再利用的能力,不仅能取得非常接近,一些场景下甚至优于LearnNSE的分类准确率,还提高了集成学习效率。5)提出了一种分布式时序处理模型DSPM。DSPM不仅能取得非常接近,在很多场景下甚至优于LearnNSE的准确率,还能提高分类学习效率,兼顾短时产生及长时间累积的大数据,适用于对分类挖掘实时性要求较高的场合。本课题研发的分类算法不仅可以利用来自训练数据的已学知识,还可以利用来自领域的理论知识,为非稳定环境中累积大数据的分类挖掘研究提供了有价值的参考。
项目成果
期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(2)
专利数量(3)
Privacy and Utility Preserving Trajectory Data Publishing for Intelligent Transportation Systems
隐私和实用性保护智能交通系统轨迹数据发布
- DOI:10.1109/access.2020.3027299
- 发表时间:2020
- 期刊:IEEE Access
- 影响因子:3.9
- 作者:Xiangwen Liu;Yuquan Zhu
- 通讯作者:Yuquan Zhu
面向完全冷启动的深度混合协同过滤推荐算法
- DOI:--
- 发表时间:2020
- 期刊:计算机与数字工程
- 影响因子:--
- 作者:胡杨;陈健美
- 通讯作者:陈健美
大数据下基于多源信息融合的企业竞争对手评价模型研究
- DOI:--
- 发表时间:2019
- 期刊:情报理论与实践
- 影响因子:--
- 作者:宋新平;陈梦梦;申彦;刘昊来
- 通讯作者:刘昊来
基于自适应Canny算子和多方向Sobel算子的虹膜边缘检测算法
- DOI:--
- 发表时间:2020
- 期刊:计算机与数字工程
- 影响因子:--
- 作者:王玉玺;陈健美
- 通讯作者:陈健美
基于PSO-FWSVM的糖尿病预测模型
- DOI:--
- 发表时间:2020
- 期刊:计算机与数字工程
- 影响因子:--
- 作者:缪琦;朱玉全
- 通讯作者:朱玉全
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
企业竞争情报应用现状调查与分析
- DOI:10.16353/j.cnki.1000-7490.2016.02.007
- 发表时间:2016
- 期刊:情报理论与实践
- 影响因子:--
- 作者:宋新平;杨阳;申彦
- 通讯作者:申彦
关联案例平台的实现及在MIS教学中的应用研究
- DOI:--
- 发表时间:2015
- 期刊:中国远程教育
- 影响因子:--
- 作者:申彦;樊茗玥;刘春华
- 通讯作者:刘春华
基于磁盘表存储FP-TREE的关联规则挖掘算法
- DOI:--
- 发表时间:--
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:申彦;宋顺林;朱玉全
- 通讯作者:朱玉全
一种基于协同过滤的APPS跨类别推荐算法
- DOI:10.13833/j.issn.1007-7634.2017.12.015
- 发表时间:2017
- 期刊:情报科学
- 影响因子:--
- 作者:申彦;宋新平;聂鹏
- 通讯作者:聂鹏
CMP上基于数据集划分的K-means多核优化算法
- DOI:--
- 发表时间:2015
- 期刊:智能系统学报
- 影响因子:--
- 作者:申彦;朱玉全
- 通讯作者:朱玉全
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}