基于已存知识重用的大数据分布式递进分类挖掘方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61702229
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    22.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F06.人工智能
  • 结题年份:
    2020
  • 批准年份:
    2017
  • 项目状态:
    已结题
  • 起止时间:
    2018-01-01 至2020-12-31

项目摘要

Human acquire the knowledge through learning and keep learning to get improvements with the help of the existing knowledge. Current data mining researches always emphasize discovering knowledge by analyzing data and lack the reuse of the learned knowledge and domain knowledge. This problem becomes very serious in the areas of big data mining. A lot of time and computing resources are spent on the process of repeated analysis for big data. Traditional incremental mining algorithms don’t preserve the old knowledge and would forget the old knowledge after getting the new knowledge. When the previous scenes or similar scenes reproduce, the old knowledge cannot play its due role. Considering the phases and time effectiveness and periodicity of the big data, this research project aims to present a novel method that can mine the big data in a step by step way in distributed environment by reusing the existing knowledge in order to improve the efficiency of classification mining and the accuracy of mining results from the perspective of knowledge reuse. The key research tasks include a novel method of distributed gradual classification mining for big data and a novel method of learned classification knowledge mergence and reuse and a novel method of learned classification knowledge validation, modification and ensembling by time effectiveness and a novel method of integrated utilizing domain knowledge. The aim of the research is to establish a mechanism that is not only can reuse the accumulated experiences from data set but also can reuse theoretical knowledge from domain knowledge and finally to form a virtuous cycle of distributed gradual classification learning for big data.
人类通过学习获取知识,在已有知识帮助之下继续学习而不断获得提高。现有的数据挖掘研究强调通过分析数据发现知识,缺乏对已学知识及领域知识的再利用。该问题在大数据挖掘领域变得尤为突出,大量时间及计算资源耗费在对大数据重复分析的过程中。传统增量挖掘没有保存老知识,在学到了新知识后会遗忘老知识。当先前或类似的场景再现时,老知识并没有很好地发挥应有作用。考虑到大数据的阶段性、时效性、周期性,本课题旨在研究分布式环境下重用已存知识对大数据分阶段递进分类挖掘的方法,从知识重用的角度提高分类挖掘的效率以及准确度。拟研究的主要内容包括:大数据分布式递进分类挖掘的方法,已学分类知识融合、选择重用的方法,已学分类知识验证、修正、纵向时序集成的方法,整合利用领域知识的方法。拟通过该研究建立起一种不仅能够重用来自数据的经验知识,而且能够重用来自领域的理论知识的机制,形成一种良性循环的大数据分布式递进分类学习过程。

结项摘要

针对非稳定环境中累积大数据的分类挖掘是机器学习及模式识别领域的热点问题之一。本课题研究对累积大数据分布式递进挖掘,并在挖掘过程中逐步存储并选择重用已存知识,形成一种有记忆的分类学习的方法,从知识重用的角度提高大数据分类挖掘的效率及准确率。研究内容:1)大数据分布式递进分类挖掘的方法;2)已学分类知识融合、选择重用的方法;3)已学分类知识验证、修正、纵向时序集成的方法;4)分布式递进分类挖掘过程中利用领域知识的方法。主要成果包括:1)提出了一种基于滑动窗口的快速LearnNSE算法。该算法仅考虑单个基分类器近期窗口内的分类准确率计算其投票权重,在与LearnNSE取得同等分类准确率的情况下,提高了分类学习的效率。2)提出了一种采用渐进学习模式的SBS-CLearning分类算法。该算法在前阶段基分类器的基础之上先增量学习,再完成最终的加权集成,相比LearnNSE提高了分类准确率。3)提出了一种并行反向PRLearnNSE分类算法。该算法改变了基分类器的集成机制,利用老的基分类器作为新基分类器的补充,形成了一种并行集成机制,在取得接近LearnNSE算法分类准确率的前提下,大幅提高了分类学习效率。4)提出了一种基于正向补充机制的多分类器时序集成算法。该算法调整了LearnNSE的集成机制,设计了一种新的利用最新基分类器的集成追踪数据产生环境的变化,再选择有助于当前分类的老基分类器进行正向补充集成的机制。该算法拥有对已学分类知识再利用的能力,不仅能取得非常接近,一些场景下甚至优于LearnNSE的分类准确率,还提高了集成学习效率。5)提出了一种分布式时序处理模型DSPM。DSPM不仅能取得非常接近,在很多场景下甚至优于LearnNSE的准确率,还能提高分类学习效率,兼顾短时产生及长时间累积的大数据,适用于对分类挖掘实时性要求较高的场合。本课题研发的分类算法不仅可以利用来自训练数据的已学知识,还可以利用来自领域的理论知识,为非稳定环境中累积大数据的分类挖掘研究提供了有价值的参考。

项目成果

期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(2)
专利数量(3)
Privacy and Utility Preserving Trajectory Data Publishing for Intelligent Transportation Systems
隐私和实用性保护智能交通系统轨迹数据发布
  • DOI:
    10.1109/access.2020.3027299
  • 发表时间:
    2020
  • 期刊:
    IEEE Access
  • 影响因子:
    3.9
  • 作者:
    Xiangwen Liu;Yuquan Zhu
  • 通讯作者:
    Yuquan Zhu
面向完全冷启动的深度混合协同过滤推荐算法
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    计算机与数字工程
  • 影响因子:
    --
  • 作者:
    胡杨;陈健美
  • 通讯作者:
    陈健美
大数据下基于多源信息融合的企业竞争对手评价模型研究
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    情报理论与实践
  • 影响因子:
    --
  • 作者:
    宋新平;陈梦梦;申彦;刘昊来
  • 通讯作者:
    刘昊来
基于自适应Canny算子和多方向Sobel算子的虹膜边缘检测算法
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    计算机与数字工程
  • 影响因子:
    --
  • 作者:
    王玉玺;陈健美
  • 通讯作者:
    陈健美
基于PSO-FWSVM的糖尿病预测模型
  • DOI:
    --
  • 发表时间:
    2020
  • 期刊:
    计算机与数字工程
  • 影响因子:
    --
  • 作者:
    缪琦;朱玉全
  • 通讯作者:
    朱玉全

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

企业竞争情报应用现状调查与分析
  • DOI:
    10.16353/j.cnki.1000-7490.2016.02.007
  • 发表时间:
    2016
  • 期刊:
    情报理论与实践
  • 影响因子:
    --
  • 作者:
    宋新平;杨阳;申彦
  • 通讯作者:
    申彦
关联案例平台的实现及在MIS教学中的应用研究
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    中国远程教育
  • 影响因子:
    --
  • 作者:
    申彦;樊茗玥;刘春华
  • 通讯作者:
    刘春华
基于磁盘表存储FP-TREE的关联规则挖掘算法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    申彦;宋顺林;朱玉全
  • 通讯作者:
    朱玉全
一种基于协同过滤的APPS跨类别推荐算法
  • DOI:
    10.13833/j.issn.1007-7634.2017.12.015
  • 发表时间:
    2017
  • 期刊:
    情报科学
  • 影响因子:
    --
  • 作者:
    申彦;宋新平;聂鹏
  • 通讯作者:
    聂鹏
CMP上基于数据集划分的K-means多核优化算法
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    智能系统学报
  • 影响因子:
    --
  • 作者:
    申彦;朱玉全
  • 通讯作者:
    朱玉全

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码