大数据挖掘在科技项目查重中的应用研究

批准号:
71303223
项目类别:
青年科学基金项目
资助金额:
20.0 万元
负责人:
李善青
依托单位:
学科分类:
G0403.科技管理与政策
结题年份:
2017
批准年份:
2013
项目状态:
已结题
项目参与者:
赵辉、宋立荣、刘润达、张英杰、涂勇、齐娜、姜吉栋、宫蛟飞
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
科技项目查重是避免重复立项、重复建设的重要手段,然而目前仍然缺乏行之有效的方法。本项目拟采用大数据挖掘理论和方法对与项目相关的多来源信息进行整合,构建准确、稳定的项目相似度判别模型,实现准确、高效的项目查重方法。围绕科技项目的大数据网络是项目查重的数据基础,将分别构建项目信息数据库,文献题录数据库,负责人数据库,承担单位数据库,以及项目与关键词的关联数据库。基于上述理论和数据基础,结合Hadoop技术,实现用于电动汽车领域项目查重的原型实验系统,为后续正式平台的搭建和推广积累经验和奠定基础。本研究工作为解决项目查重问题提供了一种全新的思路和方法,研究结果将是对现有项目查重方法的有益扩展和补充。
英文摘要
Similar project detection is an important way to avoid repeated project and constuction for project management department. however, how to effectively find similar projects is still an unresolved problem. This project will use big data mining theory and technology to integrate multi-source information of a project, construct a new discriminative model of project similarity, and hereby achieve a similar project detection method effectively. Scientific project information database is the foundation of implementing the above detection method. Five databases will be constructed, which is project information database, literature information database, experts database, institution database, and project-literature associated information database. Base on above database and theory, we will implement a prototype system for the field of electric vehicles using Hadoop software architecture. This project will provide an novel method of detecting similar projects, and the results will extend and improve the existed theory and method.
科技项目查重是避免重复立项的重要手段,然而目前仍然缺乏行之有效的方法。科技项目信息公开程度低是解决科技项目查重问题所面临的最大挑战。本项目提出了一种利用大数据挖掘方法来解决该问题的方案。首先,以科技项目的立项信息为核心,整合项目所产出的科技论文、科技报告和科技成果等信息,构建了科技项目大数据。其次,基于TextRank算法提出了针对科技文献摘要和标题等短文本的关键词抽取算法,利用从大数据中抽取的海量词频统计信息提升了算法的性能。再次,通过整合与项目紧密相关的多来源信息,构建了科技项目的表示模型,并给出了项目相似度的判别方法。最后,利用Hadoop和Spark计算框架,结合上述算法实现了科技项目查重的原型系统,并针对电动汽车领域进行了相关的应用研究。实验结果表明,我们所提出的科技项目查重方法在变更摘要的条件下取得了较高的准确率和召回率。此外,分布式环境下通过增加计算节点的数量可有效提升项目查重的速度。结果证明了该方法的有效性和可行性。本研究工作为解决项目查重问题提供了一种全新的思路和方法,是对现有项目查重方法的有益扩展和补充,为后续正式平台的搭建和推广积累了经验和奠定了基础。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2016
期刊:科技管理研究
影响因子:--
作者:赵辉;杨瑞琦;林芳芳
通讯作者:林芳芳
DOI:--
发表时间:2014
期刊:图书馆论坛
影响因子:--
作者:李善青;赵辉;宋立荣
通讯作者:宋立荣
DOI:--
发表时间:2017
期刊:情报工程
影响因子:--
作者:李善青
通讯作者:李善青
DOI:10.3772/j.issn.1673-2286.2015.08.012
发表时间:2015
期刊:数字图书馆论坛
影响因子:--
作者:李善青;赵辉;李晓慧;邢晓昭
通讯作者:邢晓昭
DOI:--
发表时间:2014
期刊:中国科技资源导刊
影响因子:--
作者:赵辉;张英杰;彭洁
通讯作者:彭洁
国内基金
海外基金
