大数据环境中面向实体的精准集成关键技术研究
结题报告
批准号:
61672142
项目类别:
面上项目
资助金额:
63.0 万元
负责人:
聂铁铮
依托单位:
学科分类:
F0202.系统软件、数据库与工业软件
结题年份:
2020
批准年份:
2016
项目状态:
已结题
项目参与者:
李旺谦、张昱、杜岳峰、胡宇、杨萌、罗叶兵、赵博、翟益、张博
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
在大数据研究中,大数据集成的对象已经不仅仅是简单的数据,而是以实体为核心的数据和知识的复合体。通过对混杂数据中实体对象进行有效整合能够获得精准的实体信息与知识,这也为保证实体集成结果的精准性和高效性带来了新的挑战。要实现大数据中实体信息由混杂到精准的转变需要一系列的理论和技术。本项目研究大数据环境中面向实体的精准集成关键技术。项目的研究内容围绕实体模式缺失、语义异构和数据演化三个影响精准性的主要因素提出,包括面向实体精准集成的数据源管理,基于语义认知的实体精准集成技术,基于演化认知的实体精准集成技术,并结合高效处理策略保证实体集成的高效性。项目的研究方案基于模式匹配、实体链接和实体融合三个大数据集成的主要环节进行设计,结合医疗健康数据集成应用,提出相关理论模型、研究关键技术和进行实验验证,并构建数据精准集成平台。本项目的成果将解决大数据集成的多种科学问题,推动大数据管理技术的发展。
英文摘要
In research of Big Data, the object of Big data integration is not only simple data records but the complexes of data and knowledge in which entity is as the core. By integrating entities in miscellaneous data effectively, accurate information and knowledge about entities can be achieved. However, it also increases new challenges for ensuring the precision and efficiency of entity integration. To transform miscellaneous into precise, it requires a set of theories and techniques for big data. This project researches on the key techniques of precision integration for entities in big data environment. In the project, the research contents are proposed based on three major factors for precision which are losing schema of entities, semantic heterogeneous, and data evolving. Therefore, the research contents include data sources management for entity integration, techniques of precision entity integration based on semantic cognition, techniques of precision entity integration based on data evolving cognition, and strategy of efficient processing for entity integration. The research technology of this project will be proposed based on the three important steps of big data integration, which includes schema alignment, entity linkage and entity fusion. With analyzing requirements of medical information integration, the project will propose theories and key techniques for precision of data integration, and verify the performance of them based on experiments. Moreover, this project will develop a platform of precision integration for applications. The achievement of this project will provide the solution for addressing the science problems on big data integration, and will also improve the development of big data management in data integration.
大数据集成能够将各种混合数据进行有效整合。数据集成的精准性是保障集成结果的可用性和可靠性的关键。然而,数据源中数据实体的低质性、语义异构性和时效性等因素,为保证集成结果的精准性带来了新的挑战。本项目研究面向数据实体的精准集成关键技术。项目的研究内容包括面向实体集成的精准模式管理,基于语义认知的实体精准集成技术,基于数据演化认知的实体精准集成技术和实体集成的高效处理策略研究。在4年期间,本项目重点在数据源管理、精准实体集成和高效集成处理三个方面开展应用研究。在数据源管理方向中,主要研究的结构化数据抽取与标注、数据一致性修复、数据模式检测与融合、海量数据源选择技术,以保证集成数据源的质量。在精准实体集成方向中,主要研究了跨网络实体对齐、演化数据的实体模型与识别、实体行为与链路预测、多方安全实体匹配等关键技术。在高效集成处理方向上,研究了渐进式实体识别和并行实体识别技术。本项目成果在国内外各类学术期刊和会议上发表了论文51篇,其中包括重要国际会议ICDE、WISE、BigComp等和国际学术期刊IJDMB、JIFZ、JCST、JBI、FCS等,国内计算机领域顶级期刊“计算机学报”、“软件学报”、“计算机研究与发展”,其中SCI收录6篇次,EI收录17篇次。邀请国外专家来华交流4人次,参加国内外学术会议22人次。撰写著作2部,申请发明专利14项(其中4项已授权),取得软件著作权2项。协助培养博士研究生6人(3人已毕业,3人在读),培养硕士研究生12人(10人已毕业,2人在读)。项目研究成果已应用于教育大数据领域,支撑辽宁省招生考试数据档案管理平台的建设工作,用于对历年招生考试数据进行集成整合。基于本项目成果建设的辽宁省招考办成绩证明系统支持在线成绩证明开具与验证服务。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2019
期刊:软件学报
影响因子:--
作者:冯朔;申德荣;聂铁铮;寇月;于戈
通讯作者:于戈
DOI:10.13328/j.cnki.jos.005776
发表时间:2019
期刊:软件学报
影响因子:--
作者:焦通;申德荣;聂铁铮;寇月;李晓华;于戈
通讯作者:于戈
DOI:10.3778/j.issn.1673-9418.1709038
发表时间:2018
期刊:计算机科学与探索
影响因子:--
作者:任思禹;申德荣;寇月;聂铁铮;于戈
通讯作者:于戈
DOI:--
发表时间:2018
期刊:软件学报
影响因子:--
作者:汪潜;申德荣;冯朔;寇月;聂铁铮;于戈
通讯作者:于戈
A hybrid sampling algorithm combining M-SMOTE and ENN based on Random forest for medical imbalanced data
基于随机森林的M-SMOTE与ENN相结合的医疗不平衡数据混合采样算法
DOI:10.1016/j.jbi.2020.103465
发表时间:2020-07-01
期刊:JOURNAL OF BIOMEDICAL INFORMATICS
影响因子:4.5
作者:Xu, Zhaozhao;Shen, Derong;Kou, Yue
通讯作者:Kou, Yue
面向大数据融合的区块链数据管理关键技术研究
  • 批准号:
    --
  • 项目类别:
    面上项目
  • 资助金额:
    56万元
  • 批准年份:
    2020
  • 负责人:
    聂铁铮
  • 依托单位:
基于Pay-as-you-go策略的数据集成关键技术研究
  • 批准号:
    61003060
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    18.0万元
  • 批准年份:
    2010
  • 负责人:
    聂铁铮
  • 依托单位:
国内基金
海外基金