大数据环境下的文本挖掘并行处理技术研究
结题报告
批准号:
61802444
项目类别:
青年科学基金项目
资助金额:
25.0 万元
负责人:
艾玮
依托单位:
学科分类:
F0204.计算机系统结构与硬件技术
结题年份:
2021
批准年份:
2018
项目状态:
已结题
项目参与者:
黄华军、杜家宜、杨帆、何岸、潘良敏、周千元、谢小龙、曾帆、陈建华
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
近年来,大数据环境下的文本数据具有数据量大、分布广泛、动态增长、实时性要求高、噪声多等特点,成为近期文本挖掘并行处理技术的热点研究对象。然而,大数据环境下的文本挖掘并行处理技术具有性能不高、实时性得不到满足、挖掘准确性低等问题。因此,如何在大数据环境下设计高效的并行处理方案来提高文本挖掘效率与准确性是一个非常重要的问题。本课题着眼于“提高效率与准确性”这一关键问题,分析现有大数据环境下文本挖掘并行处理技术存在的问题,首先构建异构CPU-GPU集群大数据处理平台,利用其CPU-GPU协作计算能力,结合考虑负载均衡和数据通信问题,确立更具一般性的算法并行与硬件协同的策略;其次根据应用实时性等需求,展开基于特征工程同步并行生成的算法研究,以达到进一步提高文本挖掘性能的目的。最后,在保证准确性的前提下,设计基于深度学习噪声过滤的并行算法。课题的研究为未来文本挖掘并行处理技术提供重要的借鉴。
英文摘要
In recent years, text data in a big data environment has the characteristics of large amount of data, wide distribution, dynamic growth, high real-time requirements, and high noise, and has become a hot research object of recent text mining parallel processing techniques. However, text mining parallel processing techniques in a big data environment has the problems of low performance in parallel performance, lack of real-time performance, and low accuracy. Therefore, how to design an efficient parallel processing scheme in a big data environment to improve text mining efficiency and accuracy is a very important issue. This proposal focuses on the key problem of "improving efficiency and accuracy", and analyzes the existing problems of parallel processing techniques of text mining in existing big data environments. In this proposal, firstly, we construct a big data processing platform based on a heterogeneous CPU-GPU cluster and use its CPU and GPU cooperative computing capability, consider load balancing and data communication issues, establish a more general strategy of algorithmic parallelism and hardware collaboration. Secondly, according to requirements such as real-time applications, the research on parallel generation algorithm based on feature engineering synchronization is performed to further achieve the purpose of improving text mining performance. Finally, on the premise of ensuring the accuracy of mining, a parallel algorithm based on deep learning noise filtering is designed. The research of the subject will provide an important reference for the future text mining parallel processing technology.
“大数据环境下的文本挖掘并行处理技术研究 ”项目组针对大数据环境下的文本 挖掘并行处理技术具有性能不高、实时性得不到满足、挖掘准确性低等问题。以如何在大数据环境下设计高效的并行处理方案来提高文本挖掘效率与准确性为研究目标,分析现有大数据环境下文本挖掘中情感识别、实体命名识别和文本去重技术等关键处理技术中存在的问题,着眼于“提高效率与准确性”,首先为情感识别任务设计出一种多元消息传递模型,并基于不同属性的异质性来构建图神经网络来模拟说话者级别之间的交互关系,来降低模型的复杂度,使模型具有更好地鲁棒性;其次提出了采用多模态数据集提取对话文本的不同特征,并引入自注意力机制的多模态情感识别,从而提高了识别准确率和性能。同时,提出了一种基于图节点选择和节点优化策略的两阶段主体事件去重方法,实现更有效和高效去重。最后基于企业成分优化选择和单字符优化选择的双通道企业简称自动生成,提高了企业实体识别的准确率和性能。通过三年的研究工作,项目组完成了各项研究内容,形成了多样的高效的并行处理方案来提高文本挖掘效率与准确性,为未来文本挖掘中如何“提高效率与准确性”提供了重要的借鉴。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:10.1109/access.2019.2892094
发表时间:2019
期刊:IEEE Access
影响因子:3.9
作者:Xiao Z;Wang L;Du J Y
通讯作者:Du J Y
Novel fairness-aware co-scheduling for shared cache contention game on chip multiprocessors
片上多处理器共享缓存争用游戏的新型公平感知联合调度
DOI:10.1016/j.ins.2020.03.078
发表时间:2020
期刊:INFORMATION SCIENCES
影响因子:8.1
作者:Xiao Zheng;Chen Liwen;Wang Bangyong;Du Jiayi;Li Keqin
通讯作者:Li Keqin
An Energy-Efficient Multi-Ring-Based Routing Scheme for WSNs
一种节能的基于多环的无线传感器网络路由方案
DOI:10.1109/access.2019.2947496
发表时间:2019-01-01
期刊:IEEE ACCESS
影响因子:3.9
作者:He, An;Long, Jun;Zhang, Jinhuan
通讯作者:Zhang, Jinhuan
Request Balancing Among Users in Multiple Autonomous Cloud Provider Environments
多个自治云提供商环境中的用户之间的请求平衡
DOI:10.1109/tii.2019.2928314
发表时间:2020-02
期刊:IEEE Transactions on Industrial Informatics
影响因子:12.3
作者:Xiao Zheng;He Dan;Guo Yang;Du Jiayi
通讯作者:Du Jiayi
Workload-driven coordination between virtual machine allocation and task scheduling
虚拟机分配和任务调度之间的工作负载驱动协调
DOI:10.1007/s00521-019-04022-1
发表时间:2019-01
期刊:Neural Computing and Applications
影响因子:6
作者:Zheng Xiao;Bangyong Wang;Xing Li;Jiayi Du
通讯作者:Jiayi Du
图神经网络在数据挖掘中的应用研究
  • 批准号:
    2025JJ50380
  • 项目类别:
    省市级项目
  • 资助金额:
    0.0万元
  • 批准年份:
    2025
  • 负责人:
    艾玮
  • 依托单位:
国内基金
海外基金