面向海量数据流处理的隐式世系跟踪容错方法研究
批准号:
61772231
项目类别:
面上项目
资助金额:
61.0 万元
负责人:
马坤
依托单位:
学科分类:
F0211.信息检索与社会计算
结题年份:
2021
批准年份:
2017
项目状态:
已结题
项目参与者:
孙润元、于自强、纪科、刘伟峰、唐子杰、张宇微、张智超、郭瑶
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
为了解决传统以MapReduce为代表的批量计算在实时处理方面的瓶颈,流处理方法成为大数据处理的研究热点。然而海量数据流处理过程中的大量状态同步与性能干扰严重影响数据处理,离群数据增大故障误判概率。本项目从流计算开销模型、负载均衡、离群数据发现、故障恢复策略研究面向海量数据流处理容错,1)研究开销敏感弹性负载均衡,建立基于面积的非线性开销敏感模型与基于标准熵的均衡模型,减少高时延抖动,为流处理网络拓扑增加反馈,解决现有流处理网络无法运行迭代递归优化算法的问题;2)研究基于低水位滑动时间窗口的离群数据发现,在低水位滑动时间窗口内有效区分数据延迟到达与数据处理故障,减少故障恢复误判次数;3)研究基于批量状态依赖的并行上游备份故障恢复策略,减少故障恢复时层叠的重复计算、故障恢复状态重构时间和数据重放数量。该项目研究及其成果提高流处理的可用与可靠性,对推动流处理应用具有重要意义。
英文摘要
To address the bottleneck issues of MapReduce-based batch computing, stream-based processing becomes the research hotspot. However, large-scale state synchronization and performance interference will affect data processing seriously, and too many stragglers will increase the error probability. This study researches the fault tolerance of stream processing from the aspects of cost model, load balancing, straggler discovery, and fault recovery. This project will first research the cost-aware load balancing method, establish the area-based non-linear cost models to reduce the shake of high latency, and add the feedback loop to support iterative optimization algorithm in the stream-based topology. Second, this project will research the sliding time window method of low watermark to address straggler discovery and distinguish delay received from processing fault. Finally, this project will research the upstream mutual backup fault recovery based on batch state dependency to reduce the duplicated overlapping computation, the time to reconstruct the state, and the amount of data replay. This research and its achievements can improve the availability and reliability, and has important implications for stream processing applications.
为了解决传统以MapReduce为代表的批量计算在实时处理方面的瓶颈,流处理方法成为大数据处理的研究热点。然而海量数据流处理过程中的大量状态同步与性能干扰严重影响数据处理,离群数据增大故障误判概率。本项目从流计算开销模型、负载均衡、离群数据发现、故障恢复策略研究面向海量数据流处理容错,1)研究了开销敏感弹性负载均衡,建立基于面积的非线性开销敏感模型与基于标准熵的均衡模型,减少高时延抖动,为流处理网络拓扑增加反馈,解决现有流处理网络无法运行迭代递归优化算法的问题;2)研究了基于低水位滑动时间窗口的离群数据发现,在低水位滑动时间窗口内有效区分数据延迟到达与数据处理故障,减少故障恢复误判次数;3)研究了基于批量状态依赖的并行上游备份故障恢复策略,减少故障恢复时层叠的重复计算、故障恢复状态重构时间和数据重放数量。该项目研究及其成果提高流处理的可用与可靠性,对推动流处理应用具有重要意义。项目发表论文31篇,授权发明专利6项,取得山东省科技进步奖二等奖和三等奖各1项。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:10.13349/j.cnki.jdxbn.2019.06.001
发表时间:2019
期刊:济南大学学报(自然科学版)
影响因子:--
作者:段吉东;刘双荣;马坤;孙润元
通讯作者:孙润元
Toward an aspect-oriented cache autoloading framework with annotation
面向方面的带有注释的缓存自动加载框架
DOI:10.1504/ijwgs.2019.10022425
发表时间:2019-07
期刊:International Journal of Web and Grid Services
影响因子:1
作者:Ma Kun;Niu Xuewei;Yu Ziqiang;Ji Ke
通讯作者:Ji Ke
Stream-based live public opinion monitoring approach with adaptive probabilistic topic model
基于流的自适应概率主题模型实时舆情监测方法
DOI:10.1007/s00500-018-3391-7
发表时间:2019
期刊:Soft Computing
影响因子:4.1
作者:Ma Kun;Yu Ziqiang;Ji Ke;Yang Bo
通讯作者:Yang Bo
Automatic Literature Metadata Extraction from DataCite Services
从 DataCite 服务自动提取文献元数据
DOI:10.2174/2213275911666180627093515
发表时间:2018-01
期刊:Recent Patents on Computer Science
影响因子:--
作者:Kun Ma
通讯作者:Kun Ma
RMGCS: Real-time multimodal garbage classification system for recyclability
RMGCS:实时多模式垃圾分类系统,实现可回收性
DOI:10.3233/jifs-212225
发表时间:2022-01-01
期刊:JOURNAL OF INTELLIGENT & FUZZY SYSTEMS
影响因子:2
作者:Su, Nan;Lin, Zhishuo;Ma, Kun
通讯作者:Ma, Kun
国内基金
海外基金















{{item.name}}会员


