云环境下面向大数据并行计算的工作流执行优化研究
项目介绍
AI项目解读
基本信息
- 批准号:61370207
- 项目类别:面上项目
- 资助金额:76.0万
- 负责人:
- 依托单位:
- 学科分类:F0207.计算机网络
- 结题年份:2017
- 批准年份:2013
- 项目状态:已结题
- 起止时间:2014-01-01 至2017-12-31
- 项目参与者:赵茂先; 东方; 董玉林; 王宇翔; 金嘉晖; 熊润群; 王巍; 李龙生; 马旭;
- 关键词:
项目摘要
Nowadays, the common cloud platform focus on the big data analysis always consists of three components, that is the distributed file system, the execution engine for data parallel processing and the programmatic interface. Note that, the programmatic interface is responsible for mapping the input complex jobs into the workflow, which is processed by the execution engine. However, the state-of-art cloud platforms do not support the workflow scheduling mechanism so that the job priorities cannot be guaranteed. And the time-constrain does not considered in the task assignment, affecting the job performance due to the superabundant data locality; Moreover, the existing cloud platforms do not manage the intermediate results among jobs efficiently, increasing the I/O cost that is generated by accessing the intermediate results. To overcome the above problems, this project aimed at the optimization for workflow processing in the cloud and extends the existing cloud platform to support the workflow scheduling mechanism and guarantee the job priorities, and then we add the intermediate result management component to realize the memory-based intermediate result management, reducing the I/O cost between jobs. Afterwards, we study the appropriate parallel task assignment algorithm coupling with the workflow scheduling and the intermediate result management to improve the workflow performance. Finally, we implement our workflow scheduling system for the existing cloud platform to demonstrate the efficiency and effectiveness.
目前,针对大数据并行处理的云计算系统分为三层,分布式文件系统、数据并行作业执行引擎和编程接口,编程接口负责将复杂应用解析成工作流交由数据并行作业执行引擎处理。然而,当前的云计算系统不支持工作流的调度机制,不能保证用户作业执行的优先级;子任务指派过程也没有考虑工作流作业执行的时间约束,过分追求数据本地性影响了作业的执行性能;没有对工作流作业的中间计算结果进行有效管理,增加了中间结果访问的I/O开销。针对以上问题,本项目以优化云环境下面向大数据并行计算的工作流执行为目标,改进现有的系统架构,引进工作流作业调度,保证多数据输出的用户作业优先级;引入中间数据管理,研究基于内存的高效中间计算结果存储管理机制,减少后继作业读取中间结果的I/O开销;研究与工作流作业调度和中间结果数据存储相匹配的并行子任务指派方法,保证工作流作业的顺利执行。在此基础上,实现云计算工作流调度系统,验证本项目提出的相关理论。
结项摘要
主要针对云计算系统三层架构分布式文件系统、数据并行作业执行引擎和编程接口对大数据并行处理的性能影响问题,进行了深入研究,给出了性能提升改进的相关方法和模型。针对SQL查询到MapReduce作业流翻译器自动生成的MapReduce作业流的执行效率很低问题,给出一种基于执行代价的类SQL查询到MapReduce作业流的翻译器。该翻译器采用MapReduce作业的代价估算模型来选择由自顶向下和自底向上两种作业合并策略生成的MapReduce作业流中执行代价较小的,大大提高了MapReduce作业流的执行效率。基于分布式系统HDFS,设计了基于内存的HDFS系统架构,在对中间结果数据读写时,首先使用内存存储资源,提高了数据中间结果数据的读写速率。在底层HDFS与Spark核心间设计了存储中间层,实现了Spark SQL查询作业间的共享数据,从而提高了Spark SQL作业的执行效率。针对Spark现有数据分区器无法有效解决Shuffle阶段出现的数据倾斜所引发的Reducer负载不均衡问题,提出了一种新的数据分区器(DS-Partitioner),实现了Shuffle阶段中间数据的均衡分配。
项目成果
期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(1)
Stochastic modeling of dynamic power management policies in server farms with setup times and server failures
服务器群中动态电源管理策略的设置时间和服务器故障的随机建模
- DOI:10.1002/dac.2761
- 发表时间:2014-04
- 期刊:International Journal of Communication Systems
- 影响因子:2.1
- 作者:宋爱波;王巍;罗军舟
- 通讯作者:罗军舟
云计算环境下基于协同过滤的个性化推荐机制
- DOI:--
- 发表时间:--
- 期刊:计算机研究与发展
- 影响因子:--
- 作者:朱夏;宋爱波;东方;罗军舟
- 通讯作者:罗军舟
CAT: A Cost-Aware Translator for SQL-query workflow to MapReduce jobflow
CAT:用于 SQL 查询工作流到 MapReduce 作业流的成本感知转换器
- DOI:10.1016/j.datak.2015.12.004
- 发表时间:2016-03
- 期刊:Data & Knowledge Engineering
- 影响因子:2.5
- 作者:Aibo Song;Zhiang Wu;Xu Ma;Junzhou Luo
- 通讯作者:Junzhou Luo
海量多维数据的存储与查询研究
- DOI:--
- 发表时间:2016
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:宋爱波;万雨桐;贡 欢;薛荧荧
- 通讯作者:薛荧荧
Efficiently Translating Complex SQL Query2 to MapReduce Jobflow on Cloud
在云上高效地将复杂的 SQL 查询2 转换为 MapReduce 作业流程
- DOI:--
- 发表时间:2017
- 期刊:IEEE TRANSACTIONS ON CLOUD COMPUTING
- 影响因子:6.5
- 作者:伍之昂;宋爱波
- 通讯作者:宋爱波
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
Partition-Based Online Aggregation with Shared Sampling in the Cloud
基于分区的在线聚合以及云中的共享采样
- DOI:10.1007/s11390-013-1393-6
- 发表时间:2013-11
- 期刊:Journal of Computer Science and Technology
- 影响因子:0.7
- 作者:王宇翔;罗军舟;宋爱波;东方
- 通讯作者:东方
基于动态定价策略的数据中心能耗成本优化
- DOI:--
- 发表时间:2013
- 期刊:计算机学报
- 影响因子:--
- 作者:王巍;罗军舟;宋爱波
- 通讯作者:宋爱波
射频识别数据库中封闭多维路径挖掘
- DOI:--
- 发表时间:--
- 期刊:计算机集成制造系统
- 影响因子:--
- 作者:宋爱波;陈竹西;胡孔法;陈崚;杨俊
- 通讯作者:杨俊
网格虚拟组织副本协作预取机制
- DOI:--
- 发表时间:2011
- 期刊:软件学报
- 影响因子:--
- 作者:田田;罗军舟;宋爱波;伍志昂
- 通讯作者:伍志昂
一种有效的基于密度度量的相交网格划分聚类算法
- DOI:--
- 发表时间:--
- 期刊:高技术通讯
- 影响因子:--
- 作者:陈崚;刘佳佳;胡孔法;宋爱波
- 通讯作者:宋爱波
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
宋爱波的其他基金
云计算环境下面向大数据的在线聚集并行优化机制研究
- 批准号:61572128
- 批准年份:2015
- 资助金额:16.0 万元
- 项目类别:面上项目
云计算环境下基于维存储的OLAP聚集计算关键技术研究
- 批准号:61070161
- 批准年份:2010
- 资助金额:33.0 万元
- 项目类别:面上项目
基于网格环境的高维OLAP数据联机分析与处理技术研究
- 批准号:60773103
- 批准年份:2007
- 资助金额:29.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}