课题基金基金详情
云环境下面向大数据并行计算的工作流执行优化研究
结题报告
批准号:
61370207
项目类别:
面上项目
资助金额:
76.0 万元
负责人:
宋爱波
依托单位:
学科分类:
F0207.计算机网络
结题年份:
2017
批准年份:
2013
项目状态:
已结题
项目参与者:
赵茂先、东方、董玉林、王宇翔、金嘉晖、熊润群、王巍、李龙生、马旭
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
目前,针对大数据并行处理的云计算系统分为三层,分布式文件系统、数据并行作业执行引擎和编程接口,编程接口负责将复杂应用解析成工作流交由数据并行作业执行引擎处理。然而,当前的云计算系统不支持工作流的调度机制,不能保证用户作业执行的优先级;子任务指派过程也没有考虑工作流作业执行的时间约束,过分追求数据本地性影响了作业的执行性能;没有对工作流作业的中间计算结果进行有效管理,增加了中间结果访问的I/O开销。针对以上问题,本项目以优化云环境下面向大数据并行计算的工作流执行为目标,改进现有的系统架构,引进工作流作业调度,保证多数据输出的用户作业优先级;引入中间数据管理,研究基于内存的高效中间计算结果存储管理机制,减少后继作业读取中间结果的I/O开销;研究与工作流作业调度和中间结果数据存储相匹配的并行子任务指派方法,保证工作流作业的顺利执行。在此基础上,实现云计算工作流调度系统,验证本项目提出的相关理论。
英文摘要
Nowadays, the common cloud platform focus on the big data analysis always consists of three components, that is the distributed file system, the execution engine for data parallel processing and the programmatic interface. Note that, the programmatic interface is responsible for mapping the input complex jobs into the workflow, which is processed by the execution engine. However, the state-of-art cloud platforms do not support the workflow scheduling mechanism so that the job priorities cannot be guaranteed. And the time-constrain does not considered in the task assignment, affecting the job performance due to the superabundant data locality; Moreover, the existing cloud platforms do not manage the intermediate results among jobs efficiently, increasing the I/O cost that is generated by accessing the intermediate results. To overcome the above problems, this project aimed at the optimization for workflow processing in the cloud and extends the existing cloud platform to support the workflow scheduling mechanism and guarantee the job priorities, and then we add the intermediate result management component to realize the memory-based intermediate result management, reducing the I/O cost between jobs. Afterwards, we study the appropriate parallel task assignment algorithm coupling with the workflow scheduling and the intermediate result management to improve the workflow performance. Finally, we implement our workflow scheduling system for the existing cloud platform to demonstrate the efficiency and effectiveness.
主要针对云计算系统三层架构分布式文件系统、数据并行作业执行引擎和编程接口对大数据并行处理的性能影响问题,进行了深入研究,给出了性能提升改进的相关方法和模型。针对SQL查询到MapReduce作业流翻译器自动生成的MapReduce作业流的执行效率很低问题,给出一种基于执行代价的类SQL查询到MapReduce作业流的翻译器。该翻译器采用MapReduce作业的代价估算模型来选择由自顶向下和自底向上两种作业合并策略生成的MapReduce作业流中执行代价较小的,大大提高了MapReduce作业流的执行效率。基于分布式系统HDFS,设计了基于内存的HDFS系统架构,在对中间结果数据读写时,首先使用内存存储资源,提高了数据中间结果数据的读写速率。在底层HDFS与Spark核心间设计了存储中间层,实现了Spark SQL查询作业间的共享数据,从而提高了Spark SQL作业的执行效率。针对Spark现有数据分区器无法有效解决Shuffle阶段出现的数据倾斜所引发的Reducer负载不均衡问题,提出了一种新的数据分区器(DS-Partitioner),实现了Shuffle阶段中间数据的均衡分配。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Stochastic modeling of dynamic power management policies in server farms with setup times and server failures
服务器群中动态电源管理策略的设置时间和服务器故障的随机建模
DOI:10.1002/dac.2761
发表时间:2014-04
期刊:International Journal of Communication Systems
影响因子:2.1
作者:宋爱波;王巍;罗军舟
通讯作者:罗军舟
DOI:--
发表时间:2016
期刊:计算机工程与应用
影响因子:--
作者:宋爱波;万雨桐;贡 欢;薛荧荧
通讯作者:薛荧荧
Efficiently Translating Complex SQL Query2 to MapReduce Jobflow on Cloud
在云上高效地将复杂的 SQL 查询2 转换为 MapReduce 作业流程
DOI:--
发表时间:2017
期刊:IEEE TRANSACTIONS ON CLOUD COMPUTING
影响因子:6.5
作者:伍之昂;宋爱波
通讯作者:宋爱波
DOI:--
发表时间:--
期刊:计算机研究与发展
影响因子:--
作者:朱夏;宋爱波;东方;罗军舟
通讯作者:罗军舟
DOI:http://dx.doi.org/10.1016/j.datak.2015.12.004
发表时间:2016
期刊:Data & Knowledge Engineering
影响因子:--
作者:Aibo Song;Zhiang Wu;Xu Ma;Junzhou Luo
通讯作者:Junzhou Luo
云计算环境下面向大数据的在线聚集并行优化机制研究
  • 批准号:
    61572128
  • 项目类别:
    面上项目
  • 资助金额:
    16.0万元
  • 批准年份:
    2015
  • 负责人:
    宋爱波
  • 依托单位:
云计算环境下基于维存储的OLAP聚集计算关键技术研究
  • 批准号:
    61070161
  • 项目类别:
    面上项目
  • 资助金额:
    33.0万元
  • 批准年份:
    2010
  • 负责人:
    宋爱波
  • 依托单位:
基于网格环境的高维OLAP数据联机分析与处理技术研究
  • 批准号:
    60773103
  • 项目类别:
    面上项目
  • 资助金额:
    29.0万元
  • 批准年份:
    2007
  • 负责人:
    宋爱波
  • 依托单位:
国内基金
海外基金