云环境下面向大数据并行计算的工作流执行优化研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61370207
  • 项目类别:
    面上项目
  • 资助金额:
    76.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0207.计算机网络
  • 结题年份:
    2017
  • 批准年份:
    2013
  • 项目状态:
    已结题
  • 起止时间:
    2014-01-01 至2017-12-31

项目摘要

Nowadays, the common cloud platform focus on the big data analysis always consists of three components, that is the distributed file system, the execution engine for data parallel processing and the programmatic interface. Note that, the programmatic interface is responsible for mapping the input complex jobs into the workflow, which is processed by the execution engine. However, the state-of-art cloud platforms do not support the workflow scheduling mechanism so that the job priorities cannot be guaranteed. And the time-constrain does not considered in the task assignment, affecting the job performance due to the superabundant data locality; Moreover, the existing cloud platforms do not manage the intermediate results among jobs efficiently, increasing the I/O cost that is generated by accessing the intermediate results. To overcome the above problems, this project aimed at the optimization for workflow processing in the cloud and extends the existing cloud platform to support the workflow scheduling mechanism and guarantee the job priorities, and then we add the intermediate result management component to realize the memory-based intermediate result management, reducing the I/O cost between jobs. Afterwards, we study the appropriate parallel task assignment algorithm coupling with the workflow scheduling and the intermediate result management to improve the workflow performance. Finally, we implement our workflow scheduling system for the existing cloud platform to demonstrate the efficiency and effectiveness.
目前,针对大数据并行处理的云计算系统分为三层,分布式文件系统、数据并行作业执行引擎和编程接口,编程接口负责将复杂应用解析成工作流交由数据并行作业执行引擎处理。然而,当前的云计算系统不支持工作流的调度机制,不能保证用户作业执行的优先级;子任务指派过程也没有考虑工作流作业执行的时间约束,过分追求数据本地性影响了作业的执行性能;没有对工作流作业的中间计算结果进行有效管理,增加了中间结果访问的I/O开销。针对以上问题,本项目以优化云环境下面向大数据并行计算的工作流执行为目标,改进现有的系统架构,引进工作流作业调度,保证多数据输出的用户作业优先级;引入中间数据管理,研究基于内存的高效中间计算结果存储管理机制,减少后继作业读取中间结果的I/O开销;研究与工作流作业调度和中间结果数据存储相匹配的并行子任务指派方法,保证工作流作业的顺利执行。在此基础上,实现云计算工作流调度系统,验证本项目提出的相关理论。

结项摘要

主要针对云计算系统三层架构分布式文件系统、数据并行作业执行引擎和编程接口对大数据并行处理的性能影响问题,进行了深入研究,给出了性能提升改进的相关方法和模型。针对SQL查询到MapReduce作业流翻译器自动生成的MapReduce作业流的执行效率很低问题,给出一种基于执行代价的类SQL查询到MapReduce作业流的翻译器。该翻译器采用MapReduce作业的代价估算模型来选择由自顶向下和自底向上两种作业合并策略生成的MapReduce作业流中执行代价较小的,大大提高了MapReduce作业流的执行效率。基于分布式系统HDFS,设计了基于内存的HDFS系统架构,在对中间结果数据读写时,首先使用内存存储资源,提高了数据中间结果数据的读写速率。在底层HDFS与Spark核心间设计了存储中间层,实现了Spark SQL查询作业间的共享数据,从而提高了Spark SQL作业的执行效率。针对Spark现有数据分区器无法有效解决Shuffle阶段出现的数据倾斜所引发的Reducer负载不均衡问题,提出了一种新的数据分区器(DS-Partitioner),实现了Shuffle阶段中间数据的均衡分配。

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(1)
Stochastic modeling of dynamic power management policies in server farms with setup times and server failures
服务器群中动态电源管理策略的设置时间和服务器故障的随机建模
  • DOI:
    10.1002/dac.2761
  • 发表时间:
    2014-04
  • 期刊:
    International Journal of Communication Systems
  • 影响因子:
    2.1
  • 作者:
    宋爱波;王巍;罗军舟
  • 通讯作者:
    罗军舟
云计算环境下基于协同过滤的个性化推荐机制
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机研究与发展
  • 影响因子:
    --
  • 作者:
    朱夏;宋爱波;东方;罗军舟
  • 通讯作者:
    罗军舟
CAT: A Cost-Aware Translator for SQL-query workflow to MapReduce jobflow
CAT:用于 SQL 查询工作流到 MapReduce 作业流的成本感知转换器
  • DOI:
    10.1016/j.datak.2015.12.004
  • 发表时间:
    2016-03
  • 期刊:
    Data & Knowledge Engineering
  • 影响因子:
    2.5
  • 作者:
    Aibo Song;Zhiang Wu;Xu Ma;Junzhou Luo
  • 通讯作者:
    Junzhou Luo
海量多维数据的存储与查询研究
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    计算机工程与应用
  • 影响因子:
    --
  • 作者:
    宋爱波;万雨桐;贡 欢;薛荧荧
  • 通讯作者:
    薛荧荧
Efficiently Translating Complex SQL Query2 to MapReduce Jobflow on Cloud
在云上高效地将复杂的 SQL 查询2 转换为 MapReduce 作业流程
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    IEEE TRANSACTIONS ON CLOUD COMPUTING
  • 影响因子:
    6.5
  • 作者:
    伍之昂;宋爱波
  • 通讯作者:
    宋爱波

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

Partition-Based Online Aggregation with Shared Sampling in the Cloud
基于分区的在线聚合以及云中的共享采样
  • DOI:
    10.1007/s11390-013-1393-6
  • 发表时间:
    2013-11
  • 期刊:
    Journal of Computer Science and Technology
  • 影响因子:
    0.7
  • 作者:
    王宇翔;罗军舟;宋爱波;东方
  • 通讯作者:
    东方
基于动态定价策略的数据中心能耗成本优化
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    计算机学报
  • 影响因子:
    --
  • 作者:
    王巍;罗军舟;宋爱波
  • 通讯作者:
    宋爱波
射频识别数据库中封闭多维路径挖掘
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机集成制造系统
  • 影响因子:
    --
  • 作者:
    宋爱波;陈竹西;胡孔法;陈崚;杨俊
  • 通讯作者:
    杨俊
网格虚拟组织副本协作预取机制
  • DOI:
    --
  • 发表时间:
    2011
  • 期刊:
    软件学报
  • 影响因子:
    --
  • 作者:
    田田;罗军舟;宋爱波;伍志昂
  • 通讯作者:
    伍志昂
一种有效的基于密度度量的相交网格划分聚类算法
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    高技术通讯
  • 影响因子:
    --
  • 作者:
    陈崚;刘佳佳;胡孔法;宋爱波
  • 通讯作者:
    宋爱波

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

宋爱波的其他基金

云计算环境下面向大数据的在线聚集并行优化机制研究
  • 批准号:
    61572128
  • 批准年份:
    2015
  • 资助金额:
    16.0 万元
  • 项目类别:
    面上项目
云计算环境下基于维存储的OLAP聚集计算关键技术研究
  • 批准号:
    61070161
  • 批准年份:
    2010
  • 资助金额:
    33.0 万元
  • 项目类别:
    面上项目
基于网格环境的高维OLAP数据联机分析与处理技术研究
  • 批准号:
    60773103
  • 批准年份:
    2007
  • 资助金额:
    29.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码