面向高性能云平台的并行程序优化关键技术研究
批准号:
61472201
项目类别:
面上项目
资助金额:
84.0 万元
负责人:
翟季冬
依托单位:
学科分类:
F0204.计算机系统结构与硬件技术
结题年份:
2018
批准年份:
2014
项目状态:
已结题
项目参与者:
李焱、刘明亮、林恒、蒋运韫、张峰、汤雄超、冯时、杨弋、朱晓伟
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
随着云计算的发展以及面向并行计算领域优化的高性能云平台的出现,越来越多的用户开始在高性能云平台上运行各种科学计算程序。但是,复杂的云平台计价模型、灵活的云资源配置模式、非定制的通信网络以及显著的系统噪音等因素给高性能云平台上运行大规模并行程序带来新的挑战。.针对上述问题,本项目研究工作包括:首先,提出面向高性能云平台的半弹性虚拟集群计算模型。通过聚合大量用户的作业请求,实现统一的云资源调度和管理,并根据作业规模动态调整虚拟集群大小,降低用户使用成本并提高作业运行效率。其次,提出基于学习排序的方法实现自动预测给定并行程序的最优云配置方案。针对云平台资源配置组合空间爆炸的问题,提出基于PB矩阵的统计方法对高维参数空间进行降维。最后,针对高性能云平台的特点,提出采用静态分析的技术实现并行程序的通信自动隐藏,以及基于性能断言的技术在线检测云平台上存在的系统噪音,提高并行程序的性能和可扩展性。
英文摘要
With the development of cloud computing as well as the emergence of high performance computing cloud, more and more users begin to run a variety of parallel applications on such platforms. However, the complex cloud pricing models, flexible cloud resource allocation models, non-customized communication networks and significant system noise have brought new challenges to execute large-scale parallel applications on high performance cloud platforms. To solve these problems, this project focuses on the following points: First of all, we propose a semi-elastic virtual cluster computing model based on high performance computing cloud. Through aggregating the demands from multiple users, our system can achieve cloud resources provisioning with different types of reserved instances to optimize its overall cost effectiveness. It can also intelligently control the virtual cluster capacity and plan its resource distribution across different cloud pricing classes. Second, we propose utilizing learning-to-rank to perform black-box performance/cost predictions. To tackle the high-dimensional parameter exploration space unique to cloud platforms, we enable affordable, reusable, and incremental training guided by Plackett and Burman Matrices. Finally, according to the characteristics of high performance computing cloud, we propose using static analysis to automatically overlap communication and computation in parallel applications. We also propose using performance assertion to detect system noise on high performance computing cloud.
随着云计算的发展以及面向并行计算领域优化的高性能云平台的出现,越来越多的用户开始在高性能云平台上运行各种科学计算程序。但是,复杂的云平台计价模型、灵活的云资源配置模式、非定制的通信网络以及显著的系统噪音等因素给高性能云平台上运行大规模并行程序带来新的挑战。.针对上述挑战,本项目研究以下内容: 第一,对最新的Amazon的高性能云平台进行了大量的测试,并与本地集群系统进行了对比分析。通过分析,我们发现对于含有大量小消息传输的并行程序,在当前的云平台上具有较差的可扩展性。对于含有大消息传输的并行程序,在当前的云平台上,表现了更好的可扩展性。第二,实现了基于学习排序的方法自动预测给定并行程序的最优云配置方案。针对云平台资源配置组合空间爆炸的问题,提出基于PB矩阵的统计方法对高维参数空间进行降维。实验结果表明,本方法可以处理不同领域、存储需求的应用程序,针对性能和花费,都能获得最优或者近似最优的配置。第三,实现了面向高性能云平台的半弹性虚拟集群计算模型。通过聚合大量用户的作业请求,实现统一的云资源调度和管理,并根据作业规模动态调整虚拟集群大小,降低用户使用成本并提高作业运行效率。实验结果表明,提出的方法可以比用户单独在云平台上提交作业,平均降低60%的成本,而且不影响用户的等待时间。第四,实现了基于静动态结合的系统性能噪音在线检测工具,对高性能计算机上的大规模并行应用程序具有适用性。实验结果表明,我们的方法在16384进程上,引入的性能开销小于4%。第五,本项目共发表17篇学术论文,其中有8篇发表在CCF A类会议或期刊上;申请或授权专利5项。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Characterizing and optimizing TPC-C workloads on large-scale systems using SSD arrays
使用 SSD 阵列表征和优化大型系统上的 TPC-C 工作负载
DOI:10.1007/s11432-015-5383-x
发表时间:2016
期刊:Science China Information Sciences
影响因子:--
作者:Zhai Jidong;Zhang Feng;Li Qingwen;Chen Wenguang;Zheng Weimin
通讯作者:Zheng Weimin
DOI:10.1007/s11227-018-2525-0
发表时间:2018-08
期刊:JOURNAL OF SUPERCOMPUTING
影响因子:3.3
作者:Zhang Feng;Lin Heng;Zhai Jidong;Cheng Jie;Xiang Dingyi;Li Jizhong;Chai Yunpeng;Du Xiaoyong
通讯作者:Du Xiaoyong
Building Semi-Elastic Virtual Clusters for Cost-Effective HPC Cloud Resource Provisioning
构建半弹性虚拟集群以实现经济高效的HPC云资源配置
DOI:10.1109/tpds.2015.2476459
发表时间:2016
期刊:IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS
影响因子:5.3
作者:Niu Shuangcheng;Zhai Jidong;Ma Xiaosong;Tang Xiongchao;Chen Wenguang;Zheng Weimin
通讯作者:Zheng Weimin
Performance Prediction for Large-Scale Parallel Applications Using Representative Replay
使用代表性重放的大规模并行应用程序的性能预测
DOI:10.1109/tc.2015.2479630
发表时间:2016-07
期刊:IEEE Transactions on Computers
影响因子:3.7
作者:Zhai Jidong;Chen Wenguang;Zheng Weimin;Li Keqin
通讯作者:Li Keqin
Student cluster competition 2017, team Tsinghua University: Reproducing vectorization of the tersoff multi-body potential on the Intel Skylake and NVIDIA Volta architectures
2017 年学生集群竞赛,清华大学团队:在 Intel Skylake 和 NVIDIA Volta 架构上再现 tersoff 多体潜力的矢量化
DOI:10.1016/j.parco.2018.07.002
发表时间:2018-10
期刊:Parallel Computing
影响因子:1.4
作者:Ka Cheong Jason Lau;Yuxuan Li;Lei Xie;Qian Xie;Beichen Li;Yu Chen;Guanyu Feng;Jiping Yu;Xinjian Yu;Miao Wang;Wentao Han;Jidong Zhai
通讯作者:Jidong Zhai
基于多面体模型的深度学习张量编译器
- 批准号:U20A20226
- 项目类别:联合基金项目
- 资助金额:260万元
- 批准年份:2020
- 负责人:翟季冬
- 依托单位:
基于进程相似性的大规模并行程序在线可扩展分析方法研究
- 批准号:61103021
- 项目类别:青年科学基金项目
- 资助金额:24.0万元
- 批准年份:2011
- 负责人:翟季冬
- 依托单位:
国内基金
海外基金















{{item.name}}会员


