CNS Core: Small: REYAZ: Reliability-Aware Job Scheduling for HPC Systems
CNS 核心:小型:REYAZ:HPC 系统的可靠性感知作业调度
基本信息
- 批准号:1910601
- 负责人:
- 金额:$ 49.99万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2019
- 资助国家:美国
- 起止时间:2019-10-01 至 2024-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
High-performance computing (HPC) enables breakthroughs in different science domains that lead to an improvement in national economics, health, welfare, and defense. Unfortunately, the ability of HPC systems to deliver productive science is now beginning to be significantly hampered by hardware-related errors and failures. Consequently, computational applications of national importance will need to spend a large fraction of execution time in resilience mechanisms to make forward progress in the presence of failures. Despite that, a huge amount of resources and time will be wasted on future HPC systems due to the high frequency of failure interruptions during application execution. To address these challenges, this project, called REYAZ, explores new territory in HPC job scheduling: maximizing the amount of useful work done on reliability-constrained HPC systems by jointly exploiting dynamic reliability state of the system components and resilience characteristics of applications. REYAZ will enable two novel capabilities: (1) a reliability-aware job scheduling approach that optimizes useful work done per unit time on unreliable large-scale computing systems while individual applications are guaranteed "fair" performance. (2) a family of techniques to reduce the input/output (I/O) overhead - a side-effect of widely used resilience mechanisms such as checkpoint-restart - while retaining the performance improvements obtained via reliability-aware scheduling. Maximizing the useful work per unit time on future reliability-constrained HPC systems will directly translate into more productive science - leading to faster advancements of different science fields and societal impact. Capabilities developed in this project will also help reduce the wastage of energy on large-scale systems resulting in economic benefits for the society. This project will integrate the research tasks and outcomes into educational activities to train the next generation of engineers who will face the challenges of operating unreliable large-scale systems. Undergraduate students from underrepresented groups will be engaged and trained in the field of large-scale fault-tolerant parallel computing.The project website (https://github.com/GoodwillComputingLab/REYAZ) will host all the documentation of research findings and software artifacts developed as a part of the project, including system software, runtime systems, analytical tools, modeling methodologies, experimental data, and traces. The project website will be maintained actively for at least five years beyond the project end date.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
高性能计算(HPC)可以在不同的科学领域实现突破,从而改善国民经济、健康、福利和国防。不幸的是,HPC系统提供生产科学的能力现在开始受到硬件相关错误和故障的严重阻碍。因此,具有国家重要性的计算应用程序将需要在弹性机制中花费很大一部分执行时间,以便在出现故障的情况下取得进展。 尽管如此,由于应用程序执行期间的高频率故障中断,未来的HPC系统将浪费大量的资源和时间。为了应对这些挑战,这个项目,称为REYA Z,探索新的领域在HPC作业调度:最大限度地提高可靠性约束的HPC系统所做的有用的工作量,通过联合利用系统组件的动态可靠性状态和应用程序的弹性特性。REYAZ将实现两个新的功能:(1)可靠性感知的作业调度方法,优化不可靠的大规模计算系统上单位时间内完成的有用工作,同时保证单个应用程序的“公平”性能。(2)一系列技术,用于减少输入/输出(I/O)开销-广泛使用的弹性机制(如检查点重启)的副作用-同时保留通过可靠性感知调度获得的性能改进。在未来可靠性受限的HPC系统上,最大限度地提高单位时间的有效工作量将直接转化为更有成效的科学,从而加快不同科学领域的进步和社会影响。 该项目开发的能力还将有助于减少大型系统的能源浪费,从而为社会带来经济效益。该项目将把研究任务和成果整合到教育活动中,以培养下一代工程师,他们将面临操作不可靠的大规模系统的挑战。该项目的网站(https://github.com/GoodwillComputingLab/REYAZ)将托管作为项目一部分开发的所有研究成果和软件工件的文档,包括系统软件、运行时系统、分析工具、建模方法、实验数据和跟踪。该项目网站将在项目结束日期后至少五年内积极维护。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Examining Failures and Repairs on Supercomputers with Multi-GPU Compute Nodes
检查具有多 GPU 计算节点的超级计算机上的故障和修复
- DOI:10.1109/dsn48987.2021.00043
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Taherin, Amir and
- 通讯作者:Taherin, Amir and
Revisiting I/O behavior in large-scale storage systems: the expected and the unexpected
重新审视大规模存储系统中的 I/O 行为:预期和意外
- DOI:10.1145/3295500.3356183
- 发表时间:2019
- 期刊:
- 影响因子:0
- 作者:Tirthak Patel, Suren Byna
- 通讯作者:Tirthak Patel, Suren Byna
Uncovering Access, Reuse, and Sharing Characteristics of I/O-Intensive Files on Large-Scale Production HPC Systems.
揭示大规模生产 HPC 系统上 I/O 密集型文件的访问、重用和共享特征。
- DOI:
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:Tirthak Patel, Suren Byna
- 通讯作者:Tirthak Patel, Suren Byna
Qraft: reverse your Quantum circuit and know the correct program output
- DOI:10.1145/3445814.3446743
- 发表时间:2021-04
- 期刊:
- 影响因子:0
- 作者:Tirthak Patel;Devesh Tiwari
- 通讯作者:Tirthak Patel;Devesh Tiwari
Operating Liquid-Cooled Large-Scale Systems: Long-Term Monitoring, Reliability Analysis, and Efficiency Measures
- DOI:10.1109/hpca51647.2021.00078
- 发表时间:2021-02
- 期刊:
- 影响因子:0
- 作者:Rohan Basu Roy;Tirthak Patel;R. Kettimuthu;W. Allcock;Paul M. Rich;Adam Scovel;Devesh Tiwari
- 通讯作者:Rohan Basu Roy;Tirthak Patel;R. Kettimuthu;W. Allcock;Paul M. Rich;Adam Scovel;Devesh Tiwari
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Devesh Tiwari其他文献
Characterizing and Exploiting Soft Error Vulnerability Phase Behavior in GPU Applications
表征和利用 GPU 应用程序中的软错误漏洞阶段行为
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:7.3
- 作者:
Fritz G. Previlon;Charu Kalra;Devesh Tiwari;D. Kaeli - 通讯作者:
D. Kaeli
Robust and Resource-Efficient Quantum Circuit Approximation
稳健且资源高效的量子电路逼近
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Tirthak Patel;Ed Younis;Costin Iancu;W. A. Jong;Devesh Tiwari - 通讯作者:
Devesh Tiwari
Graphine: Enhanced Neutral Atom Quantum Computing Using Application-Specific Rydberg Atom Arrangement
Graphine:使用特定于应用的里德堡原子排列增强中性原子量子计算
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Tirthak Patel;Daniel Silver;Devesh Tiwari - 通讯作者:
Devesh Tiwari
Reducing Waste in Large Scale Systems through Introspective Analysis
通过内省分析减少大型系统中的浪费
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Leonardo Bautista;Ana Gainaru;Swann Perarnau;Devesh Tiwari;Saurabh Gupta;C. Engelmann;F. Cappello;M. Snir - 通讯作者:
M. Snir
Modeling and Analyzing Key Performance Factors of Shared Memory MapReduce
共享内存 MapReduce 的关键性能因素建模与分析
- DOI:
10.1109/ipdps.2012.119 - 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
Devesh Tiwari;Yan Solihin - 通讯作者:
Yan Solihin
Devesh Tiwari的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Devesh Tiwari', 18)}}的其他基金
CAREER: Qurious: Methods for Making Erroneous Near-term Quantum Computers More Usable
职业:好奇:使错误的近期量子计算机更可用的方法
- 批准号:
2144540 - 财政年份:2022
- 资助金额:
$ 49.99万 - 项目类别:
Continuing Grant
Collaborative Research: CNS Core: Small: HARMONIA: New Methods for Colocating Multiple QoS-Sensitive Jobs
协作研究:CNS 核心:小型:HARMONIA:共置多个 QoS 敏感作业的新方法
- 批准号:
2124897 - 财政年份:2021
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
NSF Student Travel Grant for 2020 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS)
NSF 学生旅费资助 2020 年 IEEE 国际系统和软件性能分析研讨会 (ISPASS)
- 批准号:
2023217 - 财政年份:2020
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
相似国自然基金
胆固醇羟化酶CH25H非酶活依赖性促进乙型肝炎病毒蛋白Core及Pre-core降解的分子机制研究
- 批准号:82371765
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
锕系元素5f-in-core的GTH赝势和基组的开发
- 批准号:22303037
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于合成致死策略搭建Core-matched前药共组装体克服肿瘤耐药的机制研究
- 批准号:
- 批准年份:2022
- 资助金额:52 万元
- 项目类别:
鼠伤寒沙门氏菌LPS core经由CD209/SphK1促进树突状细胞迁移加重炎症性肠病的机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于外泌体精准调控的“核-壳”(core-shell)同步血管化骨组织工程策略的应用与机制探讨
- 批准号:
- 批准年份:2020
- 资助金额:55 万元
- 项目类别:
肌营养不良蛋白聚糖Core M3型甘露糖肽的精确制备及功能探索
- 批准号:92053110
- 批准年份:2020
- 资助金额:70.0 万元
- 项目类别:重大研究计划
Core-1-O型聚糖黏蛋白缺陷诱导胃炎发生并介导慢性胃炎向胃癌转化的分子机制研究
- 批准号:81902805
- 批准年份:2019
- 资助金额:20.5 万元
- 项目类别:青年科学基金项目
原始地球增生晚期的Core-merging大碰撞事件:地核增生、核幔平衡与核幔边界结构的新认识
- 批准号:41973063
- 批准年份:2019
- 资助金额:65.0 万元
- 项目类别:面上项目
CORDEX-CORE区域气候模拟与预估研讨会
- 批准号:41981240365
- 批准年份:2019
- 资助金额:1.5 万元
- 项目类别:国际(地区)合作与交流项目
RBM38通过协助Pol-ε结合、招募core调控HBV复制
- 批准号:31900138
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
相似海外基金
CNS Core: Small: Core Scheduling Techniques and Programming Abstractions for Scalable Serverless Edge Computing Engine
CNS Core:小型:可扩展无服务器边缘计算引擎的核心调度技术和编程抽象
- 批准号:
2322919 - 财政年份:2024
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
CNS Core: Small: Network Wide Sensing by Leveraging Cellular Communication Networks
CNS 核心:小型:利用蜂窝通信网络进行全网络传感
- 批准号:
2343469 - 财政年份:2024
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
CNS Core: Small: Intelligent Fault Injection to Expose and Reproduce Production-Grade Bugs in Cloud Systems
CNS 核心:小型:智能故障注入以暴露和重现云系统中的生产级错误
- 批准号:
2317698 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
CNS Core: Small: Repurposing Smartphones to Minimize Carbon
CNS 核心:小型:重新利用智能手机以最大限度地减少碳排放
- 批准号:
2233894 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: A Compilation System for Mapping Deep Learning Models to Tensorized Instructions (DELITE)
合作研究:CNS Core:Small:将深度学习模型映射到张量化指令的编译系统(DELITE)
- 批准号:
2230945 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Collaborative Research: NSF-AoF: CNS Core: Small: Towards Scalable and Al-based Solutions for Beyond-5G Radio Access Networks
合作研究:NSF-AoF:CNS 核心:小型:面向超 5G 无线接入网络的可扩展和基于人工智能的解决方案
- 批准号:
2225578 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
CNS Core: Small: Toward Opportunistic, Fast, and Robust In-Cache AI Acceleration at the Edge
CNS 核心:小型:在边缘实现机会主义、快速且稳健的缓存内 AI 加速
- 批准号:
2228028 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: SmartSight: an AI-Based Computing Platform to Assist Blind and Visually Impaired People
合作研究:中枢神经系统核心:小型:SmartSight:基于人工智能的计算平台,帮助盲人和视障人士
- 批准号:
2418188 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
CNS Core: Small: Redesigning I/O Across Heterogeneous Systems
CNS 核心:小型:跨异构系统重新设计 I/O
- 批准号:
2231724 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: Creating An Extensible Internet Through Interposition
合作研究:CNS核心:小:通过介入创建可扩展的互联网
- 批准号:
2242503 - 财政年份:2023
- 资助金额:
$ 49.99万 - 项目类别:
Standard Grant