SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
基本信息
- 批准号:2413597
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-10-01 至 2024-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The high-performance computing (HPC) community is embracing artificial intelligence (AI) techniques for countless pursuits, from driving ground-breaking scientific discoveries to protecting our national security. As newly emerging machine learning and date-centric workloads proliferate in HPC, current workload-management systems cannot keep up with the significant challenges introduced by the diverse mix of applications co-running on heterogeneous systems. This project tackles the problem by developing new workload-management methods to catalyze the convergence of HPC, AI, and data analytics. It will develop fundamental improvements in HPC workload management to promote the use of large-scale supercomputers for emerging data-centric applications (HPC4AI). Meanwhile it will exploit advanced AI technologies, especially multi-objective reinforcement learning, to empower job scheduling and resource allocation in HPC (AI4HPC). The project aims to develop an intelligent workload-management framework named MINT in which distinctive computational resource requirements of hybrid workloads will be automatically identified and fulfilled to achieve extreme resource efficiency and satisfactory user experience. Key research thrusts are: understanding performance implications of diverse workloads on supercomputers via model-driven analysis; new intelligent multi-resource scheduling methods; smart resource-allocation strategies for minimal workload interference; and extensive evaluation of the proposed framework through trace-based simulation and testing. The deliverables include a new workload-management framework and open-source software releases for intelligent management of hybrid workloads on extreme-scale systems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
高性能计算(HPC)社区正在采用人工智能(AI)技术来实现无数追求,从推动开创性的科学发现到保护我们的国家安全。随着新兴的机器学习和以日期为中心的工作负载在HPC中扩散,当前的工作负载管理系统无法跟上各种应用程序在异构系统上共同运行的各种混合所带来的重大挑战。该项目通过开发新的工作负载管理方法来解决问题,以促进HPC,AI和数据分析的收敛性。它将在HPC工作负载管理方面进行基本改进,以促进用于新兴数据中心应用程序(HPC4AI)的大规模超级计算机的使用。同时,它将利用先进的AI技术,尤其是多目标增强学习,以增强HPC(AI4HPC)的工作计划和资源分配。 该项目旨在开发一个名为MINT的智能工作负载管理框架,其中将自动识别并实现混合工作负载的独特计算资源需求,以实现极端的资源效率和令人满意的用户体验。 关键的研究推力是:通过模型驱动分析,了解超级计算机对各种工作量的绩效含义;新的智能多资源调度方法;最小工作负载干扰的智能资源分配策略;并通过基于痕量的仿真和测试对拟议框架进行广泛评估。可交付成果包括一个新的工作负载管理框架和开源软件发布,以智能管理极端尺度系统的混合工作负载。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子优点和更广泛影响审查标准通过评估来进行评估的。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Zhiling Lan其他文献
Surrogate Modeling for HPC Application Iteration Times Forecasting with Network Features
具有网络特征的 HPC 应用程序迭代时间预测的代理建模
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Xiongxiao Xu;Kevin A. Brown;Tanwi Mallick;Xin Wang;Elkin Cruz;Robert B. Ross;Christopher D. Carothers;Zhiling Lan;Kai Shu - 通讯作者:
Kai Shu
Application power profiling on IBM Blue Gene/Q
- DOI:
10.1016/j.parco.2016.05.015 - 发表时间:
2016-09-01 - 期刊:
- 影响因子:
- 作者:
Sean Wallace;Zhou Zhou;Venkatram Vishwanath;Susan Coghlan;John Tramm;Zhiling Lan;Michael E. Papka - 通讯作者:
Michael E. Papka
Zhiling Lan的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Zhiling Lan', 18)}}的其他基金
Collaborative Research: PPoSS: Planning: SEEr: A Scalable, Energy Efficient HPC Environment for AI-Enabled Science
合作研究:PPoSS:规划:SEEr:面向人工智能科学的可扩展、节能的 HPC 环境
- 批准号:
2119294 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
- 批准号:
2109316 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CSR: Small: IRON: Reducing Workload Interference on Massively Parallel Platforms
CSR:小:IRON:减少大规模并行平台上的工作负载干扰
- 批准号:
1717763 - 财政年份:2017
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: Small: Collaborative Research: Experimental-based Research on Effective Models of Parallel Application Execution Time, Power, and Resilience
SHF:小型:协作研究:基于实验的并行应用程序执行时间、功耗和弹性有效模型的研究
- 批准号:
1618776 - 财政年份:2016
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: CSR: Small: Toward Smart HPC through Active Learning and Intelligent Scheduling
SHF:CSR:小型:通过主动学习和智能调度迈向智能 HPC
- 批准号:
1422009 - 财政年份:2014
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
- 批准号:
1320125 - 财政年份:2013
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: Towards Petascale Cosmological Simulations
合作研究:迈向千万亿次宇宙学模拟
- 批准号:
0904670 - 财政年份:2009
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CSR-PSCE,SM: Recovery Aware Parallel Computing
CSR-PSCE,SM:恢复感知并行计算
- 批准号:
0834514 - 财政年份:2008
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
CSR/AES: Enhancing Application Robustness via Adaptive and Cooperative Methods
CSR/AES:通过自适应和协作方法增强应用程序的稳健性
- 批准号:
0720549 - 财政年份:2007
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
相似国自然基金
靶向Treg-FOXP3小分子抑制剂的筛选及其在肺癌免疫治疗中的作用和机制研究
- 批准号:32370966
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
化学小分子激活YAP诱导染色质可塑性促进心脏祖细胞重编程的表观遗传机制研究
- 批准号:82304478
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
靶向小胶质细胞的仿生甘草酸纳米颗粒构建及作用机制研究:脓毒症相关性脑病的治疗新策略
- 批准号:82302422
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
HMGB1/TLR4/Cathepsin B途径介导的小胶质细胞焦亡在新生大鼠缺氧缺血脑病中的作用与机制
- 批准号:82371712
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
小分子无半胱氨酸蛋白调控生防真菌杀虫活性的作用与机理
- 批准号:32372613
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
相似海外基金
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
- 批准号:
2109316 - 财政年份:2021
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF:Small:RUI: Optimizing Compiler Instruction Scheduling Using GPU-Accelerated Intelligent Search
SHF:Small:RUI:使用 GPU 加速智能搜索优化编译器指令调度
- 批准号:
1911235 - 财政年份:2019
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: Small: Science and Tools for Intelligent Developer Testing
SHF:小型:智能开发人员测试的科学和工具
- 批准号:
1816615 - 财政年份:2018
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: Small: Asked and Answered: Intelligent Data Science for Software Projects
SHF:小型:询问和回答:软件项目的智能数据科学
- 批准号:
1649448 - 财政年份:2016
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: Small: Asked and Answered: Intelligent Data Science for Software Projects
SHF:小型:询问和回答:软件项目的智能数据科学
- 批准号:
1618693 - 财政年份:2016
- 资助金额:
$ 50万 - 项目类别:
Standard Grant