SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing

SHF:Small:超大规模计算混合工作负载的智能管理

基本信息

  • 批准号:
    2109316
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-10-01 至 2024-01-31
  • 项目状态:
    已结题

项目摘要

The high-performance computing (HPC) community is embracing artificial intelligence (AI) techniques for countless pursuits, from driving ground-breaking scientific discoveries to protecting our national security. As newly emerging machine learning and date-centric workloads proliferate in HPC, current workload-management systems cannot keep up with the significant challenges introduced by the diverse mix of applications co-running on heterogeneous systems. This project tackles the problem by developing new workload-management methods to catalyze the convergence of HPC, AI, and data analytics. It will develop fundamental improvements in HPC workload management to promote the use of large-scale supercomputers for emerging data-centric applications (HPC4AI). Meanwhile it will exploit advanced AI technologies, especially multi-objective reinforcement learning, to empower job scheduling and resource allocation in HPC (AI4HPC). The project aims to develop an intelligent workload-management framework named MINT in which distinctive computational resource requirements of hybrid workloads will be automatically identified and fulfilled to achieve extreme resource efficiency and satisfactory user experience. Key research thrusts are: understanding performance implications of diverse workloads on supercomputers via model-driven analysis; new intelligent multi-resource scheduling methods; smart resource-allocation strategies for minimal workload interference; and extensive evaluation of the proposed framework through trace-based simulation and testing. The deliverables include a new workload-management framework and open-source software releases for intelligent management of hybrid workloads on extreme-scale systems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
高性能计算(HPC)社区正在将人工智能(AI)技术用于无数的追求,从推动突破性的科学发现到保护我们的国家安全。随着新出现的机器学习和以日期为中心的工作负载在HPC中激增,当前的工作负载管理系统无法跟上在异构系统上共同运行的各种应用程序组合所带来的重大挑战。该项目通过开发新的工作负载管理方法来解决这个问题,以促进HPC,AI和数据分析的融合。它将在HPC工作负载管理方面进行根本性改进,以促进大型超级计算机在新兴的以数据为中心的应用(HPC 4AI)中的使用。同时,它将利用先进的人工智能技术,特别是多目标强化学习,来增强HPC(AI 4 HPC)中的作业调度和资源分配。 该项目旨在开发一个名为MINT的智能工作负载管理框架,其中混合工作负载的独特计算资源需求将被自动识别和满足,以实现极端的资源效率和令人满意的用户体验。 主要研究方向是:通过模型驱动分析了解超级计算机上不同工作负载的性能影响;新的智能多资源调度方法;最小工作负载干扰的智能资源分配策略;通过基于跟踪的模拟和测试对拟议框架进行广泛评估。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Generating Topic-Preserving Synthetic News
Hybrid Workload Scheduling on HPC Systems
HPC 系统上的混合工作负载调度
Domain Adaptive Fake News Detection via Reinforcement Learning
  • DOI:
    10.1145/3485447.3512258
  • 发表时间:
    2022-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ahmadreza Mosallanezhad;Mansooreh Karami;Kai Shu;M. Mancenido;Huan Liu
  • 通讯作者:
    Ahmadreza Mosallanezhad;Mansooreh Karami;Kai Shu;M. Mancenido;Huan Liu
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhiling Lan其他文献

Surrogate Modeling for HPC Application Iteration Times Forecasting with Network Features
具有网络特征的 HPC 应用程序迭代时间预测的代理建模
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiongxiao Xu;Kevin A. Brown;Tanwi Mallick;Xin Wang;Elkin Cruz;Robert B. Ross;Christopher D. Carothers;Zhiling Lan;Kai Shu
  • 通讯作者:
    Kai Shu
Application power profiling on IBM Blue Gene/Q
  • DOI:
    10.1016/j.parco.2016.05.015
  • 发表时间:
    2016-09-01
  • 期刊:
  • 影响因子:
  • 作者:
    Sean Wallace;Zhou Zhou;Venkatram Vishwanath;Susan Coghlan;John Tramm;Zhiling Lan;Michael E. Papka
  • 通讯作者:
    Michael E. Papka

Zhiling Lan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhiling Lan', 18)}}的其他基金

SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2413597
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: PPoSS: Planning: SEEr: A Scalable, Energy Efficient HPC Environment for AI-Enabled Science
合作研究:PPoSS:规划:SEEr:面向人工智能科学的可扩展、节能的 HPC 环境
  • 批准号:
    2119294
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CSR: Small: IRON: Reducing Workload Interference on Massively Parallel Platforms
CSR:小:IRON:减少大规模并行平台上的工作负载干扰
  • 批准号:
    1717763
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: Experimental-based Research on Effective Models of Parallel Application Execution Time, Power, and Resilience
SHF:小型:协作研究:基于实验的并行应用程序执行时间、功耗和弹性有效模型的研究
  • 批准号:
    1618776
  • 财政年份:
    2016
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: Toward Smart HPC through Active Learning and Intelligent Scheduling
SHF:CSR:小型:通过主动学习和智能调度迈向智能 HPC
  • 批准号:
    1422009
  • 财政年份:
    2014
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
  • 批准号:
    1320125
  • 财政年份:
    2013
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Towards Petascale Cosmological Simulations
合作研究:迈向千万亿次宇宙学模拟
  • 批准号:
    0904670
  • 财政年份:
    2009
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CSR-PSCE,SM: Recovery Aware Parallel Computing
CSR-PSCE,SM:恢复感知并行计算
  • 批准号:
    0834514
  • 财政年份:
    2008
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CSR/AES: Enhancing Application Robustness via Adaptive and Cooperative Methods
CSR/AES:通过自适应和协作方法增强应用程序的稳健性
  • 批准号:
    0720549
  • 财政年份:
    2007
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CPS: Small: Brain-Inspired Memorization and Attention for Intelligent Sensing
CPS:小:智能传感的受大脑启发的记忆和注意力
  • 批准号:
    2312517
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Intelligent Fault Injection to Expose and Reproduce Production-Grade Bugs in Cloud Systems
CNS 核心:小型:智能故障注入以暴露和重现云系统中的生产级错误
  • 批准号:
    2317698
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CC* Integration-Small: Network cyberinfrastructure innovation with an intelligent real-time traffic analysis framework and application-aware networking
CC* Integration-Small:网络基础设施创新,具有智能实时流量分析框架和应用感知网络
  • 批准号:
    2322369
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Intelligent Scientific Text Analytics with Knowledge-Augmented Abductive Reasoning
III:小:具有知识增强归纳推理的智能科学文本分析
  • 批准号:
    2234058
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CPS: Small: Informed Contextual Bandits to Support Decision-Making for Intelligent CPS
CPS:小型:知情上下文强盗支持智能 CPS 决策
  • 批准号:
    2225354
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Intelligent Small Unmanned Mobile Mapping Systems (i-SUMMS)
智能小型无人移动测绘系统(i-SUMMS)
  • 批准号:
    RGPIN-2020-06062
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Discovery Grants Program - Individual
Centre for Explainable Data Analytics (CEDA) for Developing Intelligent Systems for Small and Medium Sized Enterprises in Greater Toronto Area
可解释数据分析中心(CEDA)为大多伦多地区中小企业开发智能系统
  • 批准号:
    555944-2020
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    College and Community Innovation Program
CNS Core: Small: Intelligent Fault Injection to Expose and Reproduce Production-Grade Bugs in Cloud Systems
CNS 核心:小型:智能故障注入以暴露和重现云系统中的生产级错误
  • 批准号:
    2149664
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Centre for Explainable Data Analytics (CEDA) for Developing Intelligent Systems for Small and Medium Sized Enterprises in Greater Toronto Area
可解释数据分析中心(CEDA)为大多伦多地区中小企业开发智能系统
  • 批准号:
    555944-2020
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    College and Community Innovation Program
NSF-AoF: FET: Small: Ubiquitous in-sensor computing for adaptive intelligent systems
NSF-AoF:FET:小型:适用于自适应智能系统的无处不在的传感器内计算
  • 批准号:
    2133475
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了