SHF: CSR: Small: Toward Smart HPC through Active Learning and Intelligent Scheduling

SHF:CSR:小型:通过主动学习和智能调度迈向智能 HPC

基本信息

  • 批准号:
    1422009
  • 负责人:
  • 金额:
    $ 49.88万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-08-15 至 2019-07-31
  • 项目状态:
    已结题

项目摘要

As high performance computing (HPC) continues to grow in scale, energy and resilience become first-class concerns, in addition to the pursuit of performance. These concerns demand significant changes in many aspects of the system stack including resource management and job scheduling. In order to harness the great potential of extreme scale systems, this project aims to incorporate intelligence into resource management and job scheduling. More specifically, it will develop a framework named SPEaR (Scheduling for Performance, Energy, and Resilience efficiency) for dynamically optimizing the three-dimensional performance, energy, and resilience scheduling. The research focuses on two thrusts: one is active learning to automatically extract valuable performance, energy, and resilience patterns and tradeoffs out of application and system data, and the other is intelligent scheduling to improve and control performance, resilience, and energy efficiency in resource management and scheduling. An event-driven scheduling simulator is being developed for comprehensively evaluating scheduling policies and their aggregate effects. The simulator, along with system logs, will be made available to the broad community under an open source license. This project creates critical technologies to promote system productivity and makes important advances essential toward smart HPC. Additionally, the learning techniques developed in this project are useful to other big data problems of national interests. The education plan enhances the undergraduate and graduate curricula and broadens the participation from underrepresented groups.
随着高性能计算(HPC)的规模不断扩大,除了追求性能外,能源和弹性也成为首要问题。这些问题需要在系统堆栈的许多方面进行重大更改,包括资源管理和作业调度。为了利用极端规模系统的巨大潜力,该项目旨在将智能纳入资源管理和作业调度。更具体地说,它将开发一个名为SPEaR(性能,能量和弹性效率调度)的框架,用于动态优化三维性能,能量和弹性调度。该研究集中在两个方面:一是主动学习,以自动提取有价值的性能,能量和弹性模式以及应用程序和系统数据的权衡,另一个是智能调度,以提高和控制资源管理和调度中的性能,弹性和能源效率。一个事件驱动的调度模拟器正在开发的综合评估调度策略和它们的聚合效果。该模拟器,沿着系统日志,将在开源许可证下提供给广大社区。该项目创造了关键技术来提高系统生产力,并为智能HPC带来了重要的进步。此外,该项目中开发的学习技术对国家利益的其他大数据问题也很有用。教育计划加强了本科生和研究生课程,扩大了代表性不足群体的参与。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Modeling and Analysis of Application Interference on Dragonfly+
Dragonfly应用干扰建模与分析
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kang, Yao;Wang, Xin;McGlohon, Neil;Mubarak, Misbah;Chunduri, Sudheer;Lan, Zhiling
  • 通讯作者:
    Lan, Zhiling
The Effect of System Utilization on Application Performance Variability
系统利用率对应用程序性能变化的影响
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Li, Boyang;Chunduri, Sudheer;Harms, Kevin;Fan, Yuping;Lan, Zhiling
  • 通讯作者:
    Lan, Zhiling
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhiling Lan其他文献

Surrogate Modeling for HPC Application Iteration Times Forecasting with Network Features
具有网络特征的 HPC 应用程序迭代时间预测的代理建模
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiongxiao Xu;Kevin A. Brown;Tanwi Mallick;Xin Wang;Elkin Cruz;Robert B. Ross;Christopher D. Carothers;Zhiling Lan;Kai Shu
  • 通讯作者:
    Kai Shu
Application power profiling on IBM Blue Gene/Q
  • DOI:
    10.1016/j.parco.2016.05.015
  • 发表时间:
    2016-09-01
  • 期刊:
  • 影响因子:
  • 作者:
    Sean Wallace;Zhou Zhou;Venkatram Vishwanath;Susan Coghlan;John Tramm;Zhiling Lan;Michael E. Papka
  • 通讯作者:
    Michael E. Papka

Zhiling Lan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhiling Lan', 18)}}的其他基金

SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2413597
  • 财政年份:
    2023
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
Collaborative Research: PPoSS: Planning: SEEr: A Scalable, Energy Efficient HPC Environment for AI-Enabled Science
合作研究:PPoSS:规划:SEEr:面向人工智能科学的可扩展、节能的 HPC 环境
  • 批准号:
    2119294
  • 财政年份:
    2021
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2109316
  • 财政年份:
    2021
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
CSR: Small: IRON: Reducing Workload Interference on Massively Parallel Platforms
CSR:小:IRON:减少大规模并行平台上的工作负载干扰
  • 批准号:
    1717763
  • 财政年份:
    2017
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: Experimental-based Research on Effective Models of Parallel Application Execution Time, Power, and Resilience
SHF:小型:协作研究:基于实验的并行应用程序执行时间、功耗和弹性有效模型的研究
  • 批准号:
    1618776
  • 财政年份:
    2016
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
  • 批准号:
    1320125
  • 财政年份:
    2013
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
Collaborative Research: Towards Petascale Cosmological Simulations
合作研究:迈向千万亿次宇宙学模拟
  • 批准号:
    0904670
  • 财政年份:
    2009
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
CSR-PSCE,SM: Recovery Aware Parallel Computing
CSR-PSCE,SM:恢复感知并行计算
  • 批准号:
    0834514
  • 财政年份:
    2008
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Continuing Grant
CSR/AES: Enhancing Application Robustness via Adaptive and Cooperative Methods
CSR/AES:通过自适应和协作方法增强应用程序的稳健性
  • 批准号:
    0720549
  • 财政年份:
    2007
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant

相似国自然基金

基于经筋理论的筋针与整脊联合疗法治疗 CSR疼痛的临床应用研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
RAC2(G15D)突变参与B细胞 Ig-CSR过程的分子机制研究
  • 批准号:
    2025JJ80630
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于CRISPR/CasRx调控CSR1基因表达预防氨基糖甙类耳毒性聋研究
  • 批准号:
    2024Y9183
  • 批准年份:
    2024
  • 资助金额:
    25.0 万元
  • 项目类别:
    省市级项目
基于Piezo机械敏感通道探讨奉伸松调法调控颈肌细胞自噬与DRG痛觉感受神经元可塑性治疗CSR的作用机制
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0 万元
  • 项目类别:
    地区科学基金项目
准社会互动视角下CSR数字化沟通对品牌绩效的差异化影响、机制与管理对策
  • 批准号:
    72362008
  • 批准年份:
    2023
  • 资助金额:
    28 万元
  • 项目类别:
    地区科学基金项目
善行得善果?后疫情时代嵌入式和边缘式CSR对员工幸福感的跨层影响研究
  • 批准号:
    72102183
  • 批准年份:
    2021
  • 资助金额:
    24.00 万元
  • 项目类别:
    青年科学基金项目
善行得善果?后疫情时代嵌入式和边缘式CSR对员工幸福感的跨层影响研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
基于脊髓突触可塑性探讨“调气”电针远端腧穴干预CSR模型大鼠的中枢镇痛效应及机制研究
  • 批准号:
    82160934
  • 批准年份:
    2021
  • 资助金额:
    34 万元
  • 项目类别:
    地区科学基金项目
利用输运模型和机器学习方法研究CSR能区的低温高密核物质
  • 批准号:
    U2032145
  • 批准年份:
    2020
  • 资助金额:
    50.0 万元
  • 项目类别:
    联合基金项目
PPR家族蛋白CSR3调控拟南芥叶绿体RNA剪接的分子机理
  • 批准号:
    32000184
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

SHF: CSR: Small: CAD for THz lateral SiGe HBT on SOI to address Amdahl's Law
SHF:CSR:小型:SOI 上太赫兹横向 SiGe HBT 的 CAD,以解决阿姆达尔定律
  • 批准号:
    1618143
  • 财政年份:
    2016
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
CSR: SHF: Small: Programming Language, Runtime System, and Architecture Support for Reliability in Intermittent, Energy-Harvesting Computing Devices
CSR:SHF:小型:间歇性能量收集计算设备可靠性的编程语言、运行时系统和架构支持
  • 批准号:
    1526342
  • 财政年份:
    2015
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
  • 批准号:
    1320125
  • 财政年份:
    2013
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
CSR: SHF: SMALL: Efficient, Low-Latency Networked Storage
CSR:SHF:小型:高效、低延迟的网络存储
  • 批准号:
    1320071
  • 财政年份:
    2013
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: Collaborative Research: Automated Model Synthesis of Library and System Functions for Program-Environment Co-Analysis
SHF:CSR:小型:协作研究:用于程序-环境协同分析的库和系统功能的自动模型合成
  • 批准号:
    1218358
  • 财政年份:
    2012
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: Collaborative Research: Automated Model Synthesis of Library and System Functions for Program-Environment Co-Analysis
SHF:CSR:小型:协作研究:用于程序-环境协同分析的库和系统功能的自动模型合成
  • 批准号:
    1218993
  • 财政年份:
    2012
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: Fine-Grained Modularity and Reuse of VM Components
SHF:CSR:小型:VM 组件的细粒度模块化和重用
  • 批准号:
    1117162
  • 财政年份:
    2011
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: Automated Refactoring Techniques for Efficient and Reliable Distributed Execution
SHF:CSR:小型:用于高效可靠的分布式执行的自动重构技术
  • 批准号:
    1116565
  • 财政年份:
    2011
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
CSR: SHF: Small: Propagator-Based Computing, A Programming Foundation for Decentralized Systems
CSR:SHF:小型:基于传播器的计算,去中心化系统的编程基础
  • 批准号:
    1116294
  • 财政年份:
    2011
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: Integrated Design and Verification of High-Confidence Interactive Systems
SHF:CSR:小型:高置信度交互系统集成设计与验证
  • 批准号:
    1116993
  • 财政年份:
    2011
  • 资助金额:
    $ 49.88万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了