CSR/AES: Enhancing Application Robustness via Adaptive and Cooperative Methods

CSR/AES:通过自适应和协作方法增强应用程序的稳健性

基本信息

  • 批准号:
    0720549
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2007
  • 资助国家:
    美国
  • 起止时间:
    2007-08-01 至 2011-07-31
  • 项目状态:
    已结题

项目摘要

As the scale of high performance computing continues to grow, application robustness becomes increasingly important. Checkpointing is the conventional method for fault tolerance. However, it only deals with failures after their occurrence through rollback. In case of one process failure, all processes including non-faulty processes have to be restarted from the previously saved state prior to the failure. Thus, significant performance loss can be incurred due to the work loss and failure recovery. Proactive approaches take preventive actions (e.g. preemptive process migration) before failures, thereby avoiding failures with low cost. Nevertheless, its effectiveness relies on perfect fault prediction, which is hardly achievable in practice. This project investigates a new approach called adaptive fault management by intelligently integrating proactive and reactive robustness techniques such that it will enable applications to avoid anticipated faults if possible, and in the case of unforeseeable faults, to tolerate these faults in such a way that their impact is kept to a minimum. The project consists of three major components: (1) cooperative anomaly diagnosis (CAD) to improve fault prediction in large-scale systems by developing meta-learning methods; (2) adaptive control manager (ACM) to allow runtime decision making in response to imperfect fault prediction; and (3) integrated runtime support (IRS) to enable cost-effective coordination of fault handing techniques at runtime. The resulting framework will enhance robustness of high performance computing applications by improving their performance in the presence of failures. This project also enhances the systems-area curriculum at Illinois Institute of Technology and helps train the future-generation scientific computing workforce.
随着高性能计算规模的不断增长,应用程序的健壮性变得越来越重要。检查点是容错的常规方法。但是,它只在故障发生后通过回滚处理故障。在一个进程失败的情况下,包括非故障进程在内的所有进程都必须从故障之前的先前保存状态重新启动。因此,由于工作损失和故障恢复,可能会导致显著的性能损失。主动方法在故障发生前采取预防措施(例如,先发制人的流程迁移),从而以低成本避免故障。然而,它的有效性依赖于完美的故障预测,这在实践中很难实现。该项目研究了一种称为自适应故障管理的新方法,通过智能地集成主动和被动鲁棒性技术,使应用程序能够在可能的情况下避免预期的故障,并且在不可预见的故障的情况下,以这种方式容忍这些故障,使其影响保持在最小。该项目包括三个主要组成部分:(1)协同异常诊断(CAD),通过开发元学习方法来改进大规模系统的故障预测;(2)自适应控制管理器(ACM),允许在不完全故障预测下进行运行时决策;(3)集成运行时支持(IRS),以实现运行时故障处理技术的经济高效协调。由此产生的框架将通过改进故障情况下的性能来增强高性能计算应用程序的健壮性。该项目还加强了伊利诺伊理工学院系统领域的课程,并有助于培养下一代科学计算人才。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhiling Lan其他文献

Surrogate Modeling for HPC Application Iteration Times Forecasting with Network Features
具有网络特征的 HPC 应用程序迭代时间预测的代理建模
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiongxiao Xu;Kevin A. Brown;Tanwi Mallick;Xin Wang;Elkin Cruz;Robert B. Ross;Christopher D. Carothers;Zhiling Lan;Kai Shu
  • 通讯作者:
    Kai Shu
Application power profiling on IBM Blue Gene/Q
  • DOI:
    10.1016/j.parco.2016.05.015
  • 发表时间:
    2016-09-01
  • 期刊:
  • 影响因子:
  • 作者:
    Sean Wallace;Zhou Zhou;Venkatram Vishwanath;Susan Coghlan;John Tramm;Zhiling Lan;Michael E. Papka
  • 通讯作者:
    Michael E. Papka

Zhiling Lan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhiling Lan', 18)}}的其他基金

SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2413597
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Collaborative Research: PPoSS: Planning: SEEr: A Scalable, Energy Efficient HPC Environment for AI-Enabled Science
合作研究:PPoSS:规划:SEEr:面向人工智能科学的可扩展、节能的 HPC 环境
  • 批准号:
    2119294
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
SHF:Small:Intelligent Management of Hybrid Workloads for Extreme Scale Computing
SHF:Small:超大规模计算混合工作负载的智能管理
  • 批准号:
    2109316
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
CSR: Small: IRON: Reducing Workload Interference on Massively Parallel Platforms
CSR:小:IRON:减少大规模并行平台上的工作负载干扰
  • 批准号:
    1717763
  • 财政年份:
    2017
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: Experimental-based Research on Effective Models of Parallel Application Execution Time, Power, and Resilience
SHF:小型:协作研究:基于实验的并行应用程序执行时间、功耗和弹性有效模型的研究
  • 批准号:
    1618776
  • 财政年份:
    2016
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
SHF: CSR: Small: Toward Smart HPC through Active Learning and Intelligent Scheduling
SHF:CSR:小型:通过主动学习和智能调度迈向智能 HPC
  • 批准号:
    1422009
  • 财政年份:
    2014
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
  • 批准号:
    1320125
  • 财政年份:
    2013
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Collaborative Research: Towards Petascale Cosmological Simulations
合作研究:迈向千万亿次宇宙学模拟
  • 批准号:
    0904670
  • 财政年份:
    2009
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
CSR-PSCE,SM: Recovery Aware Parallel Computing
CSR-PSCE,SM:恢复感知并行计算
  • 批准号:
    0834514
  • 财政年份:
    2008
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant

相似国自然基金

CK1δ/ε介导的AES的降解调控结直肠癌转移和干性的机制研究
  • 批准号:
    31870754
  • 批准年份:
    2018
  • 资助金额:
    59.0 万元
  • 项目类别:
    面上项目
面向AES密钥扩展的抗功耗攻击掩码技术研究
  • 批准号:
    61602239
  • 批准年份:
    2016
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
具有自主产权的安诚嵌入式处理器上支持AES及GF(2^n)运算的指令扩展结构研究
  • 批准号:
    61373141
  • 批准年份:
    2013
  • 资助金额:
    79.0 万元
  • 项目类别:
    面上项目
肝癌AES治疗体系中新型人源化双特异性抗体的研制
  • 批准号:
    30200330
  • 批准年份:
    2002
  • 资助金额:
    19.0 万元
  • 项目类别:
    青年科学基金项目
AES、SH3BGR和calpain相关新信号通路及与心肌重塑关系的研究
  • 批准号:
    30200106
  • 批准年份:
    2002
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
单个成矿流体包裹体元素组成的LA-ICP-MS-AES研究
  • 批准号:
    49973026
  • 批准年份:
    1999
  • 资助金额:
    20.0 万元
  • 项目类别:
    面上项目
加权增量卡尔曼滤波在ICP-AES中的应用
  • 批准号:
    29475187
  • 批准年份:
    1994
  • 资助金额:
    5.5 万元
  • 项目类别:
    面上项目
ICP-AES数字化谱信息的智能化处理
  • 批准号:
    29275210
  • 批准年份:
    1992
  • 资助金额:
    4.0 万元
  • 项目类别:
    面上项目
ICPAS 联用和联机技术及GD作为AES 及MS离子源的应用及
  • 批准号:
    29235112
  • 批准年份:
    1992
  • 资助金额:
    18.0 万元
  • 项目类别:
    重点项目
ICP-AES中的一种新型光谱干扰校正方法的研究
  • 批准号:
    28870228
  • 批准年份:
    1988
  • 资助金额:
    4.0 万元
  • 项目类别:
    面上项目

相似海外基金

Laser Ablation ICP Atomic Emission Spectrometry (LA-ICP-AES) for in situ microanalysis
用于原位微量分析的激光烧蚀 ICP 原子发射光谱法 (LA-ICP-AES)
  • 批准号:
    464364655
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Major Research Instrumentation
Urgent replacement of an ICP-AES for the measurement of trace metals in environmental samples
紧急更换 ICP-AES 来测量环境样品中的痕量金属
  • 批准号:
    RTI-2022-00119
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Research Tools and Instruments
FDA LFFM: Discipline-Chemistry - Analytical Track- Animal Food Product Testing at CT AES
FDA LFFM:学科化学 - 分析跟踪 - CT AES 动物食品产品测试
  • 批准号:
    10445924
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
FDA LFFM: Discipline-Chemistry - Analytical Track- Food Defense at CT AES
FDA LFFM:CT AES 的学科化学 - 分析跟踪 - 食品防护
  • 批准号:
    10170737
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
FDA LFFM: Discipline-Chemistry - Analytical Track- Animal Food Product Testing at CT AES
FDA LFFM:学科化学 - 分析跟踪 - CT AES 动物食品产品测试
  • 批准号:
    10170739
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
FDA LFFM: Discipline-Chemistry - Analytical Track- Human Food Product Testing at CT AES
FDA LFFM:学科化学 - 分析跟踪 - CT AES 的人类食品测试
  • 批准号:
    10170738
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
FDA LFFM: Discipline-Special Projects Analytical Track-Sample Collection at CT AES
FDA LFFM:CT AES 学科特殊项目分析跟踪样本收集
  • 批准号:
    10417779
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
FDA LFFM: Discipline- Special Projects - Analytical Track-NFSDX Integration or ORAPP Adoption at CT AES
FDA LFFM:学科 - 特别项目 - 分析跟踪 - NFSDX 集成或 CT AES 采用 ORAPP
  • 批准号:
    10170742
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
FDA LFFM: Discipline-Special Projects Analytical Track-Method Development and Method Validation at CT AES
FDA LFFM:CT AES 的学科特殊项目分析跟踪方法开发和方法验证
  • 批准号:
    10170743
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
FDA LFFM: Discipline-Special Projects Analytical Track-Sample Collection at CT AES
FDA LFFM:CT AES 学科特殊项目分析跟踪样本收集
  • 批准号:
    10170741
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了