SHF: Small: Program Analysis-based Makeover for HPC Application Resilience

SHF:小型:基于程序分析的 HPC 应用程序弹性改造

基本信息

项目摘要

HPC resilience in the presence of increased system failures is a major technical hurdle for realizing the vision of the US National Research Council for conducting exascale science. Existing techniques, based primarily on checkpoint and replay, are no longer effective for emerging systems with orders-of-magnitude more hardware and software components. This project aims to overcome the main limitation of existing techniques: the detection and mitigation of silent errors by developing and leveraging automated software analysis and synthesis techniques.The new methods under development can compile a tunable degree of resilience into the application software code, and have potential to transform the development of future generations of HPC applications. By treating the software code as white-boxes, as opposed to black-boxes, these new methods can provide significantly more economical solutions to the HPC resilience problem compared to existing techniques. The project will help realize the US NRC's vision of conducting exascale science, which is crucial for addressing the nation?s urgent needs in frontiers such as new energy, health care, and national security.This project develops automated program analysis techniques for identifying invariants from software code, and leveraging these invariants to detect and mitigate silent errors at run time. By treating the application software code as white-boxes, it seeks to generate invariants that capture the expected program behavior. By leveraging the invariants as correctness conditions, it overcomes the major hurdle in detecting silent errors, which is the lack of visible symptoms. In addition to detecting errors, the invariants are also used by runtime monitors to intelligently perturb the execution order or memory state to proactively avoid failures at run time. When the rollback recovery becomes inevitable, the invariants are used as guidance to minimize the re-execution overhead.The proposed methods and software tools are evaluated on real applications from the research community as well as sources such as SciDAC.
在系统故障增加的情况下,HPC的恢复能力是实现美国国家研究理事会进行艾级科学的愿景的主要技术障碍。现有的技术,主要是基于检查点和重放,不再是有效的新兴系统的数量级更多的硬件和软件组件。该项目旨在克服现有技术的主要局限性:通过开发和利用自动化软件分析和综合技术来检测和减轻无声错误。正在开发的新方法可以将可调程度的弹性编译到应用程序软件代码中,并有可能改变未来几代HPC应用程序的开发。通过将软件代码视为白盒而不是黑盒,与现有技术相比,这些新方法可以为HPC弹性问题提供更经济的解决方案。该项目将有助于实现美国核管理委员会的愿景,进行艾级科学,这是至关重要的解决国家?该项目开发了自动化程序分析技术,用于从软件代码中识别不变量,并利用这些不变量来检测和减轻运行时的无声错误。通过将应用软件代码视为白盒,它试图生成捕获预期程序行为的不变量。通过利用不变量作为正确性条件,它克服了检测无声错误的主要障碍,即缺乏可见的症状。除了检测错误之外,运行时监视器还使用不变量来智能地扰乱执行顺序或内存状态,以主动避免运行时的故障。当回滚恢复成为不可避免的,不变量被用来作为指导,以尽量减少重新执行overhead.The建议的方法和软件工具进行评估真实的应用程序从研究社区以及来源,如SciDAC。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Chao Wang其他文献

Ground Behaviors Analysis of a Stope Covered by the Thin Bedrock and Large-Thick Alluvium: A Case Study
薄基岩和大厚冲积层覆盖采场的地层行为分析:案例研究
  • DOI:
    10.1155/2022/4759416
  • 发表时间:
    2022-02
  • 期刊:
  • 影响因子:
    1.6
  • 作者:
    Xiaoping Li;Guangchao Zhang;Guangzhe Tao;Chao Wang;Huaixuan Cao;Xipo Zhao;Xianyang Yan;Shibao Shen;Guanglei Zhou
  • 通讯作者:
    Guanglei Zhou
QCD calculations of radiative heavy meson decays with subleading power corrections
辐射重介子衰变的 QCD 计算与次超导功率修正
  • DOI:
    10.1007/jhep04(2020)023
  • 发表时间:
    2020-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hua-Dong Li;Cai-Dian Lu ̈;Chao Wang;Yu-Ming Wang;Yan-Bing Wei
  • 通讯作者:
    Yan-Bing Wei
Hardware Accelerator Design of Non-linear Optimization Correlative Scan Matching Algorithm in 2D LiDAR SLAM for Mobile Robots
移动机器人2D LiDAR SLAM中非线性优化相关扫描匹配算法的硬件加速器设计
Out-of-plane dimeric MnIII quadridentate Schiff-base complexes: Synthesis, structure and magnetic properties
面外二聚 MnIII 四齿席夫碱配合物:合成、结构和磁性
  • DOI:
    10.1016/j.ica.2009.03.048
  • 发表时间:
    2009-08
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ya-Fan Zhao;Chao Wang;Qing-Lun Wang;Yu-Hua Feng;Daizheng Liao;Jun Li;Shi-Ping Yan
  • 通讯作者:
    Shi-Ping Yan
A novel earthworm-inspired smart lubrication material with self-healing function
具有自愈功能的新型蚯蚓智能润滑材料
  • DOI:
    10.1016/j.triboint.2021.107303
  • 发表时间:
    2021-10
  • 期刊:
  • 影响因子:
    6.2
  • 作者:
    Hongwei Ruan;Yaoming Zhang;Qihua Wang;Chao Wang;Tingmei Wang
  • 通讯作者:
    Tingmei Wang

Chao Wang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Chao Wang', 18)}}的其他基金

Collaborative Research: FW-HTF-R: Wearable Safety Sensing and Assistive Robot-Worker Collaboration for an Augmented Workforce in Construction
合作研究:FW-HTF-R:可穿戴安全传感和辅助机器人工人协作,增强建筑劳动力
  • 批准号:
    2222881
  • 财政年份:
    2022
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
Collaborative Research: FMitF: Track I: A Principled Approach to Modeling and Analysis of Hardware Fault Attacks on Embedded Software
合作研究:FMitF:第一轨:嵌入式软件硬件故障攻击建模和分析的原则方法
  • 批准号:
    2220345
  • 财政年份:
    2022
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
NSF-BSF: Synchronous electro-optical DNA detection using low-noise dielectric nanopores on sapphire
NSF-BSF:使用蓝宝石上的低噪声介电纳米孔进行同步电光 DNA 检测
  • 批准号:
    2020464
  • 财政年份:
    2020
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
FW-HTF-P: Collaborative Research: Wearable Safety and Health Assistive Robot Collaboration for Skilled Construction Workers
FW-HTF-P:合作研究:为熟练建筑工人提供可穿戴安全与健康辅助机器人协作
  • 批准号:
    2026575
  • 财政年份:
    2020
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
Photochemically Induced, Polymer-Assisted Deposition for 3D Printing of Micrometer-Wide and Nanometer-Thin Silver Structures
用于微米宽和纳米薄银结构 3D 打印的光化学诱导聚合物辅助沉积
  • 批准号:
    1947753
  • 财政年份:
    2020
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
CAREER: Integrated Optofluidic Chips towards Label-Free Detection of Exosomal MicroRNA Biomarkers
职业:集成光流控芯片实现外泌体 MicroRNA 生物标志物的无标记检测
  • 批准号:
    1847324
  • 财政年份:
    2019
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
Low-Profile Ultra-Wideband Wide-Scanning Multi-Function Beam-Steerable Array Antennas
薄型超宽带宽扫描多功能波束可控阵​​列天线
  • 批准号:
    EP/S005625/1
  • 财政年份:
    2019
  • 资助金额:
    $ 42万
  • 项目类别:
    Research Grant
Enhancing CO2 Reduction by Controlling the Ensemble of Active Sites
通过控制活动站点的整体来加强二氧化碳减排
  • 批准号:
    1930013
  • 财政年份:
    2019
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
Interplay of Mass Transport and Chemical Kinetics in the Electroreduction CO2
电还原 CO2 中传质与化学动力学的相互作用
  • 批准号:
    1803482
  • 财政年份:
    2018
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research: Safety Guard: A Formal Approach to Safety Enforcement in Embedded Control Systems
CSR:小型:协作研究:安全卫士:嵌入式控制系统中安全执行的正式方法
  • 批准号:
    1813117
  • 财政年份:
    2018
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

SHF: Small: Practical Dynamic Program Reasoning Across Language Boundaries
SHF:小:跨语言边界的实用动态程序推理
  • 批准号:
    2146233
  • 财政年份:
    2022
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
SHF: Small: Tackling Mapping and Scheduling Problems for Quantum Program Compilation
SHF:小型:解决量子程序编译的映射和调度问题
  • 批准号:
    2129872
  • 财政年份:
    2021
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
SHF: Small: Program Analysis for Dependable Clustering
SHF:小型:可靠集群的程序分析
  • 批准号:
    2007730
  • 财政年份:
    2020
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
SHF: SMALL: Automated Discovery of Cross-Language Program Behavior Inconsistency
SHF:SMALL:跨语言程序行为不一致的自动发现
  • 批准号:
    2006947
  • 财政年份:
    2020
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
SHF: Small: AI Model Debugging by Analyzing Model Internals with Python Program Analysis
SHF:小:通过 Python 程序分析分析模型内部结构进行 AI 模型调试
  • 批准号:
    1910300
  • 财政年份:
    2019
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
SHF: Small: Program Analysis for Data Science
SHF:小型:数据科学程序分析
  • 批准号:
    1910850
  • 财政年份:
    2019
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
SHF: Small: Measurable Program Analysis
SHF:小型:可衡量的计划分析
  • 批准号:
    1901769
  • 财政年份:
    2018
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
SHF: Small: Collaborative Research: Resource-Guided Program Synthesis
SHF:小型:协作研究:资源引导程序综合
  • 批准号:
    1814358
  • 财政年份:
    2018
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
SHF: Small: The Whole Program Critical Path Approach to Parallelism
SHF:小:整个程序的并行关键路径方法
  • 批准号:
    1814654
  • 财政年份:
    2018
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
SHF: Small: Scalable Program Synthesis using Counterexample-Guided Abstraction Refinement
SHF:小型:使用反例引导的抽象细化的可扩展程序综合
  • 批准号:
    1811865
  • 财政年份:
    2018
  • 资助金额:
    $ 42万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了