SHF: Small: RESYST: Resilience via Synergistic Redundancy and Fault Tolerance for High-End Computing

SHF:小型:RESYST:通过协同冗余和容错实现高端计算的弹性

基本信息

  • 批准号:
    1058779
  • 负责人:
  • 金额:
    $ 37.62万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2010
  • 资助国家:
    美国
  • 起止时间:
    2010-10-01 至 2016-09-30
  • 项目状态:
    已结题

项目摘要

In High-End Computing (HEC), faults have become the norm rather than the exception for parallel computation on clusters with 10s/100s of thousands of cores. As the core count increases, so does the overhead for fault-tolerant techniques relying on checkpoint/restart(C/R) mechanisms. At 50% overheads, redundancy is a viable alternative to fault recovery and actually scales, which makes the approach attractive for HEC.The objective of this work to the develop a synergistic approach by combining C/R-based fault tolerance with redundancy in HEC installations to achieve high levels of resilience.This work alleviates scalability limitations of current fault tolerant practices. It contributes to fault modeling as well as fault detection and recovery in significantly advancing existing techniques by controlling levels of redundancy and checkpointing intervals in the presence of faults. It is transformative in providing a model where users select a target failure probability at the price of using additional resources.
在高端计算(HEC)中,在几十万核的集群上进行并行计算,故障已经成为常态,而不是例外。随着核心数量的增加,依赖于检查点/重启(C/R)机制的容错技术的开销也在增加。在50%的开销下,冗余是故障恢复的可行替代方案,而且实际上是可扩展的,这使得该方法对HEC具有吸引力。这项工作的目标是通过将基于C/ r的容错与HEC安装中的冗余相结合,开发一种协同方法,以实现高水平的弹性。这项工作减轻了当前容错实践的可伸缩性限制。它有助于故障建模以及故障检测和恢复,通过在故障存在时控制冗余级别和检查点间隔,大大改进了现有技术。它具有变革性,因为它提供了一个模型,用户可以在使用额外资源的代价下选择目标故障概率。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Frank Mueller其他文献

C OPYRIGHTS AND C REATIVITY E VIDENCE FROM I TALIAN O PERA IN THE N APOLEONIC A GE *
拿破仑时代意大利歌剧院的版权和创造力证据*
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    B. Depoorter;Stephan Heblich;Sarah Kaplan;Frank Mueller;D. O’Reagan;F. Velde;Joel Waldfogel
  • 通讯作者:
    Joel Waldfogel
Parallel Trade and its Ambiguous Effects on Global Welfare
平行贸易及其对全球福利的模糊影响
  • DOI:
    10.1111/j.1467-9396.2011.01016.x
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Frank Mueller
  • 通讯作者:
    Frank Mueller
Trade, Competition and Welfare in Global Online Labour Markets: A 'Gig Economy' Case Study
全球在线劳动力市场的贸易、竞争和福利:“零工经济”案例研究
  • DOI:
    10.2139/ssrn.3090929
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Estrella Gomez;B. Martens;Frank Mueller
  • 通讯作者:
    Frank Mueller
Does Data Disclosure Increase Citations? Empirical Evidence from a Natural Experiment in Leading Economics Journals
数据披露会增加引用吗?
Making DRAM refresh predictable
  • DOI:
    10.1007/s11241-011-9129-6
  • 发表时间:
    2011-05-12
  • 期刊:
  • 影响因子:
    1.300
  • 作者:
    Balasubramanya Bhat;Frank Mueller
  • 通讯作者:
    Frank Mueller

Frank Mueller的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Frank Mueller', 18)}}的其他基金

Collaborative Research: PPoSS: Planning: Cross-layer Coordination and Optimization for Scalable and Sparse Tensor Networks (CROSS)
合作研究:PPoSS:规划:可扩展和稀疏张量网络的跨层协调和优化(CROSS)
  • 批准号:
    2217020
  • 财政年份:
    2022
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
EAGER: Curricula Development of a Quantum Programming Class with Hardware Access
EAGER:具有硬件访问功能的量子编程课程的课程开发
  • 批准号:
    1917383
  • 财政年份:
    2019
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
SaTC: CORE: Small: Enhanced Security and Reliability for Embedded Control Systems
SaTC:CORE:小型:增强嵌入式控制系统的安全性和可靠性
  • 批准号:
    1813004
  • 财政年份:
    2018
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
Student Travel Grant for RTSS'17 Ph.D. Student Poster Forum on Real-Time Aspects of Internet of Things and Cyber-Physical Systems
RTSS17 博士学生旅费补助金
  • 批准号:
    1744221
  • 财政年份:
    2017
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
CPS: Breakthrough: Collaborative Research: Bringing the Multicore Revolution to Safety-Critical Cyber-Physical Systems
CPS:突破:协作研究:为安全关键的网络物理系统带来多核革命
  • 批准号:
    1239246
  • 财政年份:
    2013
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
SHF: Small: Scalable Trace-Based Tools for In-Situ Data Analysis of HPC Applications (ScalaJack)
SHF:小型:用于 HPC 应用程序现场数据分析的可扩展的基于跟踪的工具 (ScalaJack)
  • 批准号:
    1217748
  • 财政年份:
    2012
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
II-NEW: ARC: A Root Cluster for Research into Scalable Computer Systems
II-新:ARC:用于研究可扩展计算机系统的根集群
  • 批准号:
    0958311
  • 财政年份:
    2010
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
CSR: Medium: Collaborative Research: Providing Predictable Timing for Task Migration in Embedded Multi-Core Environments (TiME-ME)
CSR:中:协作研究:为嵌入式多核环境中的任务迁移提供可预测的时序 (TiME-ME)
  • 批准号:
    0905181
  • 财政年份:
    2009
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Continuing Grant
CSR--EHS: Collaborative Research: Hybrid Timing Analysis via Multi-Mode Execution
CSR--EHS:协作研究:通过多模式执行进行混合时序分析
  • 批准号:
    0720496
  • 财政年份:
    2007
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
Collaborative Research: Effective Detection and Alleviation of Scalability Problems
协作研究:有效检测和缓解可扩展性问题
  • 批准号:
    0429653
  • 财政年份:
    2004
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Powering Small Craft with a Novel Ammonia Engine
用新型氨发动机为小型船只提供动力
  • 批准号:
    10099896
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Collaborative R&D
"Small performances": investigating the typographic punches of John Baskerville (1707-75) through heritage science and practice-based research
“小型表演”:通过遗产科学和基于实践的研究调查约翰·巴斯克维尔(1707-75)的印刷拳头
  • 批准号:
    AH/X011747/1
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Research Grant
Fragment to small molecule hit discovery targeting Mycobacterium tuberculosis FtsZ
针对结核分枝杆菌 FtsZ 的小分子片段发现
  • 批准号:
    MR/Z503757/1
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Research Grant
Bacteriophage control of host cell DNA transactions by small ORF proteins
噬菌体通过小 ORF 蛋白控制宿主细胞 DNA 交易
  • 批准号:
    BB/Y004426/1
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Research Grant
Windows for the Small-Sized Telescope (SST) Cameras of the Cherenkov Telescope Array (CTA)
切伦科夫望远镜阵列 (CTA) 小型望远镜 (SST) 相机的窗口
  • 批准号:
    ST/Z000017/1
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Research Grant
CSR: Small: Leveraging Physical Side-Channels for Good
CSR:小:利用物理侧通道做好事
  • 批准号:
    2312089
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
CSR: Small: Multi-FPGA System for Real-time Fraud Detection with Large-scale Dynamic Graphs
CSR:小型:利用大规模动态图进行实时欺诈检测的多 FPGA 系统
  • 批准号:
    2317251
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
AF: Small: Problems in Algorithmic Game Theory for Online Markets
AF:小:在线市场的算法博弈论问题
  • 批准号:
    2332922
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
Collaborative Research: FET: Small: Algorithmic Self-Assembly with Crisscross Slats
合作研究:FET:小型:十字交叉板条的算法自组装
  • 批准号:
    2329908
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
NeTS: Small: ML-Driven Online Traffic Analysis at Multi-Terabit Line Rates
NeTS:小型:ML 驱动的多太比特线路速率在线流量分析
  • 批准号:
    2331111
  • 财政年份:
    2024
  • 资助金额:
    $ 37.62万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了