エクサスケールスーパーコンピューティングに向けたスケーラブルな耐故障技術

用于百亿亿级超级计算的可扩展容错技术

基本信息

项目摘要

大規模なアプリケーションでは高性能なスーパーコンピュータを利用した場合においても実行時間が非常に長く、アプリケーション実行中にハードウェア障害が起こる可能性を考慮する必要がある。この対策として実行中のアプリケーションイメージを定期的に集中型ストレージへ保存し、障害発生時には保存したイメージからアプリケーションの実行を再開するチェックポイント・リスタート技術が重要である。しかし、集中型ストレージとのI/Oのバンド幅性能が律速となっているためアプリケーションの大規模化によるチェックポイントの保存に費やす時間の増加が問題となっており、今日のスーパーコンピュータにおいて25%、さらに将来のスーパーコンピュータにおいては50%程度に増加することが予測されている。ディスクレスチェックポイントはスケーラブルな各計算ノード上の記憶領域にチェックポイントイメージを分散して持たせることによって従来のストレージI/Oコストによる律速の問題を解決する技術である。ディスクレスチェックポイントを拡張し、より高信頼かつ高効率なチェックポイント技術を提案しその評価を行った。提案チェックポイントでは実行環境のトポロジーに適したチェックポイント符号化グループを構成することでチェックポイントコストの削減し、またリードソロモン符号化アルゴリズムに基づき、さらに耐故障のためのスレッドを活用することで符号化オーバヘッドを隠蔽する超低オーバヘッドの耐故障インターフェイス(FTI)を開発した。FTIライブラリを地震波シミュレーションコードSPECFEM3Dに適用した結果、TSUBAME2.0の1000GPU規模の実行において6分に一度という高いチェックポイント頻度を高々8%程度のオーバヘッドで実現することができ、将来のエクサスケールの時代においても有効であることを証明した。これらの結果をACM/IEEE Supercomputing 2011において発表し、ベストペーパー賞に相当するSpecial Recognition Award for Perfect Score(論文特別賞)および日本から初となるGeorge Michael博士フェローシップHonorable Mention(奨励賞)を受賞した。
In large-scale applications, it is necessary to consider the possibility of failure due to the extremely long running time and high performance. This strategy is based on the implementation of a centralized system for the preservation of information, and the re-opening of information technology when damage occurs. I/O amplitude performance of centralized and centralized types is increasing at a speed of up to 50% in the future and increasing at a scale of up to 25% in today's and 50% in the future. The technology of solving the problem of speed of data transmission is discussed. A proposal for a high-efficiency, high-reliability, high-efficiency, high-efficiency, high- The proposal is to reduce, reduce and symbolize the implementation environment, reduce and reduce the implementation environment, reduce and symbolize the implementation environment, reduce and symbolize the implementation environment, and reduce the implementation environment. FTI seismic waves are applied to SPECFEM3D. The implementation of TSUBAME2.0 on a 1000GPU scale is 6 minutes high. The frequency of TSUBAME2.0 seismic waves is 8%. The results were presented at ACM/IEEE Supercomputing 2011, and were awarded the Special Recognition Award for Perfect Score and Honorable Mention by Dr. George Michael.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Fast checkpoint restart for sustained petascale computing : Opportunities and directions
快速检查点重启以实现持续的千万亿级计算:机遇和方向
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez
  • 通讯作者:
    Leonardo Bautista Gomez
Fault Tolerance Interface : Over 100Tflops earthquake simulations using more than 1000 GPUs on TSUBAME2.0
容错接口:在 TSUBAME2.0 上使用 1000 多个 GPU 进行超过 100Tflops 的地震模拟
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez
  • 通讯作者:
    Leonardo Bautista Gomez
Low-overhead checkpoint for large-scale GPU-accelerated systems
适用于大规模 GPU 加速系统的低开销检查点
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez
  • 通讯作者:
    Leonardo Bautista Gomez
Transparent low-overhead checkpoint for GPU-accelerated clusters
GPU 加速集群的透明低开销检查点
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez
  • 通讯作者:
    Leonardo Bautista Gomez
Fault tolerance opportunities for Climate codes
气候代码的容错机会
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez;Leonardo Bautista Gomez
  • 通讯作者:
    Leonardo Bautista Gomez
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

LEONARDOARTURO BautistaGomez (2011)其他文献

LEONARDOARTURO BautistaGomez (2011)的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

CAREER: Storage-Aware Fault Tolerance
职业:存储感知容错
  • 批准号:
    2339784
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Continuing Grant
耐故障性を考慮した分散アルゴリズムの設計
考虑容错的分布式算法设计
  • 批准号:
    23K16838
  • 财政年份:
    2023
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Collaborative Research: CIF: Small: Approximate Coded Computing - Fundamental Limits of Precision, Fault-Tolerance, and Privacy
协作研究:CIF:小型:近似编码计算 - 精度、容错性和隐私的基本限制
  • 批准号:
    2231706
  • 财政年份:
    2023
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Approximate Coded Computing - Fundamental Limits of Precision, Fault-tolerance and Privacy
协作研究:CIF:小型:近似编码计算 - 精度、容错性和隐私的基本限制
  • 批准号:
    2231707
  • 财政年份:
    2023
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Standard Grant
Unlocking the potential of Quantum LDPC Codes for low-overhead fault-tolerance
释放量子 LDPC 码在低开销容错方面的潜力
  • 批准号:
    EP/Y004620/1
  • 财政年份:
    2023
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Research Grant
CRII: SaTC: RUI: When Logic Locking Meets Hardware Trojan Mitigation and Fault Tolerance
CRII:SaTC:RUI:当逻辑锁定遇到硬件木马缓解和容错时
  • 批准号:
    2245247
  • 财政年份:
    2023
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Standard Grant
Unlocking the potential of Quantum LDPC Codes for low-overhead fault-tolerance
释放量子 LDPC 码在低开销容错方面的潜力
  • 批准号:
    EP/Y004507/1
  • 财政年份:
    2023
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Research Grant
Towards resiliency through health monitoring, diagnosis, prognosis, and fault tolerance in complex and cyber-physical systems with applications to electrified and connected vehicles.
通过复杂网络物理系统的健康监测、诊断、预测和容错,并应用于电气化和互联车辆,实现弹性。
  • 批准号:
    RGPIN-2018-04002
  • 财政年份:
    2022
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Discovery Grants Program - Individual
Improving fault-tolerance mechanisms in distributed data streaming systems
改进分布式数据流系统中的容错机制
  • 批准号:
    575699-2022
  • 财政年份:
    2022
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Master's
Collaborative Research: SHF: Small: Learning Fault Tolerance at Scale
合作研究:SHF:小型:大规模学习容错
  • 批准号:
    2135309
  • 财政年份:
    2022
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了