SHF: Small: FTLA: Fault Tolerant Linear Algebra Software for Massively Parallel Architectures
SHF:小型:FTLA:大规模并行架构的容错线性代数软件
基本信息
- 批准号:1118039
- 负责人:
- 金额:$ 32.66万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2011
- 资助国家:美国
- 起止时间:2011-08-01 至 2012-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
As the number of cores in high performance computing (HPC) systems continues to grow, the mean-time-to-failure (MTTF) for large HPC systems is becoming shorter than the execution time of many HPC applications. Fault tolerance is becoming one of the critical techniques for the effective use of large HPC systems.This project develops highly efficient algorithmic fault tolerance techniques for selected linear algebra computations to tolerate both fail-stop and fail-continue failures. Fail-stop failures, where the failed computation crashes, are often tolerated by checkpoint. This project removes checkpoint from fault tolerance for selected linear algebra computations so that neither checkpoint nor rollback is necessary for the protection of these computations. Fail-continue failures, where the corrupted computation continues to make progress but the computation results cannot be trusted any more, are usually tolerated offline by checking the computation results after the computation finishes. This project designs novel online fault tolerance techniques to detect fail-continue failures in the middle of the computation so that better efficiency can be achieved by stopping the corrupted computations in the middle of the computation in a timely manner.
随着高性能计算(HPC)系统中核心数量的不断增长,大型HPC系统的平均故障时间(MTTF)正变得比许多HPC应用程序的执行时间更短。容错已成为大型高性能计算系统有效使用的关键技术之一。该项目为选定的线性代数计算开发了高效的算法容错技术,以容忍故障停止和故障继续故障。失败停止故障,即失败的计算崩溃,通常是检查点所容忍的。该项目将检查点从所选线性代数计算的容错中移除,因此检查点和回滚都不需要保护这些计算。故障继续故障,即损坏的计算继续进行,但计算结果不再可信,通常通过在计算结束后检查计算结果来离线容忍。本课题设计了一种新颖的在线容错技术,在计算过程中检测故障继续故障,从而在计算过程中及时停止损坏的计算,从而提高计算效率。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Zizhong Chen其他文献
New-Sum: A Novel Online ABFT Scheme For General Iterative Methods
New-Sum:一种新颖的通用迭代方法在线 ABFT 方案
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
Dingwen Tao;S. Song;S. Krishnamoorthy;Panruo Wu;Xin Liang;E. Zhang;D. Kerbyson;Zizhong Chen - 通讯作者:
Zizhong Chen
Fault tolerant matrix-matrix multiplication: correcting soft errors on-line
容错矩阵-矩阵乘法:在线纠正软错误
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
Panruo Wu;Chong Ding;Longxiang Chen;Feng Gao;T. Davies;Christer Karlsson;Zizhong Chen - 通讯作者:
Zizhong Chen
TiO2 particles wrapped onto macroporous germanium skeleton as high performance anode for lithium-ion batteries
包裹在大孔锗骨架上的TiO2颗粒作为锂离子电池的高性能负极
- DOI:
10.1016/j.cej.2019.122649 - 发表时间:
2020-02 - 期刊:
- 影响因子:15.1
- 作者:
Qiang Liu;Jiagang Hou;Caixia Xu;Zizhong Chen;Rong Qin;Hong Liu - 通讯作者:
Hong Liu
Improving performance of iterative methods by lossy checkponting
通过有损检查改善迭代方法的性能
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Dingwen Tao;S. Di;Xin Liang;Zizhong Chen;F. Cappello - 通讯作者:
F. Cappello
Improving Performance of Data Dumping with Lossy Compression for Scientific Simulation
通过有损压缩提高数据转储的性能以进行科学模拟
- DOI:
10.1109/cluster.2019.8891037 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
Xin Liang;S. Di;Dingwen Tao;Sihuan Li;Bogdan Nicolae;Zizhong Chen;F. Cappello - 通讯作者:
F. Cappello
Zizhong Chen的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Zizhong Chen', 18)}}的其他基金
Student Travel Support for the 2016 International Conference on Networking, Architecture, and Storage (NAS'16)
2016 年网络、架构和存储国际会议 (NAS16) 的学生旅行支持
- 批准号:
1646797 - 财政年份:2016
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
CSR: Small: Collaborative Research: EEDAG: Exploring Energy-Efficient Parallel Tasks Generation and Scheduling for Heterogeneous Multicore Systems
CSR:小型:协作研究:EEDAG:探索异构多核系统的节能并行任务生成和调度
- 批准号:
1304969 - 财政年份:2012
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
CAREER: Dependable High Performance Scientific Computing at Extreme Scale via Algorithmic Fault Tolerance
职业:通过算法容错实现大规模可靠的高性能科学计算
- 批准号:
1305624 - 财政年份:2012
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
SHF: Small: FTLA: Fault Tolerant Linear Algebra Software for Massively Parallel Architectures
SHF:小型:FTLA:大规模并行架构的容错线性代数软件
- 批准号:
1305622 - 财政年份:2012
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
CAREER: Dependable High Performance Scientific Computing at Extreme Scale via Algorithmic Fault Tolerance
职业:通过算法容错实现大规模可靠的高性能科学计算
- 批准号:
1150273 - 财政年份:2012
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
CSR: Small: Collaborative Research: EEDAG: Exploring Energy-Efficient Parallel Tasks Generation and Scheduling for Heterogeneous Multicore Systems
CSR:小型:协作研究:EEDAG:探索异构多核系统的节能并行任务生成和调度
- 批准号:
1118037 - 财政年份:2011
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
Powering Small Craft with a Novel Ammonia Engine
用新型氨发动机为小型船只提供动力
- 批准号:
10099896 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Collaborative R&D
"Small performances": investigating the typographic punches of John Baskerville (1707-75) through heritage science and practice-based research
“小型表演”:通过遗产科学和基于实践的研究调查约翰·巴斯克维尔(1707-75)的印刷拳头
- 批准号:
AH/X011747/1 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Research Grant
Fragment to small molecule hit discovery targeting Mycobacterium tuberculosis FtsZ
针对结核分枝杆菌 FtsZ 的小分子片段发现
- 批准号:
MR/Z503757/1 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Research Grant
Bacteriophage control of host cell DNA transactions by small ORF proteins
噬菌体通过小 ORF 蛋白控制宿主细胞 DNA 交易
- 批准号:
BB/Y004426/1 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Research Grant
Windows for the Small-Sized Telescope (SST) Cameras of the Cherenkov Telescope Array (CTA)
切伦科夫望远镜阵列 (CTA) 小型望远镜 (SST) 相机的窗口
- 批准号:
ST/Z000017/1 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Research Grant
CSR: Small: Leveraging Physical Side-Channels for Good
CSR:小:利用物理侧通道做好事
- 批准号:
2312089 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
CSR: Small: Multi-FPGA System for Real-time Fraud Detection with Large-scale Dynamic Graphs
CSR:小型:利用大规模动态图进行实时欺诈检测的多 FPGA 系统
- 批准号:
2317251 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
AF: Small: Problems in Algorithmic Game Theory for Online Markets
AF:小:在线市场的算法博弈论问题
- 批准号:
2332922 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
Collaborative Research: FET: Small: Algorithmic Self-Assembly with Crisscross Slats
合作研究:FET:小型:十字交叉板条的算法自组装
- 批准号:
2329908 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant
NeTS: Small: ML-Driven Online Traffic Analysis at Multi-Terabit Line Rates
NeTS:小型:ML 驱动的多太比特线路速率在线流量分析
- 批准号:
2331111 - 财政年份:2024
- 资助金额:
$ 32.66万 - 项目类别:
Standard Grant