Collaborative Research: CSR---SMA+AES: Pro-Active Runtime Health Enhancement of Large-Scale Parallel Systems Using PROGNOSIS
合作研究:CSR---SMA AES:使用 PROGNOSIS 主动增强大规模并行系统的运行时健康状况
基本信息
- 批准号:0615097
- 负责人:
- 金额:$ 35.69万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2006
- 资助国家:美国
- 起止时间:2006-08-15 至 2011-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Large scale parallel systems are critical to take on the challenges imposed by highly demanding applications of critical importance. Pushing the limits of hardware and software technologies to extract the maximum performance can increase their susceptibility to failures. This arises as a consequence of growing hardware transient errors, hardware device failures, and software complexity. These failures can have substantial consequences on system performance, and add to the costs of maintenance/operation, thereby putting at risk the very motivation behind deploying these large scale systems. Rather than treat failures as an exception and takereactive remedies, this project intends to anticipate their occurrence and take pro-active runtime measures to hide their impact.This research is expected to make three broad contributions towardsdeveloping a runtime fault-tolerance infrastructure.The first set of contributions is on collecting and analyzingsystem events from an actual BlueGene/L system over anextended period of time. The second set of contributions are models foronline analysis and prediction of evolving failure data.The third set of contributions are on failure-aware parallel job scheduling and checkpointing. On the educational front, in addition to enhancing graduate curriculum and research, this project intends to involve undergraduate students and women. The tools developed in this project and the related results will be made available in public domain and published in leading journals/conferences. In addition, the PIs will also push these tools to be incorporated on actual systems, to enhance their fault-toleranceabilities.
大规模并行系统对于应对极其重要的高要求应用所带来的挑战至关重要。推动硬件和软件技术的极限以获得最大性能可能会增加它们对故障的敏感性。这是由于硬件瞬时错误、硬件设备故障和软件复杂性的增加而引起的。 这些故障可能对系统性能产生重大影响,并增加维护/操作成本,从而使部署这些大规模系统的动机处于危险之中。该项目不是将故障视为异常并采取反应性补救措施,而是打算预测故障的发生并采取主动的运行时措施来隐藏其影响。这项研究预计将对开发运行时容错基础设施做出三大贡献。第一组贡献是在一段时间内收集和分析实际BlueGene/L系统的系统事件。第二组贡献是在线分析和预测不断变化的故障数据的模型。第三组贡献是关于故障感知并行作业调度和检查点。在教育方面,除了加强研究生课程和研究外,该项目还打算让本科生和妇女参与。该项目开发的工具和相关成果将在公共领域提供,并在主要期刊/会议上发表。此外,PI还将推动这些工具在实际系统中的整合,以增强其容错能力。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Anand Sivasubramaniam其他文献
Network-Based Parallel Computing. Communication, Architecture, and Applications
基于网络的并行计算。
- DOI:
10.1007/10704826 - 发表时间:
1999 - 期刊:
- 影响因子:0
- 作者:
Anand Sivasubramaniam;Mario Lauria - 通讯作者:
Mario Lauria
Anand Sivasubramaniam的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Anand Sivasubramaniam', 18)}}的其他基金
FoMR: Shrinking the Control and Data Flow Latencies of Single Thread Executions for Emerging Workloads
FoMR:缩短新兴工作负载的单线程执行的控制和数据流延迟
- 批准号:
1912495 - 财政年份:2019
- 资助金额:
$ 35.69万 - 项目类别:
Standard Grant
SHF:Small: Integrated Hardware-Software Power Regulation, Allocation and Isolation in Consolidated Servers
SHF:Small:整合服务器中的集成硬件-软件电源调节、分配和隔离
- 批准号:
1714389 - 财政年份:2017
- 资助金额:
$ 35.69万 - 项目类别:
Standard Grant
SHF: Small: Virtualizing Coordinated Resource Management of Flows on Handhelds with VIADUCT
SHF:小型:使用 VIADUCT 对手持设备上的流进行虚拟化协调资源管理
- 批准号:
1526750 - 财政年份:2015
- 资助金额:
$ 35.69万 - 项目类别:
Standard Grant
CSR: Medium: Provisioning and Harnessing Energy Storage for Datacenter Demand Response
CSR:中:为数据中心需求响应配置和利用能源存储
- 批准号:
1302225 - 财政年份:2013
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
Collaborative Research: Application-adaptive I/O Stack for Data-intensive Scientific Computing
协作研究:用于数据密集型科学计算的应用自适应 I/O 堆栈
- 批准号:
0621427 - 财政年份:2006
- 资助金额:
$ 35.69万 - 项目类别:
Standard Grant
HECURA: Exploiting Asymmetry in Performance and Security Requirements for I/O in High-end Computing
HECURA:利用高端计算中 I/O 性能和安全要求的不对称性
- 批准号:
0621429 - 财政年份:2006
- 资助金额:
$ 35.69万 - 项目类别:
Standard Grant
Collaborative Research: CSR-SMA+AES: PROGNOSIS to Enhance the Runtime Health of Large Scale Parallel Systems
合作研究:CSR-SMA AES:增强大规模并行系统运行时健康状况的预测
- 批准号:
0509234 - 财政年份:2005
- 资助金额:
$ 35.69万 - 项目类别:
Standard Grant
Tools and Techniques for Integrated Power Management of Server Disks
服务器磁盘集成电源管理的工具和技术
- 批准号:
0429500 - 财政年份:2004
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
ITR: Data-Driven Autonomic Performance Modulation for Servers
ITR:数据驱动的服务器自主性能调制
- 批准号:
0325056 - 财政年份:2003
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
CISE Research Resources: From High Performance to Low Power: Infrastructure for Ubiquitous Computing
CISE 研究资源:从高性能到低功耗:普适计算的基础设施
- 批准号:
0130143 - 财政年份:2002
- 资助金额:
$ 35.69万 - 项目类别:
Standard Grant
相似国自然基金
基于经筋理论的筋针与整脊联合疗法治疗 CSR疼痛的临床应用研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
RAC2(G15D)突变参与B细胞 Ig-CSR过程的分子机制研究
- 批准号:2025JJ80630
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于CRISPR/CasRx调控CSR1基因表达预防氨基糖甙类耳毒性聋研究
- 批准号:2024Y9183
- 批准年份:2024
- 资助金额:25.0 万元
- 项目类别:省市级项目
善行得善果?后疫情时代嵌入式和边缘式CSR对员工幸福感的跨层影响研究
- 批准号:72102183
- 批准年份:2021
- 资助金额:24.00 万元
- 项目类别:青年科学基金项目
善行得善果?后疫情时代嵌入式和边缘式CSR对员工幸福感的跨层影响研究
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:
基于脊髓突触可塑性探讨“调气”电针远端腧穴干预CSR模型大鼠的中枢镇痛效应及机制研究
- 批准号:82160934
- 批准年份:2021
- 资助金额:34 万元
- 项目类别:地区科学基金项目
利用输运模型和机器学习方法研究CSR能区的低温高密核物质
- 批准号:U2032145
- 批准年份:2020
- 资助金额:50.0 万元
- 项目类别:联合基金项目
基于兰州HIRFL-CSR装置对轻原子核的团簇结构及晕结构的理论研究
- 批准号:U2032137
- 批准年份:2020
- 资助金额:60.0 万元
- 项目类别:联合基金项目
基于HIRFL-CSR开展中高能轻核诱发核反应研究
- 批准号:U1832205
- 批准年份:2018
- 资助金额:248.0 万元
- 项目类别:联合基金项目
基于CSR的sd壳原子核幻数演化的实验研究
- 批准号:U1832211
- 批准年份:2018
- 资助金额:254.0 万元
- 项目类别:联合基金项目
相似海外基金
Collaborative Research: CSR: Medium: Scaling Secure Serverless Computing on Heterogeneous Datacenters
协作研究:CSR:中:在异构数据中心上扩展安全无服务器计算
- 批准号:
2312206 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Medium: Architecting GPUs for Practical Homomorphic Encryption-based Computing
协作研究:CSR:中:为实用的同态加密计算构建 GPU
- 批准号:
2312276 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
- 批准号:
2312689 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
- 批准号:
2401244 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
- 批准号:
2314681 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Small: Expediting Continual Online Learning on Edge Platforms through Software-Hardware Co-designs
协作研究:企业社会责任:小型:通过软硬件协同设计加快边缘平台上的持续在线学习
- 批准号:
2312157 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Standard Grant
Collaborative Research: CSR: Small: Cross-layer learning-based Energy-Efficient and Resilient NoC design for Multicore Systems
协作研究:CSR:小型:基于跨层学习的多核系统节能和弹性 NoC 设计
- 批准号:
2321224 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Standard Grant
Collaborative Research: CSR: Medium: Scaling Secure Serverless Computing on Heterogeneous Datacenters
协作研究:CSR:中:在异构数据中心上扩展安全无服务器计算
- 批准号:
2312207 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Medium: Adaptive Environmental Awareness for Collaborative Augmented Reality
协作研究:企业社会责任:媒介:协作增强现实的自适应环境意识
- 批准号:
2312760 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant
Collaborative Research: CSR: Small: Caphammer: A New Security Exploit in Energy Harvesting Systems and its Countermeasures
合作研究:CSR:小型:Caphammer:能量收集系统的新安全漏洞及其对策
- 批准号:
2314680 - 财政年份:2023
- 资助金额:
$ 35.69万 - 项目类别:
Continuing Grant