SHF: Small: Failure Events Modeling and Analysis for Proactive Management in Highly Dependable Systems

SHF:小型:高度可靠系统中主动管理的故障事件建模和分析

基本信息

  • 批准号:
    1016966
  • 负责人:
  • 金额:
    $ 46.78万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2010
  • 资助国家:
    美国
  • 起止时间:
    2010-09-01 至 2015-08-31
  • 项目状态:
    已结题

项目摘要

In large-scale computer systems, component failures are no longer rare events. As the scale of the systems continues to increase, their reliability and service availability become an increasingly critical concern. Recent IT expenditure analyses also show that the worldwide spending in server management and administration has surpassed the cost of new server acquisition. Conventional reactive trouble-shooting measures and conservative check-pointing approaches are often counter-productive or may cause a long time service disruption. The goal of this FEMA project is to develop modeling and analytical methodologies and tools to characterize the systems failure dynamics for proactive failure management in highly dependable systems.This FEMA project is carried out in three aspects. First is the development of an aggregated spherical covariance model that characterizes the failure dynamics quantitatively. The model centers on a failure signature concept that correlates a group of OS-level performance parameters and operation-level job allocation information to different types of fault events in both space and time domains. Second is an innovative application of statistical learning methods for failure prediction. Different failures types in different system scopes have different failure dynamics and different amount of history data for training; different prediction metrics pose different requirements for prediction granularity. Various supervised, unsupervised, and reinforcement learning algorithms find their applications in different scenarios. Third is the development of system reliability traces for offline evaluation and a methodology for online prediction in production systems. The trace not only contains a log of failure events, but also their corresponding operational contexts that are necessary for attaining high prediction accuracy.
在大型计算机系统中,组件故障不再是罕见事件。随着系统规模的不断增加,其可靠性和服务可用性成为越来越重要的问题。最近的 IT 支出分析还表明,全球在服务器管理方面的支出已经超过了购买新服务器的成本。传统的反应式故障排除措施和保守的检查点方法通常会适得其反,或者可能导致长时间的服务中断。该 FEMA 项目的目标是开发建模和分析方法和工具来表征系统故障动态,以便在高度可靠的系统中进行主动故障管理。该 FEMA 项目分三个方面进行。首先是开发聚合球形协方差模型,定量表征失效动态。该模型以故障签名概念为中心,将一组操作系统级性能参数和操作级作业分配信息与空间和时间域中不同类型的故障事件相关联。其次是统计学习方法在故障预测方面的创新应用。不同系统范围内的不同故障类型,其故障动态不同,用于训练的历史数据量也不同;不同的预测指标对预测粒度提出了不同的要求。各种监督、无监督和强化学习算法在不同的场景中都有各自的应用。第三是开发用于离线评估的系统可靠性跟踪和生产系统在线预测的方法。跟踪不仅包含故障事件的日志,还包含获得高预测精度所必需的相应操作上下文。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Chengzhong Xu其他文献

Decentralized remapping of data parallel computations with the generalized dimension exchange method
利用广义维度交换方法对数据并行计算进行分散重映射
HARL: Optimizing Parallel File Systems with Heterogeneity-Aware Region-Level Data Layout
HARL:使用异构感知区域级数据布局优化并行文件系统
Two-Level Hybrid Sampled Simulation of Multithreaded Applications
多线程应用的两级混合采样仿真
Time Stamp Algorithms for Runtime Parallelization of DOACROSS Loops with Dynamic Dependences
具有动态依赖性的 DOACROSS 循环运行时并行化的时间戳算法
Random choices for churn resilient load balancing in peer-to-peer networks
对等网络中流失弹性负载平衡的随机选择

Chengzhong Xu的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Chengzhong Xu', 18)}}的其他基金

REU Site in Telematics and Automotive Information Technology
REU 远程信息处理和汽车信息技术网站
  • 批准号:
    0851856
  • 财政年份:
    2009
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant
CSR: Small: A Unified Reinforcement Learning Approach for Autoconfiguration of Virtualized Resources and Appliances
CSR:小型:用于自动配置虚拟化资源和设备的统一强化学习方法
  • 批准号:
    0914330
  • 财政年份:
    2009
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant
CRI: Reconfigurable High Performance Cluster Computing and Medical Engineering Applications
CRI:可重构高性能集群计算和医学工程应用
  • 批准号:
    0708232
  • 财政年份:
    2007
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant
Modeling and adaptive feedback control for multi-class service quality assurance in stress-resilient Internet servers
抗压互联网服务器中多级服务质量保证的建模和自适应反馈控制
  • 批准号:
    0702488
  • 财政年份:
    2007
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant
SGER: Context-Aware Multi-Resource Management for High Service Availability on Internet Servers
SGER:上下文感知多资源管理,实现互联网服务器上的高服务可用性
  • 批准号:
    0611750
  • 财政年份:
    2006
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant
MSPA-MCS: Modeling, Analysis, and Learning Algorithms for Stochastic Scheduling in Clusters of Servers
MSPA-MCS:服务器集群中随机调度的建模、分析和学习算法
  • 批准号:
    0624849
  • 财政年份:
    2006
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant
ALGORITHMS: Adaptive Stochastic Scheduling for Bulk Synchronous Computations and Its Application in Molecular Dynamics Simulations
算法:批量同步计算的自适应随机调度及其在分子动力学模拟中的应用
  • 批准号:
    0203592
  • 财政年份:
    2002
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant
Scheduling Proxy and Adaptive Algorithms for Irregular Applications on SMP Clusters
SMP集群上不规则应用的调度代理和自适应算法
  • 批准号:
    9988266
  • 财政年份:
    2000
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Critical Role of Small Extracellular Vesicles in Diabetic Coronary VascularDysfunction and Diabetic Ischemic Heart Failure efforts
小细胞外囊泡在糖尿病冠状血管功能障碍和糖尿病缺血性心力衰竭中的关键作用
  • 批准号:
    10617365
  • 财政年份:
    2021
  • 资助金额:
    $ 46.78万
  • 项目类别:
Critical Role of Small Extracellular Vesicles in Diabetic Coronary VascularDysfunction and Diabetic Ischemic Heart Failure efforts
小细胞外囊泡在糖尿病冠状血管功能障碍和糖尿病缺血性心力衰竭中的关键作用
  • 批准号:
    10756397
  • 财政年份:
    2021
  • 资助金额:
    $ 46.78万
  • 项目类别:
Role of Small Extracellular Vesicles in Beta Cell Failure and Autoimmunity in Type 1 Diabetes Mellitus
小细胞外囊泡在 1 型糖尿病 β 细胞衰竭和自身免疫中的作用
  • 批准号:
    10455673
  • 财政年份:
    2021
  • 资助金额:
    $ 46.78万
  • 项目类别:
Critical Role of Small Extracellular Vesicles in Diabetic Coronary Vascular Dysfunction and Diabetic Ischemic Heart Failure efforts.
小细胞外囊泡在糖尿病冠状血管功能障碍和糖尿病缺血性心力衰竭中的关键作用。
  • 批准号:
    10274392
  • 财政年份:
    2021
  • 资助金额:
    $ 46.78万
  • 项目类别:
Role of Small Extracellular Vesicles in Beta Cell Failure and Autoimmunity in Type 1 Diabetes Mellitus
小细胞外囊泡在 1 型糖尿病 β 细胞衰竭和自身免疫中的作用
  • 批准号:
    10276399
  • 财政年份:
    2021
  • 资助金额:
    $ 46.78万
  • 项目类别:
Role of Small Extracellular Vesicles in Beta Cell Failure and Autoimmunity in Type 1 Diabetes Mellitus
小细胞外囊泡在 1 型糖尿病 β 细胞衰竭和自身免疫中的作用
  • 批准号:
    10673047
  • 财政年份:
    2021
  • 资助金额:
    $ 46.78万
  • 项目类别:
Small molecule therapies targeting chromatin architecture in heart failure
针对心力衰竭染色质结构的小分子疗法
  • 批准号:
    10312765
  • 财政年份:
    2019
  • 资助金额:
    $ 46.78万
  • 项目类别:
Small molecule therapies targeting chromatin architecture in heart failure
针对心力衰竭染色质结构的小分子疗法
  • 批准号:
    10534162
  • 财政年份:
    2019
  • 资助金额:
    $ 46.78万
  • 项目类别:
CNS Core: Small: MAC Layer Failure Control and Avoidance in Cognitive Radio Networks
CNS 核心:小型:认知无线电网络中的 MAC 层故障控制和避免
  • 批准号:
    1910667
  • 财政年份:
    2019
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant
SaTC: CORE: Small: Understanding Socio-Technical Failure Modes in Public Key Infrastructures
SaTC:核心:小型:了解公钥基础设施中的社会技术故障模式
  • 批准号:
    1814518
  • 财政年份:
    2018
  • 资助金额:
    $ 46.78万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了