SHF: Small: Collaborative Research: Uncovering Vulnerabilities in Parallel File Systems for Reliable High Performance Computing
SHF:小型:协作研究:发现并行文件系统中的漏洞以实现可靠的高性能计算
基本信息
- 批准号:1718336
- 负责人:
- 金额:$ 23.3万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2017
- 资助国家:美国
- 起止时间:2017-08-15 至 2023-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Many scientific problems (e.g., computational biology, high-energy physics, climate science) rely on high performance computing (HPC) systems to manage and process massive amounts of data. However, with the rapid increase in scale and complexity, even the specially-designed and well-maintained HPC platforms may fail. This research aims to design innovative methodologies that scrutinize parallel file systems, the major storage software which empowers HPC platforms, and uncover the issues in parallel file systems that can lead to data loss under various failure scenarios. Such an effort is a fundamental step towards building highly reliable HPC systems and meet the demand of data-driven scientific discovery. In addition, this project integrates the research activities with education and outreach efforts to train broadly inclusive and globally competitive science workforce.More specifically, this project includes two synergistic research tasks, which enables automatic testing as well as diagnosing the issues in parallel file systems. The first task focuses on testing parallel file systems through a single-fault injection framework, which interrupts the normal workloads of the target parallel file system automatically, and examines if the interruption could lead to any issues that cannot be fixed by the corresponding checker of the parallel file system. Building on the first task, the second task focuses on diagnosing the issues uncovered in the previous task through a two-level provenance-based analysis. The first level analysis builds the coarse-grain, inter-node provenance, which provides a high-level picture of the entire system behavior. The second level analysis creates the fine-grain, intra-node provenance that contains causal paths within each individual node. In addition, multiple provenance traces are aligned and compared automatically to help locate the problematic code region with minimal human efforts.
许多科学问题(例如,计算生物学、高能物理学、气候科学)依赖于高性能计算(HPC)系统来管理和处理大量数据。然而,随着规模和复杂性的快速增加,即使是专门设计且维护良好的HPC平台也可能会失败。这项研究旨在设计创新的方法,审查并行文件系统,主要的存储软件,使HPC平台,并发现并行文件系统中的问题,可能导致数据丢失的各种故障情况下。这样的努力是构建高度可靠的HPC系统和满足数据驱动的科学发现需求的基本步骤。此外,该项目将研究活动与教育和推广工作相结合,以培养具有广泛包容性和全球竞争力的科学人才。更具体地说,该项目包括两个协同研究任务,这使得能够自动测试以及诊断并行文件系统中的问题。第一个任务是通过一个单故障注入框架对并行文件系统进行测试,该框架自动中断目标并行文件系统的正常工作负载,并检查中断是否会导致并行文件系统的相应检查器无法修复的任何问题。在第一项任务的基础上,第二项任务侧重于通过基于出处的两级分析来诊断前一项任务中发现的问题。第一级分析构建粗粒度的节点间起源,它提供了整个系统行为的高级描述。第二级分析创建了细粒度的节点内起源,其中包含每个节点内的因果路径。此外,多个起源跟踪会自动对齐和比较,以帮助以最少的人力定位有问题的代码区域。
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
PRS: A Pattern-Directed Replication Scheme for Heterogeneous Object-Based Storage
- DOI:10.1109/tc.2019.2954089
- 发表时间:2020-04
- 期刊:
- 影响因子:3.7
- 作者:Jiang Zhou;Yong Chen;Wei Xie;Dong Dai;Shuibing He;Weiping Wang
- 通讯作者:Jiang Zhou;Yong Chen;Wei Xie;Dong Dai;Shuibing He;Weiping Wang
AKIN: A Streaming Graph Partitioning Algorithm for Distributed Graph Storage Systems
- DOI:10.1109/ccgrid.2018.00033
- 发表时间:2018-05
- 期刊:
- 影响因子:0
- 作者:Wei Zhang-;Yong Chen;Dong Dai
- 通讯作者:Wei Zhang-;Yong Chen;Dong Dai
Data Distribution for Heterogeneous Storage Systems
- DOI:10.1109/tc.2022.3223302
- 发表时间:2023-06
- 期刊:
- 影响因子:3.7
- 作者:Jiang Zhou;Yong Chen;Mai Zheng;Weiping Wang
- 通讯作者:Jiang Zhou;Yong Chen;Mai Zheng;Weiping Wang
RaiderSTREAM: Adapting the STREAM Benchmark to Modern HPC Systems
RaiderSTREAM:使 STREAM 基准适应现代 HPC 系统
- DOI:10.1109/hpec55821.2022.9926292
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Beebe, Michael;Williams, Brody;Devaney, Stephen;Leidel, John;Chen, Yong;Poole, Steve
- 通讯作者:Poole, Steve
HAM: Hotspot-Aware Manager for Improving Communications With 3D-Stacked Memory
HAM:热点感知管理器,用于改善 3D 堆栈内存的通信
- DOI:10.1109/tc.2021.3066982
- 发表时间:2021
- 期刊:
- 影响因子:3.7
- 作者:Wang, Xi;Tumeo, Antonino;Leidel, John D.;Li, Jie;Chen, Yong
- 通讯作者:Chen, Yong
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Yong Chen其他文献
Predictions for Central Lymph Node Metastasis of Papillary Thyroid Carcinoma via CNN-Based Fusion Modeling of Ultrasound Images
通过基于 CNN 的超声图像融合模型预测甲状腺乳头状癌中央淋巴结转移
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:1.9
- 作者:
Yong Chen;Yan;Z. Cai;Mian Jiang - 通讯作者:
Mian Jiang
Shock mitigation effects of cellular cladding on submersible hull subjected to deep underwater explosion
多孔包壳对深水下爆炸作用下潜水器的冲击缓解效果
- DOI:
10.1016/j.oceaneng.2016.03.037 - 发表时间:
2016-05 - 期刊:
- 影响因子:5
- 作者:
Caiyu Yin;Zeyu Jin;Yong Chen;Hongxing Hua - 通讯作者:
Hongxing Hua
Algorithm-level Feedback-controlled Adaptive data prefetcher: Accelerating data access for high-performance processors
算法级反馈控制自适应数据预取器:加速高性能处理器的数据访问
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:1.4
- 作者:
Yong Chen;Huaiyu Zhu;Hui Jin;Xian - 通讯作者:
Xian
Experimental investigation on the characteristics of maximum bubble size of subcooled flow boiling in narrow rectangular channel under different system pressure
不同系统压力下窄矩形通道过冷流沸腾最大气泡尺寸特性的实验研究
- DOI:
10.1016/j.ijheatmasstransfer.2021.121426 - 发表时间:
2021-09 - 期刊:
- 影响因子:5.2
- 作者:
Lin Zhang;Hanzhou Liu;Deqi Chen;Xiaowei Zhou;Yong Chen - 通讯作者:
Yong Chen
Determination of FCMC and SCMC and Speculation of Hexagonally Packed Rods Concentration and Palisade Layer Structure Concentration of SDBS and SDS by Ultraviolet-visible Spectrophotometry
紫外可见分光光度法测定FCMC和SCMC以及六方堆积棒浓度和SDBS和SDS栅栏层结构浓度的推测
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:1
- 作者:
Zhaoxi Huang;Fenghui Zhao;Min Liu;Yong Chen - 通讯作者:
Yong Chen
Yong Chen的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Yong Chen', 18)}}的其他基金
Collaborative Research: Fusion of Siloed Data for Multistage Manufacturing Systems: Integrative Product Quality and Machine Health Management
协作研究:多级制造系统的孤立数据融合:集成产品质量和机器健康管理
- 批准号:
2323084 - 财政年份:2024
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Conference: 2024 Manufacturing Science and Engineering Conference and 52nd North American Manufacturing Research Conference; Knoxville, Tennessee; 17-21 June 2024
会议:2024年制造科学与工程会议暨第52届北美制造研究会议;
- 批准号:
2344983 - 财政年份:2023
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Quantum Many-Body Physics in Spin-Orbit Coupled Bose Gases
自旋轨道耦合玻色气体中的量子多体物理
- 批准号:
2012185 - 财政年份:2020
- 资助金额:
$ 23.3万 - 项目类别:
Continuing Grant
Phase-II IUCRC Texas Tech University: Center for Cloud and Autonomic Computing
第二阶段 IUCRC 德克萨斯理工大学:云和自主计算中心
- 批准号:
1939140 - 财政年份:2020
- 资助金额:
$ 23.3万 - 项目类别:
Continuing Grant
Collaborative Research: CESER: EAGER: "FabWave" - A Pilot Manufacturing Cyberinfrastructure for Shareable Access to Information Rich Product Manufacturing Data
合作研究:CESER:EAGER:“FabWave”——用于共享访问信息丰富的产品制造数据的试点制造网络基础设施
- 批准号:
1812675 - 财政年份:2018
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
CSR: Small: Collaborative Research: Tuning Extreme-scale Storage Stack through Deep Reinforcement Learning
CSR:小型:协作研究:通过深度强化学习调整超大规模存储堆栈
- 批准号:
1817094 - 财政年份:2018
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Elements:Software:NSCI: Empowering Data-driven Discovery with a Provenance Collection, Management, and Analysis Software Infrastructure
元素:软件:NSCI:通过来源收集、管理和分析软件基础设施支持数据驱动的发现
- 批准号:
1835892 - 财政年份:2018
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: Strain Based Devices for Switches and Memory Applications
合作研究:用于开关和存储器应用的基于应变的器件
- 批准号:
1711332 - 财政年份:2017
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Additive Manufacturing of Controlled Anisotropic Materials via Electrically Assisted Nanocomposite Fabrication
通过电辅助纳米复合材料制造受控各向异性材料的增材制造
- 批准号:
1663663 - 财政年份:2017
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Dynamics and Excitations of Spin-Orbit-Coupled Bose-Einstein Condensates
自旋轨道耦合玻色-爱因斯坦凝聚体的动力学和激发
- 批准号:
1708134 - 财政年份:2017
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
Collaborative Research: SHF: Small: LEGAS: Learning Evolving Graphs At Scale
协作研究:SHF:小型:LEGAS:大规模学习演化图
- 批准号:
2331302 - 财政年份:2024
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: LEGAS: Learning Evolving Graphs At Scale
协作研究:SHF:小型:LEGAS:大规模学习演化图
- 批准号:
2331301 - 财政年份:2024
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Efficient and Scalable Privacy-Preserving Neural Network Inference based on Ciphertext-Ciphertext Fully Homomorphic Encryption
合作研究:SHF:小型:基于密文-密文全同态加密的高效、可扩展的隐私保护神经网络推理
- 批准号:
2412357 - 财政年份:2024
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Quasi Weightless Neural Networks for Energy-Efficient Machine Learning on the Edge
合作研究:SHF:小型:用于边缘节能机器学习的准失重神经网络
- 批准号:
2326895 - 财政年份:2023
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Enabling Efficient 3D Perception: An Architecture-Algorithm Co-Design Approach
协作研究:SHF:小型:实现高效的 3D 感知:架构-算法协同设计方法
- 批准号:
2334624 - 财政年份:2023
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Technical Debt Management in Dynamic and Distributed Systems
合作研究:SHF:小型:动态和分布式系统中的技术债务管理
- 批准号:
2232720 - 财政年份:2023
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Sub-millisecond Topological Feature Extractor for High-Rate Machine Learning
合作研究:SHF:小型:用于高速机器学习的亚毫秒拓扑特征提取器
- 批准号:
2234921 - 财政年份:2023
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Reimagining Communication Bottlenecks in GNN Acceleration through Collaborative Locality Enhancement and Compression Co-Design
协作研究:SHF:小型:通过协作局部性增强和压缩协同设计重新想象 GNN 加速中的通信瓶颈
- 批准号:
2326494 - 财政年份:2023
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Quasi Weightless Neural Networks for Energy-Efficient Machine Learning on the Edge
合作研究:SHF:小型:用于边缘节能机器学习的准失重神经网络
- 批准号:
2326894 - 财政年份:2023
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Sub-millisecond Topological Feature Extractor for High-Rate Machine Learning
合作研究:SHF:小型:用于高速机器学习的亚毫秒拓扑特征提取器
- 批准号:
2234920 - 财政年份:2023
- 资助金额:
$ 23.3万 - 项目类别:
Standard Grant