SHF: Small: Collaborative Research: A Parallel Graph-Based Paradigm for HPC Parallel File System Checkers
SHF:小型:协作研究:基于并行图的 HPC 并行文件系统检查器范例
基本信息
- 批准号:1910727
- 负责人:
- 金额:$ 24.97万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2019
- 资助国家:美国
- 起止时间:2019-07-15 至 2023-06-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Modern high performance computing (HPC) platforms rely on large-scale parallel file systems for serving data accesses of scientific applications. These parallel file systems often run on expensive hardware and are usually well-maintained, but they may still experience failures and run into inconsistent states for various reasons (e.g., hardware faults, software bugs, configuration errors). When the state becomes inconsistent, a checking and repairing program called checker is the last line of defense to bring the system back to consistency. Nevertheless, today's checkers are error-prone and time-consuming to run. With the scale and complexity keeps increasing, the situation will likely get worse. This project aims to enable scalable, high performance checking and repairing of widely used parallel file systems through a new parallel graph-based model. The success of this project will dramatically change how parallel file system checkers would be used. Such an effort is a fundamental step towards building highly reliable future HPC parallel file systems for scientific discovery. In addition, this project integrates the research activities with education and outreach efforts to train broadly inclusive and globally competitive science workforce. The project consists of three thrusts. The first task focuses on constructing a general graph-based metadata model to abstract key metadata and consistency rules; the second task focuses on efficiently retrieving metadata from real systems and instantiating metadata graphs; the third task focuses on building a graph-based consistency checking runtime engine to conduct the checking in parallel to gain scalable high performance. This includes constructing a generic graph structure for representing different file system metadata, extracting the consistency rules among metadata items for checking, and defining a set of interfaces to facilitate building the graph model for other file systems. The project will explore compiling all consistency rules into a unified executable called ?blob?, which can be run in parallel in all compute nodes, and optimize the runtime graph engine to accommodate dependencies and achieve high performance.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
现代高性能计算(HPC)平台依赖于大规模并行文件系统来为科学应用的数据访问提供服务。这些并行文件系统通常在昂贵的硬件上运行,并且通常被良好地维护,但是它们仍然可能由于各种原因(例如,硬件故障、软件错误、配置错误)。当状态变得不一致时,称为检查器的检查和修复程序是使系统恢复一致性的最后一道防线。然而,今天的检查程序容易出错,而且运行起来很耗时。随着规模和复杂性的不断增加,情况可能会变得更糟。该项目旨在通过一种新的基于并行图的模型,实现对广泛使用的并行文件系统的可扩展、高性能的检查和修复。 这个项目的成功将极大地改变并行文件系统检查器的使用方式。这样的努力是为科学发现构建高度可靠的未来HPC并行文件系统的基本步骤。此外,该项目将研究活动与教育和外联工作相结合,以培养具有广泛包容性和全球竞争力的科学工作者。该项目包括三个重点。第一个任务的重点是构建一个通用的基于图的元数据模型,抽象关键元数据和一致性规则;第二个任务的重点是有效地检索元数据从真实的系统和实例化元数据图;第三个任务的重点是建立一个基于图的一致性检查运行时引擎进行检查并行获得可扩展的高性能。 这包括构造用于表示不同文件系统元数据的通用图结构,提取元数据项之间的一致性规则以供检查,以及定义一组接口以便于为其他文件系统构建图模型。该项目将探索将所有一致性规则编译成一个统一的可执行文件,称为?斑点?该奖项反映了NSF的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A Study of Failure Recovery and Logging of High-Performance Parallel File Systems
- DOI:10.1145/3483447
- 发表时间:2022-03
- 期刊:
- 影响因子:0
- 作者:Runzhou Han;Om Rameshwar Gatla;Mai Zheng;Jinrui Cao;Di Zhang;Dong Dai;Yong Chen;J. Cook
- 通讯作者:Runzhou Han;Om Rameshwar Gatla;Mai Zheng;Jinrui Cao;Di Zhang;Dong Dai;Yong Chen;J. Cook
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Dong Dai其他文献
Pattern-Directed Replication Scheme for Heterogeneous Object-Based Storage
基于异构对象的存储的模式定向复制方案
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Jiang Zhou;Wei Xie;Dong Dai;Yong Chen - 通讯作者:
Yong Chen
Horseshoes, homoclinic connections and global chaos in current-mode controlled DC/DC converters
电流模式控制 DC/DC 转换器中的马蹄铁、同宿连接和全局混沌
- DOI:
10.1109/iscas.2005.1464876 - 发表时间:
2005 - 期刊:
- 影响因子:0
- 作者:
Dong Dai;Yue Ma;C. Tse - 通讯作者:
C. Tse
Real-World Patient Experience of Pexidartinib for Tenosynovial Giant-Cell Tumor
Pexidartinib 治疗腱鞘巨细胞瘤的真实患者体验
- DOI:
10.1093/oncolo/oyad282 - 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Feng Lin;W. Kwong;Irene Pan;Xin Ye;Dong Dai;William Tap - 通讯作者:
William Tap
Group Scheduling for Improving Both CPU and Memory Power Efficiency Simultaneously
分组调度同时提高CPU和内存的能效
- DOI:
10.1109/hpcc.and.euc.2013.260 - 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
Gangyong Jia;Xi Li;Jian Wan;Chao Wang;Dong Dai - 通讯作者:
Dong Dai
Identification of Gingival Inflammation Surface Image Features Using Intraoral Scanning and Deep Learning
利用口内扫描和深度学习识别牙龈炎症表面图像特征
- DOI:
10.1016/j.identj.2025.01.002 - 发表时间:
2025-06-01 - 期刊:
- 影响因子:3.700
- 作者:
Wei Li;Linlin Li;Wenchong Xu;Yuting Guo;Min Xu;Shengyuan Huang;Dong Dai;Chang Lu;Shuai Li;Jiang Lin - 通讯作者:
Jiang Lin
Dong Dai的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Dong Dai', 18)}}的其他基金
EAGER: Exploring Automatic Optimization of Multi-tiered HPC Storage Systems via Practical Reinforcement Learning
EAGER:通过实用强化学习探索多层 HPC 存储系统的自动优化
- 批准号:
2412345 - 财政年份:2024
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
CNS Core: Small: Moving Machine Learning into the Next-Generation Cloud Flexibly, Agilely and Efficiently
CNS核心:小:灵活、敏捷、高效地将机器学习迁移到下一代云
- 批准号:
2008265 - 财政年份:2020
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
SHF: Small: A Hybrid NVM based Computing Architecture for Machine Learning Applications
SHF:小型:用于机器学习应用的基于混合 NVM 的计算架构
- 批准号:
1908843 - 财政年份:2019
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
CRII: CSR: Partitioning Large Graphs in Deep Storage Architecture
CRII:CSR:深度存储架构中的大图分区
- 批准号:
1852815 - 财政年份:2018
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
CRII: CSR: Partitioning Large Graphs in Deep Storage Architecture
CRII:CSR:深度存储架构中的大图分区
- 批准号:
1756012 - 财政年份:2018
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
NSF Student Travel Grant for 2017 IEEE/ACM International Conference on Utility and Cloud Computing (UCC) and Co-located BDCAT Conference
NSF 学生旅费补助金用于 2017 年 IEEE/ACM 国际实用程序和云计算会议 (UCC) 以及同期举办的 BDCAT 会议
- 批准号:
1743903 - 财政年份:2017
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
Collaborative Research: SHF: Small: LEGAS: Learning Evolving Graphs At Scale
协作研究:SHF:小型:LEGAS:大规模学习演化图
- 批准号:
2331302 - 财政年份:2024
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: LEGAS: Learning Evolving Graphs At Scale
协作研究:SHF:小型:LEGAS:大规模学习演化图
- 批准号:
2331301 - 财政年份:2024
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Efficient and Scalable Privacy-Preserving Neural Network Inference based on Ciphertext-Ciphertext Fully Homomorphic Encryption
合作研究:SHF:小型:基于密文-密文全同态加密的高效、可扩展的隐私保护神经网络推理
- 批准号:
2412357 - 财政年份:2024
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Quasi Weightless Neural Networks for Energy-Efficient Machine Learning on the Edge
合作研究:SHF:小型:用于边缘节能机器学习的准失重神经网络
- 批准号:
2326895 - 财政年份:2023
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Enabling Efficient 3D Perception: An Architecture-Algorithm Co-Design Approach
协作研究:SHF:小型:实现高效的 3D 感知:架构-算法协同设计方法
- 批准号:
2334624 - 财政年份:2023
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Technical Debt Management in Dynamic and Distributed Systems
合作研究:SHF:小型:动态和分布式系统中的技术债务管理
- 批准号:
2232720 - 财政年份:2023
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Sub-millisecond Topological Feature Extractor for High-Rate Machine Learning
合作研究:SHF:小型:用于高速机器学习的亚毫秒拓扑特征提取器
- 批准号:
2234921 - 财政年份:2023
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Reimagining Communication Bottlenecks in GNN Acceleration through Collaborative Locality Enhancement and Compression Co-Design
协作研究:SHF:小型:通过协作局部性增强和压缩协同设计重新想象 GNN 加速中的通信瓶颈
- 批准号:
2326494 - 财政年份:2023
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Quasi Weightless Neural Networks for Energy-Efficient Machine Learning on the Edge
合作研究:SHF:小型:用于边缘节能机器学习的准失重神经网络
- 批准号:
2326894 - 财政年份:2023
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant
Collaborative Research: SHF: Small: Sub-millisecond Topological Feature Extractor for High-Rate Machine Learning
合作研究:SHF:小型:用于高速机器学习的亚毫秒拓扑特征提取器
- 批准号:
2234920 - 财政年份:2023
- 资助金额:
$ 24.97万 - 项目类别:
Standard Grant