OAC Core: Small: Next-Generation Communication and I/O Middleware for HPC and Deep Learning with Smart NICs

OAC 核心:小型:使用智能 NIC 实现 HPC 和深度学习的下一代通信和 I/O 中间件

基本信息

  • 批准号:
    2007991
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-07-01 至 2024-06-30
  • 项目状态:
    已结题

项目摘要

In-network computing technologies, or the ability to offload significant portions of compute, communication, and I/O tasks to the network, have emerged as fundamental requirements to achieve extreme scale performance for end applications in the areas of High-Performance Computing (HPC) and Deep Learning (DL). Unfortunately, current generation communication middleware and applications cannot fully take advantage of these advances due to the lack of appropriate designs in the middleware-level. This leads to the following broad challenges: 1) Can middleware that are “aware” of the computing capabilities of these emerging in-network computing technologies be designed in the most optimized manner possible for HPC and DL applications?, and 2) Can such a middleware be used to benefit end applications in HPC and DL to achieve better performance and portability? A synergistic and comprehensive research plan is proposed to address the above broad challenges with innovative solutions. The proposed framework will be made available to collaborators and the broader scientific community to understand the impact of the proposed innovations on next-generation HPC and DL middleware and applications. Several graduate and undergraduate students will be trained under this project as future scientists and engineers in HPC. The proposed work will enable curriculum advancements via research in pedagogy for key courses at The Ohio State University. Tutorials and workshops will be organized at various conferences to share the research results and experience with the community. The project is aligned with the National Strategic Computing Initiative (NSCI) to advance US leadership in HPC and the recent initiative of the US Government to maintain leadership in Artificial Intelligence (AI.)The proposed innovations include: 1) Designing scalable communication primitives (point-to-point and collectives) for using emerging switch and NIC based in-network computing features, 2) Exploiting in-network computing features to offload complex and user defined functions, 3) Designing high-performance I/O and storage subsystems using NVMe over Fabrics, 4) Designing enhanced in-network datatype processing schemes for MPI library, 5) Designing and optimizing in-network computing-based solutions for emerging cloud environment, and 6) Carrying out integrated development and evaluation of the proposed designs with a set of representative HPC and DL applications. The proposed designs will be integrated into the widely-used MVAPICH2 library and made available to the public. The project team members will work closely with collaborators to facilitate wide deployment and adoption of released software. The transformative impact of the proposed research is to achieve scalability, performance, and portability for HPC and DL frameworks/applications by leveraging emerging in-network computing technologies.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
网络内计算技术,即将大部分计算、通信和I/O任务卸载到网络的能力,已成为高性能计算(HPC)和深度学习(DL)领域终端应用实现极高规模性能的基本要求。遗憾的是,由于在中间件级别缺乏适当的设计,当前一代的通信中间件和应用程序不能充分利用这些进步。这带来了以下广泛的挑战:1)“意识到”这些新兴的网络计算技术的计算能力的中间件能否以尽可能优化的方式设计用于高性能计算机和数字图书馆应用程序?2)这样的中间件能否用于优化高性能计算机和数字图书馆中的fi终端应用程序,以实现更好的性能和可移植性?提出了一项协同和全面的研究计划,以创新的解决方案应对上述广泛的挑战。建议的框架将向合作者和更广泛的科学界提供,以了解建议的创新对下一代HPC和DL中间件和应用程序的影响。几名研究生和本科生将在该项目下接受培训,成为HPC的未来科学家和工程师。这项拟议的工作将通过对俄亥俄州立大学关键课程的教育学研究来推进课程。将在不同的会议上组织教程和工作坊,与社会各界分享研究成果和经验。该项目与推进美国在高性能计算领域的领导地位的国家战略计算倡议和美国政府最近为保持在人工智能(AI)领域的领导地位的倡议保持一致。提出的创新包括:1)设计可扩展的通信原语(点对点和集体),用于使用新兴的基于交换机和NIC的网络内计算功能;2)利用网络内计算特征来实现fflOAD Complex和User defiNed功能;3)使用NVMe over Fabric设计高性能的I/O和存储子系统;4)为MPI库设计增强的网络内数据类型处理方案,5)针对新兴的云环境设计和优化基于网内计算的解决方案;6)结合一组具有代表性的HPC和DL应用对所提出的设计进行集成开发和评估。建议的设计将被整合到广泛使用的MVAPICH2库中,并向公众提供。项目团队成员将与合作者密切合作,促进已发布软件的广泛部署和采用。拟议研究的变革性影响是通过利用新兴的网络内计算技术实现HPC和DL框架/应用程序的可扩展性、性能和可移植性。该奖项反映了NSF的法定使命,并通过使用基金会的智力优势和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(19)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Hy-Fi: Hybrid Five-Dimensional Parallel DNN Training on High-Performance GPU Clusters
Hy-Fi:高性能 GPU 集群上的混合五维并行 DNN 训练
Highly Efficient Alltoall and Alltoallv Communication Algorithms for GPU Systems
适用于 GPU 系统的高效 Alltoall 和 Alltoallv 通信算法
  • DOI:
    10.1109/ipdpsw55747.2022.00014
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chen, Chen-Chun;Khorassani, Kawthar Shafie;Anthony, Quentin G.;Shafi, Aamir;Subramoni, Hari;Panda, Dhabaleswar K.
  • 通讯作者:
    Panda, Dhabaleswar K.
Network-Assisted Noncontiguous Transfers for GPU-Aware MPI Libraries
GPU 感知 MPI 库的网络辅助非连续传输
  • DOI:
    10.1109/mm.2023.3241133
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    3.6
  • 作者:
    Suresh, Kaushik Kandadi;Khorassani, Kawthar Shafie;Chen, Chen Chun;Ramesh, Bharath;Abduljabbar, Mustafa;Shafi, Aamir;Subramoni, Hari;Panda, Dhabaleswar K.
  • 通讯作者:
    Panda, Dhabaleswar K.
High Performance MPI over the Slingshot Interconnect: Early Experiences
基于 Slingshot 互连的高性能 MPI:早期经验
  • DOI:
    10.1145/3491418.3530773
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shafie Khorassani, Kawthar;Chen, Chen Chun;Ramesh, Bharath;Shafi, Aamir;Subramoni, Hari;Panda, Dhabaleswar
  • 通讯作者:
    Panda, Dhabaleswar
OMB-Py: Python Micro-Benchmarks for Evaluating Performance of MPI Libraries on HPC Systems
OMB-Py:用于评估 HPC 系统上 MPI 库性能的 Python 微基准
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Dhabaleswar Panda其他文献

Dhabaleswar Panda的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Dhabaleswar Panda', 18)}}的其他基金

CSR: Small: CONCERT: Designing Scalable Communication Runtimes with On-the-fly Compression for HPC and AI Applications on Heterogeneous Architectures
CSR:小型:CONCERT:为异构架构上的 HPC 和 AI 应用程序设计具有动态压缩的可扩展通信运行时
  • 批准号:
    2312927
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Travel: Student Travel Support for MVAPICH User Group (MUG) 2023 Conference
旅行:MVAPICH 用户组 (MUG) 2023 年会议的学生旅行支持
  • 批准号:
    2331223
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Frameworks: Performance Engineering Scientific Applications with MVAPICH and TAU using Emerging Communication Primitives
合作研究:框架:使用新兴通信原语的 MVAPICH 和 TAU 的性能工程科学应用
  • 批准号:
    2311830
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Travel: Student Travel Support for MVAPICH User group (MUG) 2022 Conference
旅行:MVAPICH 用户组 (MUG) 2022 年会议的学生旅行支持
  • 批准号:
    2231825
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
AI Institute for Intelligent CyberInfrastructure with Computational Learning in the Environment (ICICLE)
环境中具有计算学习功能的智能网络基础设施人工智能研究所 (ICICLE)
  • 批准号:
    2112606
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Cooperative Agreement
MRI: RADiCAL: Reconfigurable Major Research Cyberinfrastructure for Advanced Computational Data Analytics and Machine Learning
MRI:RADiCAL:用于高级计算数据分析和机器学习的可重构主要研究网络基础设施
  • 批准号:
    2018627
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Student Travel Support for MVAPICH User Group (MUG) Meeting
MAPICH 用户组 (MUG) 会议的学生旅行支持
  • 批准号:
    1930003
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Frameworks: Designing Next-Generation MPI Libraries for Emerging Dense GPU Systems
协作研究:框架:为新兴密集 GPU 系统设计下一代 MPI 库
  • 批准号:
    1931537
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Student Travel Support for MVAPICH User Group (MUG) Meeting
MAPICH 用户组 (MUG) 会议的学生旅行支持
  • 批准号:
    1839739
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SI2-SSI: FAMII: High Performance and Scalable Fabric Analysis, Monitoring and Introspection Infrastructure for HPC and Big Data
SI2-SSI:FAMII:适用于 HPC 和大数据的高性能和可扩展结构分析、监控和自省基础设施
  • 批准号:
    1664137
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

胆固醇羟化酶CH25H非酶活依赖性促进乙型肝炎病毒蛋白Core及Pre-core降解的分子机制研究
  • 批准号:
    82371765
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
锕系元素5f-in-core的GTH赝势和基组的开发
  • 批准号:
    22303037
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于合成致死策略搭建Core-matched前药共组装体克服肿瘤耐药的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    52 万元
  • 项目类别:
鼠伤寒沙门氏菌LPS core经由CD209/SphK1促进树突状细胞迁移加重炎症性肠病的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
肌营养不良蛋白聚糖Core M3型甘露糖肽的精确制备及功能探索
  • 批准号:
    92053110
  • 批准年份:
    2020
  • 资助金额:
    70.0 万元
  • 项目类别:
    重大研究计划
Core-1-O型聚糖黏蛋白缺陷诱导胃炎发生并介导慢性胃炎向胃癌转化的分子机制研究
  • 批准号:
    81902805
  • 批准年份:
    2019
  • 资助金额:
    20.5 万元
  • 项目类别:
    青年科学基金项目
原始地球增生晚期的Core-merging大碰撞事件:地核增生、核幔平衡与核幔边界结构的新认识
  • 批准号:
    41973063
  • 批准年份:
    2019
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
RBM38通过协助Pol-ε结合、招募core调控HBV复制
  • 批准号:
    31900138
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
CORDEX-CORE区域气候模拟与预估研讨会
  • 批准号:
    41981240365
  • 批准年份:
    2019
  • 资助金额:
    1.5 万元
  • 项目类别:
    国际(地区)合作与交流项目

相似海外基金

Collaborative Research: OAC Core: Small: Anomaly Detection and Performance Optimization for End-to-End Data Transfers at Scale
协作研究:OAC 核心:小型:大规模端到端数据传输的异常检测和性能优化
  • 批准号:
    2412329
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
OAC Core: SHF: SMALL: ICURE -- In-situ Analytics with Compressed or Summary Representations for Extreme-Scale Architectures
OAC 核心:SHF:SMALL:ICURE——针对超大规模架构的压缩或摘要表示的原位分析
  • 批准号:
    2333899
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
OAC Core: SHF: SMALL: ICURE -- In-situ Analytics with Compressed or Summary Representations for Extreme-Scale Architectures
OAC 核心:SHF:SMALL:ICURE——针对超大规模架构的压缩或摘要表示的原位分析
  • 批准号:
    2007775
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS core: OAC core: Small: New Techniques for I/O Behavior Modeling and Persistent Storage Device Configuration
合作研究: CNS 核心:OAC 核心:小型:I/O 行为建模和持久存储设备配置新技术
  • 批准号:
    2008324
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: Small: Anomaly Detection and Performance Optimization for End-to-End Data Transfers at Scale
协作研究:OAC 核心:小型:大规模端到端数据传输的异常检测和性能优化
  • 批准号:
    2007789
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS core: OAC core: Small: New Techniques for I/O Behavior Modeling and Persistent Storage Device Configuration
合作研究: CNS 核心:OAC 核心:小型:I/O 行为建模和持久存储设备配置新技术
  • 批准号:
    2008072
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: Small: Efficient and Policy-driven Burst Buffer Sharing
合作研究:OAC Core:小型:高效且策略驱动的突发缓冲区共享
  • 批准号:
    2008388
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
OAC Core: Small: Collaborative Research: Conversational Agents for Supporting Sustainable Implementation and Systemic Diffusion of Cyberinfrastructure and Science Gateways
OAC 核心:小型:协作研究:支持网络基础设施和科学网关可持续实施和系统扩散的对话代理
  • 批准号:
    2007100
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
OAC Core: SMALL: DeepJIMU: Model-Parallelism Infrastructure for Large-scale Deep Learning by Gradient-Free Optimization
OAC 核心:小型:DeepJIMU:通过无梯度优化实现大规模深度学习的模型并行基础设施
  • 批准号:
    2007976
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
OAC Core: Small: Collaborative Research: Conversational Agents for Supporting Sustainable Implementation and Systemic Diffusion of Cyberinfrastructure and Science Gateways
OAC 核心:小型:协作研究:支持网络基础设施和科学网关可持续实施和系统扩散的对话代理
  • 批准号:
    2006816
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了