SI2-SSI: FAMII: High Performance and Scalable Fabric Analysis, Monitoring and Introspection Infrastructure for HPC and Big Data
SI2-SSI:FAMII:适用于 HPC 和大数据的高性能和可扩展结构分析、监控和自省基础设施
基本信息
- 批准号:1664137
- 负责人:
- 金额:$ 80万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2017
- 资助国家:美国
- 起止时间:2017-07-01 至 2020-06-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
As the computing, networking, heterogeneous hardware, and storagetechnologies continue to evolve in High-End Computing (HEC) platforms,it becomes increasingly essential and challenging to understand theinteractions between time-critical High-Performance Computing (HPC)and Big Data applications, the software infrastructures upon whichthey rely for achieving high-performing portable solutions, theunderlying communication fabric these high-performance middlewaresdepend on and the schedulers that manage HPC clusters. Suchunderstanding will enable all involved parties (applicationdevelopers/users, system administrators, and middleware developers) tomaximize the efficiency and performance of the individual componentsthat comprise a modern HPC system and solve different grand challengeproblems. There is a clear need and unfortunate lack of a high-performance andscalable tool that is capable of analyzing and correlating thecommunication on the fabric with the behavior of HPC/Big Dataapplications, underlying middleware and the job scheduler on existinglarge HPC systems. The proposed synergistic and collaborative effort,undertaken by a team of computer and computational scientists from OSUand OSC, aims to create an integrated software infrastructure for high-performance and scalable Fabric Analysis, Monitoring andIntrospection for HPC and Big Data. This tool will achieve thefollowing objectives: 1) be portable, easy to use and easy tounderstand, 2) have high performance and scalable rendering andstorage techniques and, 3) be applicable to the differentcommunication fabrics and programming models that are likely to beused on existing large HPC systems and emerging exascale systems. Thetransformative impact of the proposed research and development effortis to design a comprehensive analysis and performance monitoring toolfor applications of current and next generation multipetascale/exascale systems to harness the maximum performance andscalability.The proposed research and the associated infrastructure will have asignificant impact on enabling optimizations of HPC and Big Dataapplications that have previously been difficult to provide. Thesepotential outcomes will be demonstrated by using the proposedframework to validate a variety of HPC and Big Data benchmarks andapplications under multiple scenarios. The integrated middleware andtools will be made publicly available to the community through publicrepositories and publications in the top forums, enabling other MPIand Big Data stacks to adopt the designs. Research results will alsobe disseminated to the collaborating organizations of theinvestigators to impact their HPC software products andapplications. The proposed research directions and their solutionswill be used in the curriculum of the PIs to train undergraduate andgraduate students, including under-represented minorities and femalestudents. The technical challenges addressed by the proposal include: 1)Scalable visualization of large and complex HEC networks so as toprovide a near instant rendering to end users, 2) A generalized datagathering scheme which is easily portable to multiple communicationfabrics, novel compute architectures and high-performance middleware,3) Enhanced data storage performance through optimized databaseschemas and the use of memory-backed key value stores/databases, 4)Support in MPI, PGAS, and Big Data libraries to enable the proposedmonitoring, analysis, and introspection framework, and 5) Enablingdeeper introspection of particular regions of application. Theresearch will also be driven by a set of HPC and Big Dataapplications. The transformative impact of the proposed research anddevelopment effort is to design a comprehensive analysis andperformance monitoring tool for applications of current and nextgeneration multi petascale/exascale systems to harness the maximumperformance and scalability.
随着计算、网络、异构硬件和存储技术在高端计算(HEC)平台中的不断发展,了解时间关键型高性能计算(HPC)和大数据应用程序之间的交互变得越来越重要,也越来越具有挑战性,大数据应用程序是实现高性能便携式解决方案所依赖的软件基础架构,这些高性能中间件所依赖的底层通信结构以及管理HPC群集的服务器。 这种理解将使所有相关方(应用程序开发人员/用户、系统管理员和中间件开发人员)能够最大限度地提高构成现代HPC系统的各个组件的效率和性能,并解决各种重大挑战问题。很明显,我们需要一种高性能和可扩展的工具,能够分析结构上的计算与HPC/大数据应用程序、底层中间件和现有大型HPC系统上的作业调度程序的行为,并将其关联起来。 拟议的协同和协作工作由来自OSU和OSC的计算机和计算科学家团队进行,旨在为HPC和大数据的高性能和可扩展的结构分析,监控和自省创建集成的软件基础设施。该工具将实现以下目标:1)可移植、易于使用和理解; 2)具有高性能和可扩展的渲染和存储技术; 3)适用于可能在现有大型HPC系统和新兴的exascale系统上使用的不同通信结构和编程模型。 拟议的研究和开发工作的变革性影响是为当前和下一代千万亿次/兆亿次系统的应用程序设计一个全面的分析和性能监控工具,以利用最大的性能和可扩展性。拟议的研究和相关的基础设施将对实现HPC和大数据应用程序的优化产生重大影响,这些优化以前很难提供。这些潜在的成果将通过使用建议的框架来验证多种场景下的HPC和大数据基准和应用程序来展示。 集成的中间件和工具将通过公共存储库和顶级论坛上的出版物向社区公开提供,使其他MPI和大数据堆栈能够采用这些设计。 研究结果也将传播给研究人员的合作组织,以影响他们的HPC软件产品和应用程序。拟议的研究方向及其解决方案将用于PI的课程,以培训本科生和研究生,包括代表性不足的少数民族和女学生。该提案涉及的技术挑战包括:1)大型和复杂HEC网络的可扩展可视化,以便向最终用户提供近乎即时的渲染,2)通用数据收集方案,其易于移植到多个通信结构、新颖的计算架构和高性能中间件,3)通过优化的数据库架构和使用存储器支持的键值存储/数据库来增强数据存储性能,4)支持MPI、PGAS和大数据库,以实现所提出的监控、分析和内省框架,以及5)实现对特定应用区域的更深入内省。 研究还将由一组HPC和大数据应用程序驱动。拟议的研究和开发工作的变革性影响是设计一个全面的分析和性能监控工具,用于当前和下一代多千兆/兆系统的应用程序,以利用最大的性能和可扩展性。
项目成果
期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A Scalable Network-Based Performance Analysis Tool for MPI on Large-Scale HPC Systems
大规模 HPC 系统上 MPI 的可扩展的基于网络的性能分析工具
- DOI:10.1109/cluster.2017.78
- 发表时间:2017
- 期刊:
- 影响因子:0
- 作者:Subramoni, Hari;Lu, Xiaoyi;Panda, Dhabaleswar K.
- 通讯作者:Panda, Dhabaleswar K.
C-GDR: High-Performance Container-Aware GPUDirect MPI Communication Schemes on RDMA Networks
- DOI:10.1109/ipdps.2019.00034
- 发表时间:2019-05
- 期刊:
- 影响因子:0
- 作者:Jie Zhang;Xiaoyi Lu;Ching-Hsiang Chu;D. Panda
- 通讯作者:Jie Zhang;Xiaoyi Lu;Ching-Hsiang Chu;D. Panda
Designing a Profiling and Visualization Tool for Scalable and In-depth Analysis of High-Performance GPU Clusters
设计用于对高性能 GPU 集群进行可扩展和深入分析的分析和可视化工具
- DOI:10.1109/hipc.2019.00022
- 发表时间:2019
- 期刊:
- 影响因子:0
- 作者:Kousha, Pouya;Ramesh, Bharath;Kandadi Suresh, Kaushik;Chu, Ching-Hsiang;Jain, Arpan;Sarkauskas, Nick;Subramoni, Hari;Panda, Dhabaleswar K.
- 通讯作者:Panda, Dhabaleswar K.
EC-Bench: Benchmarking Onload and Offload Erasure Coders on Modern Hardware Architectures
- DOI:10.1007/978-3-030-32813-9_18
- 发表时间:2018-12
- 期刊:
- 影响因子:0
- 作者:Haiyang Shi;Xiaoyi Lu;D. Panda
- 通讯作者:Haiyang Shi;Xiaoyi Lu;D. Panda
Accelerated Real-time Network Monitoring and Profiling at Scale using OSU INAM
使用 OSU INAM 加速实时网络监控和大规模分析
- DOI:10.1145/3311790.3396672
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:Kousha, P.;S. D., Kamal Raj;Subramoni, H.;Panda, D. K.;Na, H.;Dockendorf, T.;Tomko, K.
- 通讯作者:Tomko, K.
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Dhabaleswar Panda其他文献
Dhabaleswar Panda的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Dhabaleswar Panda', 18)}}的其他基金
CSR: Small: CONCERT: Designing Scalable Communication Runtimes with On-the-fly Compression for HPC and AI Applications on Heterogeneous Architectures
CSR:小型:CONCERT:为异构架构上的 HPC 和 AI 应用程序设计具有动态压缩的可扩展通信运行时
- 批准号:
2312927 - 财政年份:2023
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
Travel: Student Travel Support for MVAPICH User Group (MUG) 2023 Conference
旅行:MVAPICH 用户组 (MUG) 2023 年会议的学生旅行支持
- 批准号:
2331223 - 财政年份:2023
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
Collaborative Research: Frameworks: Performance Engineering Scientific Applications with MVAPICH and TAU using Emerging Communication Primitives
合作研究:框架:使用新兴通信原语的 MVAPICH 和 TAU 的性能工程科学应用
- 批准号:
2311830 - 财政年份:2023
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
Travel: Student Travel Support for MVAPICH User group (MUG) 2022 Conference
旅行:MVAPICH 用户组 (MUG) 2022 年会议的学生旅行支持
- 批准号:
2231825 - 财政年份:2022
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
AI Institute for Intelligent CyberInfrastructure with Computational Learning in the Environment (ICICLE)
环境中具有计算学习功能的智能网络基础设施人工智能研究所 (ICICLE)
- 批准号:
2112606 - 财政年份:2021
- 资助金额:
$ 80万 - 项目类别:
Cooperative Agreement
MRI: RADiCAL: Reconfigurable Major Research Cyberinfrastructure for Advanced Computational Data Analytics and Machine Learning
MRI:RADiCAL:用于高级计算数据分析和机器学习的可重构主要研究网络基础设施
- 批准号:
2018627 - 财政年份:2020
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
OAC Core: Small: Next-Generation Communication and I/O Middleware for HPC and Deep Learning with Smart NICs
OAC 核心:小型:使用智能 NIC 实现 HPC 和深度学习的下一代通信和 I/O 中间件
- 批准号:
2007991 - 财政年份:2020
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
Student Travel Support for MVAPICH User Group (MUG) Meeting
MAPICH 用户组 (MUG) 会议的学生旅行支持
- 批准号:
1930003 - 财政年份:2019
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
Collaborative Research: Frameworks: Designing Next-Generation MPI Libraries for Emerging Dense GPU Systems
协作研究:框架:为新兴密集 GPU 系统设计下一代 MPI 库
- 批准号:
1931537 - 财政年份:2019
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
Student Travel Support for MVAPICH User Group (MUG) Meeting
MAPICH 用户组 (MUG) 会议的学生旅行支持
- 批准号:
1839739 - 财政年份:2018
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
相似国自然基金
考虑SSI效应的导管架式海洋平台抗震性能研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
考虑SSI的层间隔震高层建筑结构在三维地震下的响应研究
- 批准号:52168072
- 批准年份:2021
- 资助金额:35 万元
- 项目类别:地区科学基金项目
考虑SSI效应的大型储罐动力学特性及其隔板减晃研究
- 批准号:51978336
- 批准年份:2019
- 资助金额:61.0 万元
- 项目类别:面上项目
考虑SSI效应的摇摆墙-框架结构抗震机理及性能评估方法研究
- 批准号:51978524
- 批准年份:2019
- 资助金额:60.0 万元
- 项目类别:面上项目
考虑能量需求和SSI效应的RC梁式桥基于性能的抗震设计方法
- 批准号:50908014
- 批准年份:2009
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
相似海外基金
小学校理科における合意形成能力の育成 ーSSIが関わる内容を対象としてー
培养小学科学中建立共识的技能 - 针对与 SSI 相关的内容 -
- 批准号:
24H02435 - 财政年份:2024
- 资助金额:
$ 80万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
The DECREASE SSI Trial (Decolonization to Reduce After-Surgery Events of Surgical Site Infection)
DECREASE SSI 试验(去殖民化以减少手术部位感染的术后事件)
- 批准号:
10670860 - 财政年份:2022
- 资助金额:
$ 80万 - 项目类别:
The DECREASE SSI Trial (Decolonization to Reduce After-Surgery Events of Surgical Site Infection)
DECREASE SSI 试验(去殖民化以减少手术部位感染的术后事件)
- 批准号:
10501944 - 财政年份:2022
- 资助金额:
$ 80万 - 项目类别:
Significance of nonlinear soil-structure interaction (SSI) on the seismic performance of micropiles-retrofitted pile foundations
非线性土-结构相互作用(SSI)对微型桩加固桩基抗震性能的意义
- 批准号:
22K04280 - 财政年份:2022
- 资助金额:
$ 80万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
SSIサーベイランス、薬剤感受性と医療費を統合した耐性菌と患者予後の関連の研究
整合SSI监测、药敏和医疗费用研究耐药菌与患者预后的关系
- 批准号:
21K17309 - 财政年份:2021
- 资助金额:
$ 80万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Collaborative Research: SI2-SSI: Expanding Volunteer Computing
合作研究:SI2-SSI:扩展志愿者计算
- 批准号:
2039142 - 财政年份:2020
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
Development of monitoring system for rapid detection of orthopaedic SSI using the portable DNA sequencer MinION
使用便携式 DNA 测序仪 MinION 开发用于快速检测骨科 SSI 的监测系统
- 批准号:
20K09419 - 财政年份:2020
- 资助金额:
$ 80万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
SI2-SSI: Collaborative Research: Einstein Toolkit Community Integration and Data Exploration
SI2-SSI:协作研究:Einstein Toolkit 社区集成和数据探索
- 批准号:
2114580 - 财政年份:2020
- 资助金额:
$ 80万 - 项目类别:
Continuing Grant
Collaborative Research: SI2-SSI: Expanding Volunteer Computing
合作研究:SI2-SSI:扩展志愿者计算
- 批准号:
2001752 - 财政年份:2019
- 资助金额:
$ 80万 - 项目类别:
Standard Grant
SSI efficacy in cancer and inflammatory bowel disease animal models
SSI 在癌症和炎症性肠病动物模型中的功效
- 批准号:
523831-2018 - 财政年份:2018
- 资助金额:
$ 80万 - 项目类别:
Experience Awards (previously Industrial Undergraduate Student Research Awards)