SHF: Small: Expediting the Execution of Machine Learning Applications on Multi-GPU Infrastructure with Architecture Awareness and Runtime Support

SHF:小型:通过架构意识和运行时支持加快多 GPU 基础设施上机器学习应用程序的执行

基本信息

  • 批准号:
    2154973
  • 负责人:
  • 金额:
    $ 59.99万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-06-15 至 2025-05-31
  • 项目状态:
    未结题

项目摘要

Deep Neural Networks (DNNs) have become one of the most popular machine-learning techniques for solving real-world problems in object classification, autonomous vehicles, natural language processing, etc. Due to the ever-growing problem size and complexity, the training and inference of DNN models are increasingly time-consuming and require enormous computing resources. As such, multi-GPU infrastructure is a desirable platform that has been widely used in modern DNN tasks. However, the delivered DNN execution scalability is severely limited due to architectural unawareness and lacking easy-to-use runtime support. This research uncovers and addresses the architectural bottlenecks of DNN executions. The outcome of this research is expected to achieve scalable DNN executions on multi-GPU infrastructure. The educational and outreach components of this project include (i) new course projects on multi-GPU infrastructure integrated into graduate-level computer architecture courses; (ii) engaging undergraduate students in the research activities through senior Capstone project courses and an outreach program at PI’s institute; and (iii) increasing the participation and visibility of female and minority students in computer architecture, computer science, and engineering.This research is set to uncover and address the architectural bottlenecks of DNN executions on multi-GPUs. Specifically: 1) It identifies address translation as an essential bottleneck in multi-GPU performance. It redesigns the Translation Lookaside Buffer (TLB) hierarchy and the page table walk for both single-tenant and multi-tenant DNN executions on multi-GPU infrastructure. 2) It investigates the data-movement overheads in data parallelism and model parallelism of modern DNN applications. It proposes architecture-aware data distillation and neuron-based model partitioning to mitigate the data movement overheads. 3) It proposes a runtime framework that fosters the usage of multi-GPUs through enhanced programmability, which allows dynamic and automatic virtual kernel to physical kernel generation during execution.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
深度神经网络(DNN)已经成为解决现实世界中对象分类、自主车辆、自然语言处理等问题的最常用的机器学习技术之一。由于问题的规模和复杂性不断增长,DNN模型的训练和推理越来越耗时,需要大量的计算资源。因此,多GPU基础设施是现代DNN任务中广泛使用的理想平台。然而,由于不了解体系结构和缺乏易于使用的运行时支持,交付的DNN执行可伸缩性受到严重限制。这项研究揭示并解决了DNN执行的体系结构瓶颈。这项研究的成果有望在多GPU基础设施上实现可扩展的DNN执行。该项目的教育和推广部分包括(I)将多图形处理器基础架构整合到研究生级别的计算机体系结构课程中的新课程项目;(Ii)通过高级Capstone项目课程和Pi学院的扩展计划吸引本科生参与研究活动;以及(Iii)提高女性和少数族裔学生在计算机架构、计算机科学和工程方面的参与度和知名度。这项研究旨在揭示和解决在多GPU上执行DNN的架构瓶颈。具体地说:1)指出地址转换是影响多GPU性能的重要瓶颈。它为多GPU基础设施上的单租户和多租户DNN执行重新设计了转换后备缓冲区(TLB)层次结构和页表遍历。2)研究了现代DNN应用的数据并行性和模型并行性中的数据移动开销。它提出了基于体系结构的数据提炼和基于神经元的模型划分来减少数据移动开销。3)它提出了一个运行时框架,通过增强的可编程性促进多GPU的使用,允许在执行过程中动态和自动生成虚拟内核到物理内核。该奖项反映了NSF的法定使命,并通过使用基金会的智力优势和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
SmartFRZ: An Efficient Training Framework using Attention-Based Layer Freezing
  • DOI:
    10.48550/arxiv.2401.16720
  • 发表时间:
    2024-01
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sheng Li;Geng Yuan;Yuezhen Dai;Youtao Zhang;Yanzhi Wang;Xulong Tang
  • 通讯作者:
    Sheng Li;Geng Yuan;Yuezhen Dai;Youtao Zhang;Yanzhi Wang;Xulong Tang
Trans-FW: Short Circuiting Page Table Walk in Multi-GPU Systems via Remote Forwarding
Adversarial Prefetch: New Cross-Core Cache Side Channel Attacks
  • DOI:
    10.1109/sp46214.2022.9833692
  • 发表时间:
    2021-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yanan Guo;Andrew Zigerelli;Youtao Zhang;Jun Yang
  • 通讯作者:
    Yanan Guo;Andrew Zigerelli;Youtao Zhang;Jun Yang
CEGMA: Coordinated Elastic Graph Matching Acceleration for Graph Matching Networks
AB-ORAM: Constructing Adjustable Buckets for Space Reduction in Ring ORAM
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Xulong Tang其他文献

Improving Multi-Instance GPU Efficiency via Sub-Entry Sharing TLB Design
通过子条目共享TLB设计提高多实例GPU效率
  • DOI:
    10.48550/arxiv.2404.18361
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Bingyao Li;Yueqi Wang;Tianyu Wang;L. Eeckhout;Jun Yang;A. Jaleel;Xulong Tang
  • 通讯作者:
    Xulong Tang
Optimizing off-chip accesses in multicores
优化多核中的片外访问
Architecture-Aware Approximate Computing
架构感知近似计算
Algorithm-hardware Co-design of Attention Mechanism on FPGA Devices
FPGA器件上注意力机制的算法-硬件协同设计
Preparation of Slag by Intergrated Waste-Heat Recovery and Resource Recycling of Molten Blast Furnace Slags: From Fundamental to Industrial Application
高炉熔渣余热回收与资源化一体化制渣:从基础到工业应用
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    3.2
  • 作者:
    Zuotai Zhang;Xulong Tang;Lili Liu;Xidong Wang
  • 通讯作者:
    Xidong Wang

Xulong Tang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Xulong Tang', 18)}}的其他基金

Collaborative Research: CSR: Small: Expediting Continual Online Learning on Edge Platforms through Software-Hardware Co-designs
协作研究:企业社会责任:小型:通过软硬件协同设计加快边缘平台上的持续在线学习
  • 批准号:
    2312157
  • 财政年份:
    2023
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Powering Small Craft with a Novel Ammonia Engine
用新型氨发动机为小型船只提供动力
  • 批准号:
    10099896
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Collaborative R&D
"Small performances": investigating the typographic punches of John Baskerville (1707-75) through heritage science and practice-based research
“小型表演”:通过遗产科学和基于实践的研究调查约翰·巴斯克维尔(1707-75)的印刷拳头
  • 批准号:
    AH/X011747/1
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Research Grant
Fragment to small molecule hit discovery targeting Mycobacterium tuberculosis FtsZ
针对结核分枝杆菌 FtsZ 的小分子片段发现
  • 批准号:
    MR/Z503757/1
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Research Grant
Bacteriophage control of host cell DNA transactions by small ORF proteins
噬菌体通过小 ORF 蛋白控制宿主细胞 DNA 交易
  • 批准号:
    BB/Y004426/1
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Research Grant
Windows for the Small-Sized Telescope (SST) Cameras of the Cherenkov Telescope Array (CTA)
切伦科夫望远镜阵列 (CTA) 小型望远镜 (SST) 相机的窗口
  • 批准号:
    ST/Z000017/1
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Research Grant
CSR: Small: Leveraging Physical Side-Channels for Good
CSR:小:利用物理侧通道做好事
  • 批准号:
    2312089
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Standard Grant
CSR: Small: Multi-FPGA System for Real-time Fraud Detection with Large-scale Dynamic Graphs
CSR:小型:利用大规模动态图进行实时欺诈检测的多 FPGA 系统
  • 批准号:
    2317251
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Standard Grant
AF: Small: Problems in Algorithmic Game Theory for Online Markets
AF:小:在线市场的算法博弈论问题
  • 批准号:
    2332922
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Standard Grant
Collaborative Research: FET: Small: Algorithmic Self-Assembly with Crisscross Slats
合作研究:FET:小型:十字交叉板条的算法自组装
  • 批准号:
    2329908
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Standard Grant
NeTS: Small: ML-Driven Online Traffic Analysis at Multi-Terabit Line Rates
NeTS:小型:ML 驱动的多太比特线路速率在线流量分析
  • 批准号:
    2331111
  • 财政年份:
    2024
  • 资助金额:
    $ 59.99万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了