Collaborative Research: CNS Core: Small: A Compilation System for Mapping Deep Learning Models to Tensorized Instructions (DELITE)
合作研究:CNS Core:Small:将深度学习模型映射到张量化指令的编译系统(DELITE)
基本信息
- 批准号:2230944
- 负责人:
- 金额:$ 30万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-10-01 至 2026-09-30
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
As Machine Learning (ML), and especially Deep Neural Network (DNN) workloads have rapidly become prominent, many existing architectures have been enriched with instructions and/or processing capabilities targeting these workloads. Examples of these instructions include AMX instructions from Intel, Tensor cores from NVIDIA, DOT instructions from AMD, and many others. The emergence of such tensorized instructions is leading to many common and related challenges regarding how they can be used for production-level modern DNNs. The current state-of-the-art for exploiting these instruction sets for DNN workloads is very limited, with existing systems either completely lacking attention on these, not addressing global optimizations for complex DNNs, or being limited in other ways. The premise of our work is that a compilation system that is cognizant of the latest DNN trends and can optimize across different tensorized instruction sets, will provide large efficiency gains for modern ML computations. The resulting agenda will likely result in significant technical, economic, and societal impacts. From the technical side, the work impacts areas like High-Performance Computing (HPC), Compilers, and systems supporting AI/ML workloads. As DNNs are becoming an integral part of applications that most humans use, this work is poised to have a large economic and societal impact. On the education side, the research at the intersection of systems and ML will be incorporated into multiple courses and help to increase diversity at all levels in computing education and research, particularly by involving members from underrepresented groups. This project addresses the following challenges associated with modern DNNs and recent and emerging tensorized instructions: 1) Local Instruction Selection for Dense Models -- To improve the execution efficiency of each operator, a critical first issue is selecting tensorized instructions (and associated data layouts), which will be addressed for arbitrary shapes of operators. 2) Global Optimizations for DNNs -- After local operator optimizations, each operator may prefer its own tensorized instruction and data layout, thus incurring significant data layout transformation costs during the execution of an entire DNN. This project formulates and solves a global optimization problem that chooses the right trade-off between the local operator execution and data transformation costs. 3) Optimizations for Dynamic DNNs -- This project also considers various forms of dynamism in modern DNN models including dynamic input shapes, dynamic control flows, and dynamic data structures. It proposes new optimizations such as those for effective memory management, while revisiting others like local and global instruction selection, in the presence of these forms of dynamism. 4) Mapping Sparse Models to Emerging Instructions -- This project also plans to improve the efficiency of using various types of tensorized instructions when sparsity is involved, building on top of earlier work for optimizing kernels like SpMM (and other sparse computations) on GPUs and SIMD instruction sets. 5) (Semi-) Automatic Support for New Instructions -- To minimize the optimization and programming effort, this proposal also introduces a module to automatically optimize DNN computations with new tensorized instructions or features. Besides addressing the above problems, one critical component of this project will be incorporating their implementations, together with code generation for multiple back-ends, in a reusable system. This system will take as the input the Computational Graph representation, and output Tensor and LLVM IRs, thus building around three representations widely used in the industry.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
随着机器学习(ML),尤其是深度神经网络(DNN)工作负载的迅速发展,许多现有的架构已经被丰富了针对这些工作负载的指令和/或处理能力。这些指令的示例包括来自Intel的AMX指令、来自NVIDIA的Tensor核心、来自AMD的DOT指令以及许多其他指令。这种张量化指令的出现导致了许多关于如何将其用于生产级现代DNN的常见和相关挑战。目前利用这些指令集进行DNN工作负载的最新技术非常有限,现有系统要么完全缺乏对这些指令集的关注,要么无法解决复杂DNN的全局优化问题,要么在其他方面受到限制。我们工作的前提是,一个认识到最新DNN趋势并可以在不同的张量化指令集上进行优化的编译系统,将为现代ML计算提供巨大的效率提升。由此产生的议程可能会产生重大的技术、经济和社会影响。从技术方面来看,这项工作影响了高性能计算(HPC)、嵌入式系统和支持AI/ML工作负载的系统等领域。随着DNN成为大多数人使用的应用程序的一个组成部分,这项工作将产生巨大的经济和社会影响。在教育方面,系统和机器学习交叉点的研究将被纳入多个课程,并有助于增加各级计算教育和研究的多样性,特别是通过让代表性不足的群体参与进来。该项目解决了与现代DNN和最近出现的张量化指令相关的以下挑战:1)密集模型的本地指令选择-为了提高每个运算符的执行效率,关键的第一个问题是选择张量化指令(和相关的数据布局),这将针对任意形状的运算符进行解决。2)DNN的全局优化-在局部运算符优化之后,每个运算符可能更喜欢自己的张量化指令和数据布局,因此在整个DNN的执行期间会产生显著的数据布局转换成本。该项目制定并解决了一个全局优化问题,该问题在本地操作员执行和数据转换成本之间选择了正确的权衡。3)动态DNN的优化-该项目还考虑了现代DNN模型中各种形式的动态性,包括动态输入形状,动态控制流和动态数据结构。它提出了新的优化,如有效的内存管理,同时重新审视其他人,如本地和全局指令选择,在这些形式的动态。4)将稀疏模型映射到新兴指令--该项目还计划在涉及稀疏性时提高使用各种类型的张量化指令的效率,建立在早期工作的基础上,用于优化GPU和SIMD指令集上的SpMM(和其他稀疏计算)等内核。5)(半)自动支持新指令-为了最大限度地减少优化和编程工作,该提案还引入了一个模块,用于使用新的张量化指令或功能自动优化DNN计算。除了解决上述问题之外,该项目的一个关键组成部分将是将它们的实现与多个后端的代码生成合并到一个可重用的系统中。该系统将以计算图形表示作为输入,并输出张量和LLVM IR,从而围绕行业中广泛使用的三种表示进行构建。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Bin Ren其他文献
Development of arteriolar niche and self-renewal of breast cancer stem cells by lysophosphatidic Acid/protein kinase D signaling
通过溶血磷脂酸/蛋白激酶 D 信号传导实现小动脉生态位的发育和乳腺癌干细胞的自我更新
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Yinan Jiang;Yichen Guo;Jinjin Hao;R. Guenter;J. Lathia;A. Beck;R. Hattaway;D. Hurst;Q. Wang;Yehe Liu;Qi Cao;H. Krontiras;He;R. Silverstein;Bin Ren - 通讯作者:
Bin Ren
Revealing Protein Binding Affinity on Metal Surfaces:An Electrochemistry Approach
揭示金属表面上的蛋白质结合亲和力:电化学方法
- DOI:
10.1039/d1cc07098c - 发表时间:
2022 - 期刊:
- 影响因子:4.9
- 作者:
Danya Lyu;Pingshi Wang;Shuo zhang;Guokun Liu;Bin Ren - 通讯作者:
Bin Ren
Classication of 2-step nilpotent Lie algebras of dimension 8 with 3-dimensional center
具有 3 维中心的 8 维 2 步幂零李代数的分类
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
Bin Ren;Linsheng Zhu - 通讯作者:
Linsheng Zhu
Development of Weak Signal Recognition and an Extraction Algorithm for Raman Imaging
拉曼成像微弱信号识别和提取算法的开发
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:7.4
- 作者:
Xin Wang;Guokun Liu;Mengxi Xu;Bin Ren;Zhongqun Tian - 通讯作者:
Zhongqun Tian
Grouped Temporal Enhancement Module for Human Action Recognition
用于人类动作识别的分组时间增强模块
- DOI:
10.1109/icip40778.2020.9190958 - 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
Hong Liu;Bin Ren;Mengyuan Liu;Runwei Ding - 通讯作者:
Runwei Ding
Bin Ren的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Bin Ren', 18)}}的其他基金
Collaborative Research: OAC Core: CropDL - Scheduling and Checkpoint/Restart Support for Deep Learning Applications on HPC Clusters
合作研究:OAC 核心:CropDL - HPC 集群上深度学习应用的调度和检查点/重启支持
- 批准号:
2403088 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: SHF: SMALL: Compile-Parallelize-Schedule-Retarget-Repeat (EASER) Paradigm for Dealing with Extreme Heterogeneity
合作研究:SHF:SMALL:处理极端异构性的编译-并行化-调度-重定向-重复(EASER)范式
- 批准号:
2146873 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
EAGER: Collaborative Research: On the Theoretical Foundation of Recommendation System Evaluation
EAGER:协作研究:推荐系统评价的理论基础
- 批准号:
2142681 - 财政年份:2021
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
CAREER: Achieving Real-Time Machine Learning with Sparsification-Compilation Co-design
职业:通过稀疏编译协同设计实现实时机器学习
- 批准号:
2047516 - 财政年份:2021
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
相似国自然基金
IL-17A通过STAT5影响CNS2区域甲基化抑制调节性T细胞功能在银屑病发病中的作用和机制研究
- 批准号:82304006
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
miR-20a通过调控CD4+T细胞焦亡促进CNS炎性脱髓鞘疾病的发生及机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
血浆CNS来源外泌体中寡聚磷酸化α-synuclein对PD病程的提示研究
- 批准号:82101506
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于脑微血管内皮细胞模型的毒力岛4在单增李斯特菌CNS炎症中的作用及机制研究
- 批准号:32160834
- 批准年份:2021
- 资助金额:35 万元
- 项目类别:地区科学基金项目
胱硫醚-β-合成酶介导小胶质细胞极化致糖皮质激素CNS毒性作用及机制研究
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
生物工程化微泡干扰MAPK通路重编程CNS微环境起始脑胶质瘤免疫检查点抑制剂的应答研究
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
大气细颗粒物通过NF-κB/LBP-9信号通路诱导小胶质细胞激活加剧CNS脱髓鞘损伤的作用机制研究
- 批准号:82071396
- 批准年份:2020
- 资助金额:55 万元
- 项目类别:面上项目
新型化合物组合抑制STAT6维持Foxp3-CNS2去甲基化产生稳定的iTreg细胞诱导小鼠肾移植免疫耐受的机制研究
- 批准号:82070773
- 批准年份:2020
- 资助金额:57 万元
- 项目类别:面上项目
基于菌群-肠-脑轴探讨柚皮素改善CNS髓鞘脱失的机制研究
- 批准号:
- 批准年份:2020
- 资助金额:50 万元
- 项目类别:
CNS区域甲基化异常调控FOXP3基因介导调节型T细胞在青光眼视神经损伤中的作用机制研究
- 批准号:81970804
- 批准年份:2019
- 资助金额:55.0 万元
- 项目类别:面上项目
相似海外基金
Collaborative Research: CNS Core: Medium: Reconfigurable Kernel Datapaths with Adaptive Optimizations
协作研究:CNS 核心:中:具有自适应优化的可重构内核数据路径
- 批准号:
2345339 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: A Compilation System for Mapping Deep Learning Models to Tensorized Instructions (DELITE)
合作研究:CNS Core:Small:将深度学习模型映射到张量化指令的编译系统(DELITE)
- 批准号:
2230945 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: NSF-AoF: CNS Core: Small: Towards Scalable and Al-based Solutions for Beyond-5G Radio Access Networks
合作研究:NSF-AoF:CNS 核心:小型:面向超 5G 无线接入网络的可扩展和基于人工智能的解决方案
- 批准号:
2225578 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Medium: Movement of Computation and Data in Splitkernel-disaggregated, Data-intensive Systems
合作研究:CNS 核心:媒介:Splitkernel 分解的数据密集型系统中的计算和数据移动
- 批准号:
2406598 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
Collaborative Research: CNS Core: Small: SmartSight: an AI-Based Computing Platform to Assist Blind and Visually Impaired People
合作研究:中枢神经系统核心:小型:SmartSight:基于人工智能的计算平台,帮助盲人和视障人士
- 批准号:
2418188 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: Creating An Extensible Internet Through Interposition
合作研究:CNS核心:小:通过介入创建可扩展的互联网
- 批准号:
2242503 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: Adaptive Smart Surfaces for Wireless Channel Morphing to Enable Full Multiplexing and Multi-user Gains
合作研究:CNS 核心:小型:用于无线信道变形的自适应智能表面,以实现完全复用和多用户增益
- 批准号:
2343959 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: Efficient Ways to Enlarge Practical DNA Storage Capacity by Integrating Bio-Computer Technologies
合作研究:中枢神经系统核心:小型:通过集成生物计算机技术扩大实用 DNA 存储容量的有效方法
- 批准号:
2343863 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: CNS Core: Small: A Compilation System for Mapping Deep Learning Models to Tensorized Instructions (DELITE)
合作研究:CNS Core:Small:将深度学习模型映射到张量化指令的编译系统(DELITE)
- 批准号:
2341378 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: CISE-MSI: RCBP-RF: CNS: ESD4CDaT - Efficient System Design for Cancer Detection and Treatment
合作研究:CISE-MSI:RCBP-RF:CNS:ESD4CDaT - 癌症检测和治疗的高效系统设计
- 批准号:
2318573 - 财政年份:2023
- 资助金额:
$ 30万 - 项目类别:
Standard Grant