CAREER: Efficient Large Language Model Inference Through Codesign: Adaptable Software Partitioning and FPGA-based Distributed Hardware

职业:通过协同设计进行高效的大型语言模型推理:适应性软件分区和基于 FPGA 的分布式硬件

基本信息

  • 批准号:
    2339084
  • 负责人:
  • 金额:
    $ 88.31万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2024
  • 资助国家:
    美国
  • 起止时间:
    2024-05-01 至 2029-04-30
  • 项目状态:
    未结题

项目摘要

Artificial intelligence (AI) has entered the "age of scale". Huge amounts of training data are being used to train enormous deep neural networks (DNNs) on large-scale computers as epitomized by the rise of large language models (LLMs). The extremely high demand for this technology is clearly evident, as recently exemplified by ChatGPT: an LLM chatbot that garnered 100 million active users merely two months post-release, setting a new world record. However, deploying LLMs can be quite costly, given that their memory footprint can extend to terabytes of data while also demanding high computational resources. Consequently, large-scale distributed computers have become essential, particularly to meet the performance required for interactive applications. To improve efficiency, this project tackles new challenges that are specific to LLMs, including their large memory footprint, varying computational demands, and distributed computing. This is critical to make LLMs more accessible and sustainable for widespread use. Concurrently, this award seeks to develop a diverse AI workforce proficient in algorithms, hardware, and software, achieved through a large-scale AI course for diverse student population at public universities, comprehensive curriculum integration, and student mentorship at both graduate and undergraduate levels.This project will enable the codesign of LLMs and distributed computing platforms, divided into three major thrusts that correspond to three levels of the computing stack: software, hardware, and algorithms. Initially, the project will focus on automated partitioning and mapping algorithms, as these form the foundations by which LLMs can be deployed and optimized on both existing and new distributed computing platforms. Key to this research thrust is the development of an extensible hardware performance estimator that can model current GPU-based systems alongside new distributed computing approaches. In particular, the second thrust investigates the use of in-network and near-storage FPGAs within distributed systems to speed up LLM inference. The final thrust investigates platform-aware compression for LLMs, including mixed-precision quantization and low-rank approximation. In addition to improving LLM efficiency across the computing stack, this project will develop a research framework to synergistically co-optimize LLMs and distributed hardware platforms, resulting in new optimized LLM computing systems and implementation methodologies.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
人工智能(AI)已经进入“规模化时代”。大量的训练数据正在被用于在大型计算机上训练巨大的深度神经网络(DNN),大型语言模型(LLM)的兴起就是一个缩影。对这项技术的极高需求是显而易见的,正如最近ChatGPT所证明的那样:一个LLM聊天机器人在发布后仅两个月就获得了1亿活跃用户,创造了新的世界纪录。然而,部署LLM可能非常昂贵,因为它们的内存占用可能扩展到TB级的数据,同时还需要高计算资源。因此,大规模分布式计算机已成为必不可少的,特别是为了满足交互式应用程序所需的性能。为了提高效率,该项目解决了特定于LLM的新挑战,包括它们的大内存占用,不同的计算需求和分布式计算。这对于使LLMs更容易获得和可持续地广泛使用至关重要。同时,该奖项旨在通过为公立大学的不同学生群体提供大规模的AI课程,全面的课程整合以及研究生和本科生的学生导师制,培养精通算法,硬件和软件的多元化AI人才。该项目将实现LLM和分布式计算平台的共同设计,分为三个主要的推动力,对应于三个层次的计算堆栈:软件,硬件和算法。最初,该项目将专注于自动分区和映射算法,因为这些算法构成了LLM可以在现有和新的分布式计算平台上部署和优化的基础。这项研究的关键是开发一种可扩展的硬件性能估计器,可以模拟当前基于GPU的系统以及新的分布式计算方法。特别是,第二个推力研究在分布式系统中使用网络和近存储FPGA来加速LLM推理。最后的推力研究平台感知压缩LLM,包括混合精度量化和低秩近似。除了提高整个计算堆栈的LLM效率外,该项目还将开发一个研究框架,以协同优化LLM和分布式硬件平台,从而产生新的优化LLM计算系统和实施方法。该奖项反映了NSF的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Mohamed Abdelfattah其他文献

Computed tomography vs. cinefluoroscopy for the assessment of mechanical prosthetic valve leaflet motion
  • DOI:
    10.1007/s00380-022-02193-x
  • 发表时间:
    2022-10-27
  • 期刊:
  • 影响因子:
    1.500
  • 作者:
    Mohammad Abdelghani;Mohamed Abdelfattah;Ahmed Mohamed Diab;Hamada Elsheikh;Mohy E. Mansour Elabbady
  • 通讯作者:
    Mohy E. Mansour Elabbady
Investigation and monitoring of rotational landslides in El Mokkattam plateau Egypt, using integrated geological and geophysical techniques
  • DOI:
    10.1016/j.heliyon.2024.e36545
  • 发表时间:
    2024-09-15
  • 期刊:
  • 影响因子:
  • 作者:
    Mohamed A. Gamal;Mohamed Abdelfattah;George Maher
  • 通讯作者:
    George Maher
Exploring the Limits of Semantic Image Compression at Micro-bits per Pixel
探索每像素微比特语义图像压缩的极限
  • DOI:
    10.48550/arxiv.2402.13536
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jordan Dotzel;Bahaa Kotb;James Dotzel;Mohamed Abdelfattah;Zhiru Zhang
  • 通讯作者:
    Zhiru Zhang
Monitoring coastal changes in Port Said, Egypt using multi-temporal satellite imagery and GIS-DSAS
  • DOI:
    10.1007/s40808-024-02266-y
  • 发表时间:
    2025-01-04
  • 期刊:
  • 影响因子:
    2.900
  • 作者:
    Hany F. Abd-Elhamid;Mohamed Abdelfattah;Martina Zeleňáková;Abd Elnaby Kabeel;Jacek Barańczuk;Salem S. Gharbia;Mohamed Mahdy
  • 通讯作者:
    Mohamed Mahdy
Comparative Study between Erector Spinae Plane Block versus Intravenous Morphine as Postoperative Analgesia after Spine Surgeries
竖脊肌平面阻滞与静脉吗啡用于脊柱术后镇痛的比较研究
  • DOI:
    10.21608/ejhm.2024.348925
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Khaled Mohamed;Hamza Hassan;Abo Alam;Mahmoud Mohamed Abo;Elhamd Abd;Elrahman;Khaled Abdelfattah;Mohamed Abdelfattah;Mohamed Abo Elhamd;Abd Elrahman
  • 通讯作者:
    Abd Elrahman

Mohamed Abdelfattah的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Mohamed Abdelfattah', 18)}}的其他基金

SHF: Small: Domain-Specific FPGAs to Accelerate Unrolled DNNs with Fine-Grained Unstructured Sparsity and Mixed Precision
SHF:小型:特定领域 FPGA 加速具有细粒度非结构化稀疏性和混合精度的展开 DNN
  • 批准号:
    2303626
  • 财政年份:
    2023
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Standard Grant

相似国自然基金

面向大语言模型的高效参数微调方法研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
“蒸发-喷雾”法制备高效大尺寸钙钛矿太阳电池关键技术研究
  • 批准号:
    JCZRLH202500074
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
万瓦级激光高效熔覆大层厚、高性能硬面合金层关键技术基础研究
  • 批准号:
    JCZRYB202500475
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
海洋生物资源创新利用与可持续发展-大黄鱼大规格苗种高效绿色牧场化培育模式集成与创新
  • 批准号:
    2025C02086
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于分片区块链的安全高效可扩展联邦大模型训练研究
  • 批准号:
    MS25F020004
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
面向机器人高效自主决策的多模态具身大模型研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
面向多领域多任务的大模型高效部署关键技术研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
求同存异:基于KV缓存压缩与量化中同质性异质性现象建模的大模型长文本高效推理
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
面向大模型数据高效存取的新一代分区存储机制
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
大跨桥梁多灾害全寿命高效复合减振理论与技术
  • 批准号:
    2025JJ20053
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目

相似海外基金

CAREER: A Multi-faceted Framework to Enable Computationally Efficient Evaluation and Automatic Design for Large-scale Economics-driven Transmission Planning
职业生涯:一个多方面的框架,可实现大规模经济驱动的输电规划的计算高效评估和自动设计
  • 批准号:
    2339956
  • 财政年份:
    2024
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Continuing Grant
CAREER: Efficient and Scalable Large Foundational Model Training on Supercomputers for Science
职业:科学超级计算机上高效且可扩展的大型基础模型训练
  • 批准号:
    2340011
  • 财政年份:
    2024
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Standard Grant
CAREER: Algorithm-Hardware Co-design of Efficient Large Graph Machine Learning for Electronic Design Automation
职业:用于电子设计自动化的高效大图机器学习的算法-硬件协同设计
  • 批准号:
    2340273
  • 财政年份:
    2024
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Continuing Grant
CAREER: Toward Hierarchical Game Theory and Hybrid Learning Framework for Safe, Efficient Large-scale Multi-agent Systems
职业:面向安全、高效的大规模多智能体系统的分层博弈论和混合学习框架
  • 批准号:
    2144646
  • 财政年份:
    2022
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Continuing Grant
CAREER: A Parallel and Efficient Computational Framework for Unified Volumetric Meshing in Large-Scale 3D/4D Anisotropy
职业生涯:大规模 3D/4D 各向异性中统一体积网格划分的并行高效计算框架
  • 批准号:
    1845962
  • 财政年份:
    2019
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Continuing Grant
CAREER: A New Efficient and Cooperative Large-Scale Distributed Data Sharing System
CAREER:新型高效协作的大规模分布式数据共享系统
  • 批准号:
    1733596
  • 财政年份:
    2017
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Continuing Grant
CAREER: Statistical Inference on Large Domains and Large Networks: Fundamental Limits and Efficient Algorithms
职业:大型域和大型网络的统计推断:基本限制和高效算法
  • 批准号:
    1651588
  • 财政年份:
    2017
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Continuing Grant
CAREER: A New Efficient and Cooperative Large-Scale Distributed Data Sharing System
CAREER:新型高效协作的大规模分布式数据共享系统
  • 批准号:
    1254006
  • 财政年份:
    2013
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Continuing Grant
CAREER: Large-Scale Recognition Using Shared Structures, Flexible Learning, and Efficient Search
职业:使用共享结构、灵活学习和高效搜索的大规模识别
  • 批准号:
    1053768
  • 财政年份:
    2011
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Continuing Grant
CAREER: Efficient and Robust On-Line Control of Large-Scale Dynamic Traffic Systems with Information Systems
职业:利用信息系统对大规模动态交通系统进行高效、鲁棒的在线控制
  • 批准号:
    9702612
  • 财政年份:
    1997
  • 资助金额:
    $ 88.31万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了