CSR: Small: Latency-controlled Reduction of Data Center Expenses for Handling Bursty ML Inference Requests

CSR:小:通过延迟控制减少数据中心处理突发 ML 推理请求的费用

基本信息

  • 批准号:
    2336886
  • 负责人:
  • 金额:
    $ 60万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2024
  • 资助国家:
    美国
  • 起止时间:
    2024-01-01 至 2026-12-31
  • 项目状态:
    未结题

项目摘要

Data centers must often over-provision the GPUs used for online machine learning (ML) inference because inference requests can arrive in a large number as bursts. Such over-provisioning results in unnecessarily high capital expenses (CapEx) for data centers. This project aims to design a holistic management framework that handles bursty ML inference requests with latency guarantees and minimized CapEx. First, the proposed framework will co-locate ML inference and training workloads efficiently on the same GPUs, with latency guarantees, for improving GPU utilization. As a result, GPUs can be used mostly for inference when a request burst comes, and then mostly for training afterwards, which can reduce the number of GPUs needed, and thus the data center’s CapEx. Second, a novel task scheduling algorithm will be designed to consolidate negatively correlated ML tasks onto the same GPUs for further reducing CapEx. Third, data center power/cooling CapEx will be reduced as well, by exploiting existing energy storage devices already equipped in most data centers to supply additional energy during a burst, in order to avoid expensive power facility upgrades. Finally, all the software, hardware, and power/cooling facilities will be coordinated as a holistic framework to efficiently manage a data center as one massive warehouse-scale computer.As ML cloud services are becoming increasingly popular, the fast-growing business demands for computing are driving data centers to run their GPUs and servers with higher performance and lower costs. The success of this project would positively impact data center design by allowing data centers to safely handle ML inference bursts, with desirable latency guarantees and minimized CapEx. Currently, in order to deal with bursty ML workloads at an increasing scale with latency guarantees, a data center must often 1) over-provision their inference GPUs and keep them separated from GPUs used for training in order to minimize the risk of resource competition that might jeopardize inference latency; and 2) upgrade the corresponding power/cooling facilities for hosting the increasing number of GPUs and servers to prepare for occasional worst-case scenarios. Such capital investment increases can impose a serious burden on ML/AI companies that run their own data centers. For start-ups and smaller ML/AI companies that rely on the cloud, the higher data center CapEx can lead to higher cloud service bills. The proposed framework can provide latency-controlled CapEx reduction for data centers, thus allowing those booming ML/AI companies to have a better chance of success. Further, this project could benefit other workloads that also perform intensive GPU computing, such as high-performance computing, big data analytics, and cloud virtual reality. The results of the project will be transitioned into new and existing undergraduate and graduate courses at The Ohio State University. Students from groups underrepresented in computing will be actively recruited in this project.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据中心必须经常过度配置用于在线机器学习(ML)推理的GPU,因为推理请求可能会以突发方式大量到达。这种过度配置会导致数据中心的资本支出(CapEx)不必要地高。该项目旨在设计一个整体管理框架,以处理具有延迟保证和最小化CapEx的突发ML推理请求。首先,所提出的框架将在相同的GPU上有效地协同定位ML推理和训练工作负载,并保证延迟,以提高GPU利用率。因此,GPU可以在请求突发时主要用于推理,然后主要用于之后的训练,这可以减少所需的GPU数量,从而减少数据中心的CapEx。其次,将设计一种新的任务调度算法,将负相关的ML任务合并到相同的GPU上,以进一步降低资本支出。第三,数据中心电力/冷却资本支出也将减少,通过利用大多数数据中心已经配备的现有储能设备在突发期间提供额外的能量,以避免昂贵的电力设施升级。最后,所有的软件、硬件和电源/冷却设施将作为一个整体框架进行协调,以便将数据中心作为一个大型仓库规模的计算机进行有效管理。随着ML云服务越来越受欢迎,快速增长的业务计算需求正在推动数据中心以更高的性能和更低的成本运行其GPU和服务器。该项目的成功将对数据中心设计产生积极影响,允许数据中心安全地处理ML推理突发,并具有理想的延迟保证和最小化的资本支出。目前,为了在延迟保证的情况下处理越来越大规模的突发ML工作负载,数据中心必须经常1)过度配置其推理GPU,并将其与用于训练的GPU分开,以最小化可能危及推理延迟的资源竞争的风险;以及2)升级相应的电源/冷却设施,以托管越来越多的GPU和服务器,为偶尔出现的最坏情况做好准备。这种资本投资的增加可能会给运营自己数据中心的ML/AI公司带来严重的负担。对于依赖云的初创企业和小型ML/AI公司来说,更高的数据中心资本支出可能会导致更高的云服务费用。拟议的框架可以为数据中心提供延迟控制的资本支出减少,从而使那些蓬勃发展的ML/AI公司有更好的成功机会。此外,该项目还可以使其他执行密集型GPU计算的工作负载受益,例如高性能计算,大数据分析和云虚拟现实。该项目的结果将转移到俄亥俄州州立大学新的和现有的本科和研究生课程中。该奖项反映了NSF的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Xiaorui Wang其他文献

Osmotic Pump-based Drug-delivery for In Vivo Remyelination Research on the Central Nervous System
基于渗透泵的药物输送用于中枢神经系统体内髓鞘再生研究
  • DOI:
    10.3791/63343
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiaorui Wang;Yixun Su;Xuelian Hu;Jianqin Niu
  • 通讯作者:
    Jianqin Niu
Minimum variance in fast, slow and dual‐rate control loops
快速、慢速和双速率控制环路中的最小方差
Modeling of the mid-wave infrared radiation characteristics of the sea surface based on measured data
基于实测数据的海面中波红外辐射特征建模
  • DOI:
    10.1016/j.infrared.2018.07.005
  • 发表时间:
    2018-09
  • 期刊:
  • 影响因子:
    3.3
  • 作者:
    Hang Yuan;Xiaorui Wang;Bingtao Guo;Weiguo Zhang
  • 通讯作者:
    Weiguo Zhang
SA4U: Practical Static Analysis for Unit Type Error Detection
SA4U:单元类型错误检测的实用静态分析
Insight into the mechanism of boron-doping of carbon aerogel for enhancing the activity of low-temperature selective catalytic reduction of NO with NH3
碳气凝胶硼掺杂增强NH3低温选择性催化还原NO活性的机理研究
  • DOI:
    10.1039/d0cy02006k
  • 发表时间:
    2021-03
  • 期刊:
  • 影响因子:
    5
  • 作者:
    Minghe Yang;He Wang;Shuangling Jin;Rui Zhang;Yan Wang;Wanying Huo;Xiaorui Wang;Minglin Jin;Wenming Qiao;Licheng Ling
  • 通讯作者:
    Licheng Ling

Xiaorui Wang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Xiaorui Wang', 18)}}的其他基金

CNS Core: Small: Leveraging Hardware Counters to Improve the Performance and Energy Efficiency of Mobile Apps
CNS 核心:小型:利用硬件计数器提高移动应用程序的性能和能源效率
  • 批准号:
    2149533
  • 财政年份:
    2022
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: Small: Joint Power Optimization of Data Center Network and Servers with Correlation Analysis and Scalability
CSR:小型:通过相关性分析和可扩展性对数据中心网络和服务器进行联合功率优化
  • 批准号:
    1421452
  • 财政年份:
    2014
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research: Integrated Control of Fidelity and Real-Time Performance in Networked Sensing Systems
CSR:小型:协作研究:网络传感系统中保真度和实时性能的集成控制
  • 批准号:
    1218154
  • 财政年份:
    2012
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CAREER: Coordinated Power and Thermal Management for Virtualized Data Centers: Algorithms, Framework, and Middleware
职业:虚拟化数据中心的协调电源和热管理:算法、框架和中间件
  • 批准号:
    1143607
  • 财政年份:
    2011
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
III: Small: Collaborative Research: Making Databases Green - An Energy-Aware DBMS Approach
III:小型:协作研究:使数据库变得绿色 - 一种节能意识 DBMS 方法
  • 批准号:
    1116790
  • 财政年份:
    2011
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
SHF: Small: Coordinated Performance Optimization within a Power Budget for Chip Multiprocessors
SHF:小型:芯片多处理器功率预算内的协调性能优化
  • 批准号:
    1143605
  • 财政年份:
    2011
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
III: Small: Collaborative Research: Making Databases Green - An Energy-Aware DBMS Approach
III:小型:协作研究:使数据库变得绿色 - 一种节能意识 DBMS 方法
  • 批准号:
    1156435
  • 财政年份:
    2011
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
SHF: Small: Coordinated Performance Optimization within a Power Budget for Chip Multiprocessors
SHF:小型:芯片多处理器功率预算内的协调性能优化
  • 批准号:
    1017336
  • 财政年份:
    2010
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CAREER: Coordinated Power and Thermal Management for Virtualized Data Centers: Algorithms, Framework, and Middleware
职业:虚拟化数据中心的协调电源和热管理:算法、框架和中间件
  • 批准号:
    0845390
  • 财政年份:
    2009
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
CSR:Small: A Control-Theoretic Approach to Simultaneously Meeting Timing and Power/Thermal Constraints for Multi-Core Embedded Systems
CSR:Small:同时满足多核嵌入式系统的时序和功耗/热约束的控制理论方法
  • 批准号:
    0915959
  • 财政年份:
    2009
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CSR: Small: Data on the Edge: Leveraging Edge Datacenters for Low-latency, Fault-tolerant, mobile Geo-replicated Transactional Data Stores
CSR:小型:边缘数据:利用边缘数据中心实现低延迟、容错、移动地理复制事务数据存储
  • 批准号:
    1815733
  • 财政年份:
    2018
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research: Improving Latency in Geo-Replicated Storage by Relaxing Consistency Requirements
CSR:小型:协作研究:通过放宽一致性要求来改善地理复制存储的延迟
  • 批准号:
    1816487
  • 财政年份:
    2018
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: SMALL: Low-Latency Model Inference Using Cellular Batching
CSR:SMALL:使用蜂窝批处理的低延迟模型推理
  • 批准号:
    1816717
  • 财政年份:
    2018
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research: Improving Latency in Geo-Replicated Storage by Relaxing Consistency Requirements
CSR:小型:协作研究:通过放宽一致性要求来改善地理复制存储的延迟
  • 批准号:
    1849599
  • 财政年份:
    2018
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research: Improving Latency in Geo-Replicated Storage by Relaxing Consistency Requirements
CSR:小型:协作研究:通过放宽一致性要求来改善地理复制存储的延迟
  • 批准号:
    1815378
  • 财政年份:
    2018
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: Small: SmartEdge for Low Latency and Consistent Mobile Web Applications
CSR:小型:用于低延迟和一致的移动 Web 应用程序的 SmartEdge
  • 批准号:
    1618921
  • 财政年份:
    2016
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: Small: Bridging Efficiency and Low Latency in Warehouse-scale Computing
CSR:小型:在仓库规模计算中实现效率和低延迟
  • 批准号:
    1422088
  • 财政年份:
    2014
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: SHF: SMALL: Efficient, Low-Latency Networked Storage
CSR:SHF:小型:高效、低延迟的网络存储
  • 批准号:
    1320071
  • 财政年份:
    2013
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: Small: Bringing Predictable Low Latency and Strong Consistency to Data Center Services
CSR:小:为数据中心服务带来可预测的低延迟和强一致性
  • 批准号:
    1217597
  • 财政年份:
    2012
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CSR: Small: Towards a Co-Designed Latency-Centric On-Chip Communication Substrate
CSR:小:迈向共同设计的以延迟为中心的片上通信基板
  • 批准号:
    1217662
  • 财政年份:
    2012
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了