CSR: SMALL: Low-Latency Model Inference Using Cellular Batching

CSR:SMALL:使用蜂窝批处理的低延迟模型推理

基本信息

  • 批准号:
    1816717
  • 负责人:
  • 金额:
    $ 41.13万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-09-01 至 2021-08-31
  • 项目状态:
    已结题

项目摘要

Successful cloud deployment of machine learning services, such as language translation, image search and home assistants require a high performance serving system that can process hundreds of thousands requests per second. It is particularly crucial for the serving system to ensure low latency, as even tens of milliseconds increase in delays can annoy users when using a service like the home assistant. Among the widely-used deep learning models, recurrent neural network (RNN) is an important class of models that incur high latency when processed by existing serving systems. This project aims to develop a new serving system that can handle a variety of Artificial Intelligence (AI) tasks using RNN-based deep learning models with significantly improved latency.To achieve good throughput on modern hardware, one must perform batched computation. This project develops a new, dynamic approach to batching, called Cellular Batching. Cellular Batching performs batching and execution at the granularity of a "cell" (aka a subgraph with embedded model weights) instead of the entire dataflow graph, as is done in existing systems. Under Cellular Batching, a new request can immediately join the execution of ongoing requests to minimize queuing delays and increase effective batching. The project will complete research tasks that make Cellular Batching practical (by developing an efficient scheduler and supporting zero-downtime model upgrading) and generalize it to different models such as search-guided RNNs.Deep learning models based on RNNs are becoming widely used to accomplish various AI tasks ranging from speech recognition and language translation, to question answering. As such, there is a pressing demand for a high-throughput and low-latency serving system, in order to improve end-user experience and reduce the cost of deployment. By demonstrating significant latency and throughput benefits, there is high potential for Cellular Batching to be widely adopted. This project will also develop a new course component on high performance machine learning systems as part of the graduate-level distributed systems course.This project will produce data in the form of source code, various serving benchmarks, and experimental results. The source code and all benchmarks used in the experiments will be distributed via Github. A local copy of the source code and the publications produced by the project will also be made available at the URL (http://batchmaker.news.cs.nyu.edu) for at least three years beyond the award period.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
机器学习服务的成功云部署,如语言翻译、图像搜索和家庭助理,需要一个每秒可以处理数十万个请求的高性能服务系统。 对于服务系统来说,确保低延迟尤其重要,因为即使延迟增加数十毫秒,在使用家庭助理等服务时也会惹恼用户。 在广泛使用的深度学习模型中,递归神经网络(RNN)是一类重要的模型,在由现有服务系统处理时会产生高延迟。 该项目旨在开发一种新的服务系统,该系统可以使用基于RNN的深度学习模型处理各种人工智能(AI)任务,并显着改善延迟。为了在现代硬件上实现良好的吞吐量,必须执行批处理计算。 该项目开发了一种新的动态方法来进行批量处理,称为Cellular Batching。 Cellular Batching以“cell”(也称为具有嵌入式模型权重的子图)的粒度执行优化和执行,而不是像现有系统中所做的那样,以整个优化图执行。 在Cellular Batching下,新的请求可以立即加入正在进行的请求的执行,以最大限度地减少排队延迟并增加有效的排队时间。 该项目将完成使Cellular Batching实用化的研究任务(通过开发高效的调度器和支持零停机模型升级),并将其推广到不同的模型,如搜索引导的RNN。基于RNN的深度学习模型正被广泛用于完成从语音识别和语言翻译到问答的各种人工智能任务。 因此,迫切需要高吞吐量和低延迟的服务系统,以改善最终用户体验并降低部署成本。 通过展示显着的延迟和吞吐量优势,Cellular Batching有很大的潜力被广泛采用。 该项目还将开发一个新的高性能机器学习系统课程组件,作为研究生级分布式系统课程的一部分。该项目将以源代码、各种服务基准和实验结果的形式生成数据。 实验中使用的源代码和所有基准测试将通过Github分发。 该项目的源代码和出版物的本地副本也将在URL(http://www.example.com)上提供,至少在授予期后的三年内。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。batchmaker.news.cs.nyu.edu

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Supporting Very Large Models using Automatic Dataflow Graph Partitioning
SwapAdvisor: Pushing Deep Learning Beyond the GPU Memory Limit via Smart Swapping
Deep Graph Library: Towards Efficient and Scalable Deep Learning on Graphs
  • DOI:
  • 发表时间:
    2019-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Minjie Wang;Lingfan Yu;Da Zheng;Quan Gan;Yujie Gai;Zihao Ye;Mufei Li;Jinjing Zhou;Qi Huang-
  • 通讯作者:
    Minjie Wang;Lingfan Yu;Da Zheng;Quan Gan;Yujie Gai;Zihao Ye;Mufei Li;Jinjing Zhou;Qi Huang-
Low latency RNN inference with cellular batching
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Jinyang Li其他文献

A 65-nm ReRAM-Enabled Nonvolatile Processor With Time-Space Domain Adaption and Self-Write-Termination Achieving > 4x Faster Clock Frequency and > 6x Higher Restore Speed
具有时空域适应和自写终止功能的 65 nm ReRAM 非易失性处理器,可实现 > 4 倍更快的时钟频率和 > 6 倍更高的恢复速度
  • DOI:
    10.1109/jssc.2017.2724024
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    5.4
  • 作者:
    Zhibo Wang;Yongpan Liu;Albert Lee;Fang Su;Chieh-Pu Lo;Zhe Yuan;Jinyang Li;Chien-Chen Lin;Wei-Hao Chen;Hsiao-Yun Chiu;Wei-En Lin;Ya-Chin King;Chrong-Jung Lin;Pedram Khalili Amiri;Kang-Lung Wang;Meng-Fan Chang;Huazhong Yang
  • 通讯作者:
    Huazhong Yang
Hierarchical patterning via dynamic sacrificial printing of stimuli-responsive hydrogels
通过刺激响应水凝胶的动态牺牲印刷进行分层图案化
  • DOI:
    10.1088/1758-5090/ab7e74
  • 发表时间:
    2020-03
  • 期刊:
  • 影响因子:
    9
  • 作者:
    Hongji Wen;Jinyang Li;Gregory F. Payne;Qi Feng;Minhua Liang;Jingxuan Chen;Hua Dong;Xiaodong Cao
  • 通讯作者:
    Xiaodong Cao
The influence of NOS1AP gene polymorphisms and childhood abuse on antisocial personality disorder in Chinese male violent inmates
NOS1AP基因多态性和童年虐待对中国男性暴力囚犯反社会人格障碍的影响
  • DOI:
    10.1002/pmh.1572
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    2.7
  • 作者:
    Jinyang Li;Lichen Ouyang;Xinyao Liu;Qiuyu Wang;Zhang Min;Gang Liu;Yuan Zhong;Ning Zhang;Chun Wang;Na Liu
  • 通讯作者:
    Na Liu
Routing tradeoffs in dynamic peer-to-peer networks
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jinyang Li
  • 通讯作者:
    Jinyang Li
Detecting Features of Protein Structure through their Mediator-Accessible Redox Activities
通过介体可及的氧化还原活性检测蛋白质结构的特征
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Dana Motabar;Eunkyoung Kim;Jinyang Li;Zhiling Zhao;Trina Mouchahoir;D. T. Gallagher;John E. Schiel;M. Garige;Carole Sourbier;Gregory F. Payne;William E. Bentley
  • 通讯作者:
    William E. Bentley

Jinyang Li的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Jinyang Li', 18)}}的其他基金

Collaborative Research: FMitF: Track I: Automatic Discovery and Verification of Database Query Transformations
合作研究:FMitF:第一轨:数据库查询转换的自动发现和验证
  • 批准号:
    2220407
  • 财政年份:
    2022
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
CSR: Medium: Building next-generation cloud infrastructure using RDMA
CSR:中:使用 RDMA 构建下一代云基础设施
  • 批准号:
    1409942
  • 财政年份:
    2014
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Continuing Grant
CSR: Small: Practical Geo-Replicated Storage for Web Applications
CSR:小型:适用于 Web 应用程序的实用地理复制存储
  • 批准号:
    1218117
  • 财政年份:
    2012
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
CSR: Medium: Collaborative Research: Programming parallel in-memory data-center applications with Piccolo
CSR:媒介:协作研究:使用 Piccolo 对并行内存数据中心应用程序进行编程
  • 批准号:
    1065169
  • 财政年份:
    2011
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Continuing Grant
CAREER: Decentralizing Trust in Open Distributed Systems
职业:开放分布式系统中的去中心化信任
  • 批准号:
    0747052
  • 财政年份:
    2008
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Continuing Grant
CSR-PDOS: ISG: Collaborative Research: Building distributed, wide-area applications using WheelFS
CSR-PDOS:ISG:协作研究:使用 WheelFS 构建分布式广域应用程序
  • 批准号:
    0720644
  • 财政年份:
    2007
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Continuing Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CSR: Small: Evolution of Computer Vision for Low Power Devices, Breaking its Power Wall and Computational Complexity
CSR:小:低功耗设备计算机视觉的发展,打破其功耗墙和计算复杂性
  • 批准号:
    2146726
  • 财政年份:
    2021
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research:Heterogeneous Ultra Low Power Accelerator for Wearable Biomedical Computing
CSR:小型:协作研究:用于可穿戴生物医学计算的异构超低功耗加速器
  • 批准号:
    2006274
  • 财政年份:
    2019
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
CSR: Small: Reconfigurable In-Sensor Architectures for High Speed and Low Power In-situ Image Analysis
CSR:小型:可重构传感器内架构,用于高速、低功耗原位图像分析
  • 批准号:
    1946088
  • 财政年份:
    2019
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Continuing Grant
CSR: Small: Data on the Edge: Leveraging Edge Datacenters for Low-latency, Fault-tolerant, mobile Geo-replicated Transactional Data Stores
CSR:小型:边缘数据:利用边缘数据中心实现低延迟、容错、移动地理复制事务数据存储
  • 批准号:
    1815733
  • 财政年份:
    2018
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
CSR: Small: Ultra-Low Power Analog Computing and Dry Skin-Electrode Contact Interface Design Techniques for Systems-On-A-Chip with EEG Sensing and Feature Extraction
CSR:小型:具有 EEG 传感和特征提取功能的片上系统的超低功耗模拟计算和干皮肤电极接触接口设计技术
  • 批准号:
    1812588
  • 财政年份:
    2018
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
CSR: Small: Evolution of Computer Vision for Low Power Devices, Breaking its Power Wall and Computational Complexity
CSR:小:低功耗设备计算机视觉的发展,打破其功耗墙和计算复杂性
  • 批准号:
    1718538
  • 财政年份:
    2017
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
CSR: Small: Protocols and Languages for Low-Coordination Consistent Geodistributed Transactions
CSR:小型:低协调一致地理分布式事务的协议和语言
  • 批准号:
    1717554
  • 财政年份:
    2017
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
CSR: Small: Reconfigurable In-Sensor Architectures for High Speed and Low Power In-situ Image Analysis
CSR:小型:可重构传感器内架构,用于高速、低功耗原位图像分析
  • 批准号:
    1618606
  • 财政年份:
    2016
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Continuing Grant
CSR: Small: SmartEdge for Low Latency and Consistent Mobile Web Applications
CSR:小型:用于低延迟和一致的移动 Web 应用程序的 SmartEdge
  • 批准号:
    1618921
  • 财政年份:
    2016
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research:Heterogeneous Ultra Low Power Accelerator for Wearable Biomedical Computing
CSR:小型:协作研究:用于可穿戴生物医学计算的异构超低功耗加速器
  • 批准号:
    1526913
  • 财政年份:
    2015
  • 资助金额:
    $ 41.13万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了