CNS Core: Small: Toward Globally-Optimal Resource Distribution and Computation Acceleration in Multi-Tenant and Heterogeneous Machine Learning Systems

CNS 核心:小型:在多租户和异构机器学习系统中实现全局最优资源分配和计算加速

基本信息

  • 批准号:
    2008248
  • 负责人:
  • 金额:
    $ 49.99万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-10-01 至 2023-09-30
  • 项目状态:
    已结题

项目摘要

In the era of large-scale deep learning (DL) and massive data, existing hardware systems have struggled to effectively accommodate heavy and complex computing workload due to difficulties in scheduling highly dynamic, heterogeneous, and competing tasks from many users over many machines in a cluster or data-center environment. This project aims to develop a "1-click" demand-aware and responsive software system capable of simultaneously training a wide spectrum of DL tasks, using a new resource management architecture that automatically and adaptively chooses the most effective distributed training/serving techniques and their hyperparameters to achieve best overall efficiency of multiple tasks in such environment.This interdisciplinary project innovates in distributed systems design, DL algorithm design, and related industrial applications and theoretical analyses, with the following thrusts: 1: Develop a framework for "ML-aware" resource management and scheduling of multiple simultaneously running training tasks. 2: Develop principled strategies for resource management and scheduling for serving, streaming, and heterogeneous-task settings. 3: Optimize memory resources for training large-parameter models by developing holistic approaches to maximize computation throughput subject to device memory bounds. A limited-scope but rigorous and practical theoretical analysis of some of the proposed architectures will also be performed. This project addresses the needs from the academic and industrial communities and will have a broad impact on both. It will provide easy-to-use tools that reduce the time to set-up and facilitate large-scale experimentation, while reducing the required costs, whether measured in cluster access quotas or dollars spent on cloud services. The impact on commercial practitioners will be even greater, by improving their productivity by an order of magnitude or more, as they must contend with heterogeneous computing and network resources that are shared among many users as well as the need to run many jobs on a regular basis.The team will release and/or open-source the code at http://sailing-lab.wixsite.com/sailing-pmls to benefit researchers and practitioners, to share their lessons learned to advocate more research in machine learning (ML) systems problems, and also to democratize high-performance ML systems and make them accessible to non-ML-educated software developers and society at large, such as industrial and manufacturing, healthcare, biology, social science, and finance, where results may have a catalytic impact. The team will publish results at a variety of top tier conferences, including machine learning (NIPS, ICML), systems (OSDI, SOSP, USENIX), and data mining (KDD, WWW).This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
在大规模深度学习(DL)和海量数据的时代,现有的硬件系统一直在努力有效地适应繁重和复杂的计算工作负载,这是由于在集群或数据中心环境中调度来自许多用户的高度动态、异构和竞争性任务的困难。该项目旨在开发一个“一键”的需求感知和响应的软件系统,能够同时训练广泛的DL任务,使用一种新的资源管理架构,自动和自适应地选择最有效的分布式训练/服务技术及其超参数,以实现在这种环境中多个任务的最佳整体效率。DL算法的设计,以及相关的工业应用和理论分析,具有以下几个方面的重点:1:开发一个“ML感知”的资源管理和调度的多个同时运行的训练任务的框架。2:为服务、流和异构任务设置制定资源管理和调度的原则性策略。第三章:通过开发整体方法来优化内存资源,以训练大参数模型,从而最大限度地提高受设备内存限制的计算吞吐量。一个有限的范围,但严格和实用的理论分析,一些建议的架构也将执行。该项目解决了学术界和工业界的需求,并将对两者产生广泛的影响。它将提供易于使用的工具,减少设置时间并促进大规模实验,同时降低所需的成本,无论是以集群访问配额还是花费在云服务上的美元来衡量。对商业从业者的影响将更大,通过提高他们的生产力一个数量级或更多,因为他们必须应对异构计算和网络资源,这些资源在许多用户之间共享,以及需要定期运行许多作业。该团队将在www.example.com上发布和/或开源代码http://sailing-lab.wixsite.com/sailing-pmls以使研究人员和从业者受益,分享他们的经验教训,倡导对机器学习(ML)系统问题进行更多的研究,并使高性能ML系统民主化,使其能够被未受过ML教育的软件开发人员和整个社会所访问,例如工业和制造业,医疗保健,生物学,社会科学和金融,其结果可能具有催化作用。该团队将在各种顶级会议上发布结果,包括机器学习(NIPS,ICML),系统(OSDI,SOSP,USENIX)和数据挖掘(KDD,WWW)。该奖项反映了NSF的法定使命,并被认为值得通过使用基金会的知识价值和更广泛的影响审查标准进行评估来支持。

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Cuttlefish: Low-Rank Model Training without All the Tuning
  • DOI:
    10.48550/arxiv.2305.02538
  • 发表时间:
    2023-05
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hongyi Wang;Saurabh Agarwal;Pongsakorn U-chupala;Yoshiki Tanaka;Eric P. Xing;Dimitris Papailiopoulos
  • 通讯作者:
    Hongyi Wang;Saurabh Agarwal;Pongsakorn U-chupala;Yoshiki Tanaka;Eric P. Xing;Dimitris Papailiopoulos
On Optimizing the Communication of Model Parallelism
  • DOI:
    10.48550/arxiv.2211.05322
  • 发表时间:
    2022-11
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yonghao Zhuang;Hexu Zhao;Lianmin Zheng;Zhuohan Li;Eric P. Xing;Qirong Ho;Joseph E. Gonzalez
  • 通讯作者:
    Yonghao Zhuang;Hexu Zhao;Lianmin Zheng;Zhuohan Li;Eric P. Xing;Qirong Ho;Joseph E. Gonzalez
MPCFormer: fast, performant and private Transformer inference with MPC
  • DOI:
    10.48550/arxiv.2211.01452
  • 发表时间:
    2022-11
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Dacheng Li;Rulin Shao;Hongyi Wang;Han Guo;Eric P. Xing;Haotong Zhang
  • 通讯作者:
    Dacheng Li;Rulin Shao;Hongyi Wang;Han Guo;Eric P. Xing;Haotong Zhang
Making Scalable Meta Learning Practical
  • DOI:
    10.48550/arxiv.2310.05674
  • 发表时间:
    2023-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sang Keun Choe;Sanket Vaibhav Mehta;Hwijeen Ahn;W. Neiswanger;Pengtao Xie;Emma Strubell;Eric P. Xing
  • 通讯作者:
    Sang Keun Choe;Sanket Vaibhav Mehta;Hwijeen Ahn;W. Neiswanger;Pengtao Xie;Emma Strubell;Eric P. Xing
Betty: An Automatic Differentiation Library for Multilevel Optimization
  • DOI:
    10.48550/arxiv.2207.02849
  • 发表时间:
    2022-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sang Keun Choe;W. Neiswanger;P. Xie;Eric P. Xing
  • 通讯作者:
    Sang Keun Choe;W. Neiswanger;P. Xie;Eric P. Xing
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Eric Xing其他文献

What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions
您的数据对 GPT 有何价值?
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sang Keun Choe;Hwijeen Ahn;Juhan Bae;Kewen Zhao;Minsoo Kang;Youngseog Chung;Adithya Pratapa;W. Neiswanger;Emma Strubell;Teruko Mitamura;Jeff Schneider;Eduard Hovy;Roger Grosse;Eric Xing
  • 通讯作者:
    Eric Xing
Applications of artificial intelligence in public health: analyzing the built environment and addressing spatial inequities
  • DOI:
    10.1007/s10389-025-02444-x
  • 发表时间:
    2025-03-19
  • 期刊:
  • 影响因子:
    1.600
  • 作者:
    Ana Luiza Favarão Leão;Bernard Banda;Eric Xing;Sanketh Gudapati;Adeel Ahmad;Jonathan Lin;Srikumar Sastry;Nathan Jacobs;Rodrigo Siqueira Reis
  • 通讯作者:
    Rodrigo Siqueira Reis
An exploratory study of self-supervised pre-training on partially supervised multi-label classification on chest X-ray images
胸部X射线图像部分监督多标签分类自监督预训练的探索性研究
  • DOI:
    10.1016/j.asoc.2024.111855
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    8.7
  • 作者:
    Nanqing Dong;Michael Kampffmeyer;Haoyang Su;Eric Xing
  • 通讯作者:
    Eric Xing

Eric Xing的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Eric Xing', 18)}}的其他基金

III: Small: Multiple Device Collaborative Learning in Real Heterogeneous and Dynamic Environments
III:小:真实异构动态环境中的多设备协作学习
  • 批准号:
    2311990
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
ML Basis for Intelligence Augmentation:Toward Personalized Modeling, Reasoning under Data-Knowledge Symbiosis, and Interpretable Interaction for AI-assisted Human Decision-making
智能增强的机器学习基础:面向人工智能辅助人类决策的个性化建模、数据知识共生下的推理和可解释的交互
  • 批准号:
    2040381
  • 财政年份:
    2021
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Continuing Grant
Collaborative Research: SCH: Trustworthy and Explainable AI for Neurodegenerative Diseases
合作研究:SCH:值得信赖且可解释的人工智能治疗神经退行性疾病
  • 批准号:
    2123952
  • 财政年份:
    2021
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
III: Small: A New Approach to Latent Space Learning with Diversity-Inducing Regularization and Applications to Healthcare Data Analytics
III:小型:具有多样性诱导正则化的潜在空间学习新方法及其在医疗保健数据分析中的应用
  • 批准号:
    1617583
  • 财政年份:
    2016
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
XPS: FULL: Broad-Purpose, Aggressively Asynchronous and Theoretically Sound Parallel Large-scale Machine Learning
XPS:FULL:用途广泛、积极异步且理论上合理的并行大规模机器学习
  • 批准号:
    1629559
  • 财政年份:
    2016
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
BIGDATA: F: DKA: Collaborative Research: Theory and Algorithms for Parallel Probabilistic Inference with Big Data, via Big Model, in Realistic Distributed Computing Environments
BIGDATA:F:DKA:协作研究:在现实分布式计算环境中通过大模型进行大数据并行概率推理的理论和算法
  • 批准号:
    1447676
  • 财政年份:
    2014
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
III: Small: Collaborative Research: Efficient, Nonparametric and Local-Minimum-Free Latent Variable Models: With Application to Large-Scale Computer Vision and Genomics
III:小型:协作研究:高效、非参数和局部最小自由潜变量模型:应用于大规模计算机视觉和基因组学
  • 批准号:
    1218282
  • 财政年份:
    2012
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Continuing Grant
III: Small: Collaborative Research: Using Large-Scale Image Data for Online Social Media Analysis
III:小:协作研究:使用大规模图像数据进行在线社交媒体分析
  • 批准号:
    1115313
  • 财政年份:
    2011
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
Collaborative Research: Discovering and Exploiting Latent Communities in Social Media
协作研究:发现和利用社交媒体中的潜在社区
  • 批准号:
    1111142
  • 财政年份:
    2011
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
Indexing, Mining and Modeling Spatio-Temporal Patterns of Gene Expressions
基因表达时空模式的索引、挖掘和建模
  • 批准号:
    0640543
  • 财政年份:
    2007
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Continuing Grant

相似国自然基金

胆固醇羟化酶CH25H非酶活依赖性促进乙型肝炎病毒蛋白Core及Pre-core降解的分子机制研究
  • 批准号:
    82371765
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
锕系元素5f-in-core的GTH赝势和基组的开发
  • 批准号:
    22303037
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于合成致死策略搭建Core-matched前药共组装体克服肿瘤耐药的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    52 万元
  • 项目类别:
鼠伤寒沙门氏菌LPS core经由CD209/SphK1促进树突状细胞迁移加重炎症性肠病的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
肌营养不良蛋白聚糖Core M3型甘露糖肽的精确制备及功能探索
  • 批准号:
    92053110
  • 批准年份:
    2020
  • 资助金额:
    70.0 万元
  • 项目类别:
    重大研究计划
Core-1-O型聚糖黏蛋白缺陷诱导胃炎发生并介导慢性胃炎向胃癌转化的分子机制研究
  • 批准号:
    81902805
  • 批准年份:
    2019
  • 资助金额:
    20.5 万元
  • 项目类别:
    青年科学基金项目
原始地球增生晚期的Core-merging大碰撞事件:地核增生、核幔平衡与核幔边界结构的新认识
  • 批准号:
    41973063
  • 批准年份:
    2019
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
RBM38通过协助Pol-ε结合、招募core调控HBV复制
  • 批准号:
    31900138
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
CORDEX-CORE区域气候模拟与预估研讨会
  • 批准号:
    41981240365
  • 批准年份:
    2019
  • 资助金额:
    1.5 万元
  • 项目类别:
    国际(地区)合作与交流项目

相似海外基金

CNS Core: Small: Core Scheduling Techniques and Programming Abstractions for Scalable Serverless Edge Computing Engine
CNS Core:小型:可扩展无服务器边缘计算引擎的核心调度技术和编程抽象
  • 批准号:
    2322919
  • 财政年份:
    2024
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
CNS Core: Small: Network Wide Sensing by Leveraging Cellular Communication Networks
CNS 核心:小型:利用蜂窝通信网络进行全网络传感
  • 批准号:
    2343469
  • 财政年份:
    2024
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
CNS Core: Small: Intelligent Fault Injection to Expose and Reproduce Production-Grade Bugs in Cloud Systems
CNS 核心:小型:智能故障注入以暴露和重现云系统中的生产级错误
  • 批准号:
    2317698
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
CNS Core: Small: Repurposing Smartphones to Minimize Carbon
CNS 核心:小型:重新利用智能手机以最大限度地减少碳排放
  • 批准号:
    2233894
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: A Compilation System for Mapping Deep Learning Models to Tensorized Instructions (DELITE)
合作研究:CNS Core:Small:将深度学习模型映射到张量化指令的编译系统(DELITE)
  • 批准号:
    2230945
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
Collaborative Research: NSF-AoF: CNS Core: Small: Towards Scalable and Al-based Solutions for Beyond-5G Radio Access Networks
合作研究:NSF-AoF:CNS 核心:小型:面向超 5G 无线接入网络的可扩展和基于人工智能的解决方案
  • 批准号:
    2225578
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
CNS Core: Small: Toward Opportunistic, Fast, and Robust In-Cache AI Acceleration at the Edge
CNS 核心:小型:在边缘实现机会主义、快速且稳健的缓存内 AI 加速
  • 批准号:
    2228028
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: SmartSight: an AI-Based Computing Platform to Assist Blind and Visually Impaired People
合作研究:中枢神经系统核心:小型:SmartSight:基于人工智能的计算平台,帮助盲人和视障人士
  • 批准号:
    2418188
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
CNS Core: Small: Redesigning I/O Across Heterogeneous Systems
CNS 核心:小型:跨异构系统重新设计 I/O
  • 批准号:
    2231724
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: Creating An Extensible Internet Through Interposition
合作研究:CNS核心:小:通过介入创建可扩展的互联网
  • 批准号:
    2242503
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了