CNS Core: Small: Optimizing Distributed Machine Learning for Transient Resources using Loose Synchronization

CNS 核心:小型:使用松散同步优化瞬态资源的分布式机器学习

基本信息

  • 批准号:
    1908536
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2019
  • 资助国家:
    美国
  • 起止时间:
    2019-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

The availability of large-scale data sets in many domains has driven the growth of large-scale distributed machine learning (ML) workloads on cloud platforms to derive insights from this data. To reduce the cost of executing these workloads, cloud platforms have begun to offer transient servers for a highly discounted price. Unfortunately, cloud platforms may revoke transient servers at any time, which can decrease distributed ML performance and eliminate any cost benefit. High revocation rates are especially problematic for distributed ML workloads that support synchronous processing, since revoked servers block others from continuing past predefined synchronization barriers until a replacement server can reach the barrier. While asynchronous processing eliminates this blocking and improves performance, it does not maintain the algorithmic properties of synchronous algorithms, resulting in slower algorithmic convergence or possibly preventing convergence. To maintain performance on low-cost transient servers, this project proposes re-designing traditional distributed ML algorithms to use looser forms of synchrony. Such loose synchronization minds the gap between synchronous and asynchronous processing by maintaining the algorithmic convergence properties of synchronous processing, while enabling some asynchronous processing to avoid blocking. The project combines this loose synchronization approach with adaptive policies for selecting transient servers based on their performance, cost, and volatility to significantly reduce the cost of executing large-scale distributed ML workloads on cloud platforms.Distributed machine learning (ML) workloads that derive insights from large-scale data sets have become the foundation for numerous advances across multiple industry sectors. This project has the potential to accelerate these advances by significantly decreasing the cost and improving the efficiency of executing distributed ML workloads on cloud platforms using transient servers. To benefit the broader community, the project will publicly release its software artifacts as open source. The project will incorporate topics on transient servers and distributed ML into graduate and undergraduate courses on distributed and operation systems. The project will also involve undergraduates in research through related summer research experience projects and undergraduate theses.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
许多领域中大规模数据集的可用性推动了云平台上大规模分布式机器学习(ML)工作负载的增长,以从这些数据中获得见解。 为了降低执行这些工作负载的成本,云平台已经开始以极低的折扣价格提供临时服务器。 不幸的是,云平台可以随时撤销临时服务器,这可能会降低分布式ML性能并消除任何成本效益。 高撤销率对于支持同步处理的分布式ML工作负载来说尤其成问题,因为被撤销的服务器阻止其他服务器继续通过预定义的同步屏障,直到替换服务器可以到达屏障。 虽然异步处理消除了这种阻塞并提高了性能,但它不保持同步算法的算法属性,导致算法收敛较慢或可能阻止收敛。为了保持低成本临时服务器的性能,该项目建议重新设计传统的分布式ML算法,以使用更宽松的同步形式。 这种松散同步通过保持同步处理的算法收敛特性来考虑同步和异步处理之间的差距,同时使某些异步处理能够避免阻塞。该项目将这种松散的同步方法与基于性能、成本和波动性选择临时服务器的自适应策略相结合,以显著降低在云平台上执行大规模分布式机器学习(ML)工作负载的成本。从大规模数据集获得见解的分布式机器学习(ML)工作负载已成为多个行业领域众多进步的基础。该项目有可能通过显着降低成本和提高使用临时服务器在云平台上执行分布式ML工作负载的效率来加速这些进步。为了使更广泛的社区受益,该项目将公开发布其软件工件作为开源。该项目将把关于临时服务器和分布式ML的主题纳入分布式和操作系统的研究生和本科生课程。 该项目还将通过相关的暑期研究经验项目和本科生论文让本科生参与研究。该奖项反映了NSF的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(18)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
The hidden cost of the edge: a performance comparison of edge and cloud latencies
边缘的隐藏成本:边缘和云延迟的性能比较
  • DOI:
    10.1145/3458817.3476142
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ali-Eldin, Ahmed;Wang, Bin;Shenoy, Prashant
  • 通讯作者:
    Shenoy, Prashant
AI on the Edge: Characterizing AI-based IoT Applications Using Specialized Edge Architectures
A Proactive Data-Parallel Framework for Machine Learning
Modeling and Analyzing Waiting Policies for Cloud-Enabled Schedulers
  • DOI:
    10.1109/tpds.2021.3086270
  • 发表时间:
    2021-12
  • 期刊:
  • 影响因子:
    5.3
  • 作者:
    Pradeep Ambati;Noman Bashir;David E. Irwin;Prashant J. Shenoy
  • 通讯作者:
    Pradeep Ambati;Noman Bashir;David E. Irwin;Prashant J. Shenoy
Understanding the Benefits of Hardware-Accelerated Communication in Model-Serving Applications
了解模型服务应用程序中硬件加速通信的好处
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

David Irwin其他文献

On the Implications of Choosing Average versus Marginal Carbon Intensity Signals on Carbon-aware Optimizations
关于选择平均碳强度信号与边际碳强度信号对碳感知优化的影响
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Thanathorn Sukprasert;Noman Bashir;Abel Souza;David Irwin;Prashant Shenoy
  • 通讯作者:
    Prashant Shenoy
397 - Evidence That Cell Free Hemoglobin Directly and Indirectly Activates Smooth Muscle Cells
  • DOI:
    10.1016/j.freeradbiomed.2014.10.046
  • 发表时间:
    2014-11-01
  • 期刊:
  • 影响因子:
  • 作者:
    Zoe Loomis;Paul Eigenberger;David Irwin;Joanne Maltzhan;Malcolm Anderson;Christina Lisk
  • 通讯作者:
    Christina Lisk
4 - Hemoglobin Induced Vasoconstriction and Oxidative Stress are Prevented by Haptoglobin
  • DOI:
    10.1016/j.freeradbiomed.2014.10.490
  • 发表时间:
    2014-11-01
  • 期刊:
  • 影响因子:
  • 作者:
    Paul Buehler;Paul Eigenberger;David Irwin;Zoe Loomis;Joanne Maltzhan;Malcolm Anderson;Christina Lisk
  • 通讯作者:
    Christina Lisk
No Free Lunch: Analyzing the Cost of Deep Decarbonizing Residential Heating Systems
没有免费的午餐:分析深度脱碳住宅供暖系统的成本
Peripheral Blood Macrophages (PBMCs) from Adults with Sickle Cell Disease Have a Unique Phenotype
  • DOI:
    10.1182/blood-2024-211244
  • 发表时间:
    2024-11-05
  • 期刊:
  • 影响因子:
  • 作者:
    Christina Lisk;Francesca I Cendali;Delany Swindle;Gemlyn George;Kathryn Louise Hassell;Rachelle Nuss;Paul Buehler;Angelo D'Alessandro;David Irwin
  • 通讯作者:
    David Irwin

David Irwin的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('David Irwin', 18)}}的其他基金

REU Site: Computing for an Equitable Energy Transition
REU 网站:计算实现公平的能源转型
  • 批准号:
    2243853
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CCRI: New: A Community Testbed for Designing Carbon-Efficient Cloud Applications
CCRI:新:设计碳高效云应用程序的社区测试平台
  • 批准号:
    2213636
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Managing Electrical and Thermal Energy in Sustainable Computing Systems
CNS 核心:小型:管理可持续计算系统中的电能和热能
  • 批准号:
    2230143
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
EAGER: Exploring the Feasibility of System Support for Managing Risk in Cloud Markets
EAGER:探索云市场风险管理系统支持的可行性
  • 批准号:
    1802523
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
NSF Workshop on the Economics of Cloud Computing
NSF 云计算经济学研讨会
  • 批准号:
    1821682
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CPS:Breakthrough:Software Defined Solar Systems
CPS:突破:软件定义太阳能系统
  • 批准号:
    1645952
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Breakthrough: Enhancing Privacy in Smart Buildings and Homes
突破:增强智能建筑和家庭的隐私
  • 批准号:
    1505422
  • 财政年份:
    2015
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CAREER: Model-based Energy Management for Sustainable Buildings
职业:可持续建筑基于模型的能源管理
  • 批准号:
    1253063
  • 财政年份:
    2013
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Cognitive Processing During Saccadic Eye Movements
眼球扫视运动期间的认知处理
  • 批准号:
    0132292
  • 财政年份:
    2002
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Cognitive Processing During Saccadic Eye Movements
眼球扫视运动期间的认知处理
  • 批准号:
    9615988
  • 财政年份:
    1997
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant

相似国自然基金

胆固醇羟化酶CH25H非酶活依赖性促进乙型肝炎病毒蛋白Core及Pre-core降解的分子机制研究
  • 批准号:
    82371765
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
锕系元素5f-in-core的GTH赝势和基组的开发
  • 批准号:
    22303037
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于合成致死策略搭建Core-matched前药共组装体克服肿瘤耐药的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    52 万元
  • 项目类别:
鼠伤寒沙门氏菌LPS core经由CD209/SphK1促进树突状细胞迁移加重炎症性肠病的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
肌营养不良蛋白聚糖Core M3型甘露糖肽的精确制备及功能探索
  • 批准号:
    92053110
  • 批准年份:
    2020
  • 资助金额:
    70.0 万元
  • 项目类别:
    重大研究计划
Core-1-O型聚糖黏蛋白缺陷诱导胃炎发生并介导慢性胃炎向胃癌转化的分子机制研究
  • 批准号:
    81902805
  • 批准年份:
    2019
  • 资助金额:
    20.5 万元
  • 项目类别:
    青年科学基金项目
原始地球增生晚期的Core-merging大碰撞事件:地核增生、核幔平衡与核幔边界结构的新认识
  • 批准号:
    41973063
  • 批准年份:
    2019
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
RBM38通过协助Pol-ε结合、招募core调控HBV复制
  • 批准号:
    31900138
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
CORDEX-CORE区域气候模拟与预估研讨会
  • 批准号:
    41981240365
  • 批准年份:
    2019
  • 资助金额:
    1.5 万元
  • 项目类别:
    国际(地区)合作与交流项目

相似海外基金

CNS Core: Small: Core Scheduling Techniques and Programming Abstractions for Scalable Serverless Edge Computing Engine
CNS Core:小型:可扩展无服务器边缘计算引擎的核心调度技术和编程抽象
  • 批准号:
    2322919
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Network Wide Sensing by Leveraging Cellular Communication Networks
CNS 核心:小型:利用蜂窝通信网络进行全网络传感
  • 批准号:
    2343469
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Intelligent Fault Injection to Expose and Reproduce Production-Grade Bugs in Cloud Systems
CNS 核心:小型:智能故障注入以暴露和重现云系统中的生产级错误
  • 批准号:
    2317698
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Repurposing Smartphones to Minimize Carbon
CNS 核心:小型:重新利用智能手机以最大限度地减少碳排放
  • 批准号:
    2233894
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: A Compilation System for Mapping Deep Learning Models to Tensorized Instructions (DELITE)
合作研究:CNS Core:Small:将深度学习模型映射到张量化指令的编译系统(DELITE)
  • 批准号:
    2230945
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: NSF-AoF: CNS Core: Small: Towards Scalable and Al-based Solutions for Beyond-5G Radio Access Networks
合作研究:NSF-AoF:CNS 核心:小型:面向超 5G 无线接入网络的可扩展和基于人工智能的解决方案
  • 批准号:
    2225578
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Toward Opportunistic, Fast, and Robust In-Cache AI Acceleration at the Edge
CNS 核心:小型:在边缘实现机会主义、快速且稳健的缓存内 AI 加速
  • 批准号:
    2228028
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: SmartSight: an AI-Based Computing Platform to Assist Blind and Visually Impaired People
合作研究:中枢神经系统核心:小型:SmartSight:基于人工智能的计算平台,帮助盲人和视障人士
  • 批准号:
    2418188
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Redesigning I/O Across Heterogeneous Systems
CNS 核心:小型:跨异构系统重新设计 I/O
  • 批准号:
    2231724
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: Creating An Extensible Internet Through Interposition
合作研究:CNS核心:小:通过介入创建可扩展的互联网
  • 批准号:
    2242503
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了