CAREER: Multi-Query Optimizations for Deep Learning Systems

职业:深度学习系统的多查询优化

基本信息

  • 批准号:
    1942724
  • 负责人:
  • 金额:
    $ 55万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-07-01 至 2025-06-30
  • 项目状态:
    未结题

项目摘要

Large-scale data analytics using predictive models called "deep learning" has revolutionized many digital applications, powering modern speech recognition, language translation, Web search, and more. This success of deep learning, primarily at resource-rich technology companies, has led to high interest in adopting deep learning in domain sciences, enterprise companies, healthcare, and even digital humanities. But a major bottleneck to broader adoption is the high resource cost of training deep learning models, which requires a computationally expensive empirical process with a large number of trials. This slow process raises resource costs, wastes energy, and impedes user productivity. This project tackles this problem by devising new techniques to substantially speedup up this process on deep learning systems. It will reduce resource costs and energy needs, and in turn, help democratize deep learning to more application domains. It will lead to a new open source system integrated with existing popular deep learning tools to make it cheaper, faster, and easier to adopt large-scale deep learning. The system will be used by domain scientists and also integrated into industrial products. The research will be disseminated via publications at top conferences and incorporated into new courses on data analytics systems. This project will support graduate, undergraduate, and high school students, including LGBT+ and female students.This project will improve the resource efficiency of scalable deep learning model selection, an empirical process that typically requires training dozens to hundreds of model configurations with varying data representations, neural architectures, and hyper-parameter values. Existing tools like TensorFlow and PyTorch focus on the efficiency of training one model a time, which wastes resources at scale during model selection. Some systems also sacrifice reproducibility, a showstopper for many users. This project resolves these issues by presenting a fresh database systems-inspired view of deep learning that re-imagines its executions as queries. Targeting small cluster settings, it raises the specification of three common deep learning model selection tasks to a declarative level and runs many related model configurations in one go. It proposes a suite of multi-query optimization and view materialization techniques that reduce communication costs and/or avoid computational redundancy, while not sacrificing reproducibility or prediction accuracy. The techniques combine the mathematical properties of stochastic gradient descent and the computational properties of deep learning queries with careful parallel data system design and implementation. Project website: https://adalabucsd.github.io/cerebrosystem/This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
使用被称为"深度学习"的预测模型进行大规模数据分析已经彻底改变了许多数字应用,为现代语音识别、语言翻译、Web搜索等提供了支持。深度学习的成功,主要是在资源丰富的技术公司,导致了在领域科学,企业公司,医疗保健甚至数字人文领域采用深度学习的高度兴趣。但更广泛采用的一个主要瓶颈是训练深度学习模型的高资源成本,这需要大量试验的计算昂贵的经验过程。这个缓慢的过程增加了资源成本,浪费了能源,并阻碍了用户的生产力。该项目通过设计新技术来解决这个问题,以大大加快深度学习系统的这一过程。它将降低资源成本和能源需求,进而有助于将深度学习民主化到更多的应用领域。它将导致一个新的开源系统与现有的流行深度学习工具集成,使其更便宜,更快,更容易采用大规模深度学习。该系统将被领域科学家使用,并集成到工业产品中。该研究将通过顶级会议上的出版物传播,并纳入数据分析系统的新课程。该项目将支持研究生、本科生和高中生,包括LGBT+和女性学生。该项目将提高可扩展深度学习模型选择的资源效率,这是一个经验过程,通常需要训练数十到数百个具有不同数据表示、神经架构和超参数值的模型配置。TensorFlow和PyTorch等现有工具专注于一次训练一个模型的效率,这在模型选择过程中浪费了大量资源。一些系统还牺牲了可重复性,这对许多用户来说是一个很大的障碍。这个项目通过提出一个新的数据库系统启发的深度学习视图来解决这些问题,该视图将其执行重新想象为查询。针对小型集群设置,它将三个常见的深度学习模型选择任务的规范提升到声明级别,并一次性运行许多相关的模型配置。它提出了一套多查询优化和视图物化技术,降低通信成本和/或避免计算冗余,同时不牺牲再现性或预测准确性。这些技术将随机梯度下降的数学特性和深度学习查询的计算特性与仔细的并行数据系统设计和实现相结合。项目网站:www.example.com奖项反映了NSF的法定使命,并被认为值得通过使用基金会的知识价值和更广泛的影响审查标准进行评估的支持。

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Cerebro: A Layered Data Platform for Scalable Deep Learning
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Arun Kumar;Advitya Gemawat;Kabir;Nagrecha;Yuhao Zhang;Side Li
  • 通讯作者:
    Arun Kumar;Advitya Gemawat;Kabir;Nagrecha;Yuhao Zhang;Side Li
Towards an Optimized GROUP BY Abstraction for Large-Scale Machine Learning
  • DOI:
    10.14778/3476249.3476284
  • 发表时间:
    2021-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Side Li;Arun Kumar
  • 通讯作者:
    Side Li;Arun Kumar
Cerebro: a data system for optimized deep learning model selection
Cerebro:用于优化深度学习模型选择的数据系统
  • DOI:
    10.14778/3407790.3407816
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Nakandala, Supun;Zhang, Yuhao;Kumar, Arun
  • 通讯作者:
    Kumar, Arun
Nautilus: An Optimized System for Deep Transfer Learning over Evolving Training Datasets
Distributed deep learning on data systems: a comparative analysis of approaches
数据系统的分布式深度学习:方法的比较分析
  • DOI:
    10.14778/3467861.3467867
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Zhang, Yuhao;McQuillan, Frank;Jayaram, Nandish;Kak, Nikhil;Khanna, Ekta;Kislal, Orhan;Valdano, Domino;Kumar, Arun
  • 通讯作者:
    Kumar, Arun
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Arun Kumar其他文献

Seismic stability of a standalone glove box structure
独立手套箱结构的地震稳定性
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Saraswat;G. Reddy;Siddhartha Ghosh;A. Ghosh;Arun Kumar
  • 通讯作者:
    Arun Kumar
Mixed spectrum analysis in spatial context: Application to fMRI
空间背景下的混合频谱分析:在功能磁共振成像中的应用
Concepts of Sample versus Population
样本与总体的概念
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. Goel;I. Goyal;M. Puri;Arun Kumar;S. Rasania
  • 通讯作者:
    S. Rasania
Reduced Erythrocyte Carbonic Anhydrase Activity by Swietenia Macrophylla Seeds in Diabetic Rats
桃花心木种子降低糖尿病大鼠红细胞碳酸酐酶活性
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. Dutta;U. Biswas;R. Chakraborty;P. Banerjee;Arun Kumar;U. Raychaudhuri
  • 通讯作者:
    U. Raychaudhuri
The Ahmedabad Declaration, 2018: the family and diabetes
2018 年艾哈迈达巴德宣言:家庭与糖尿病

Arun Kumar的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Arun Kumar', 18)}}的其他基金

III: Small: Towards Speech-Driven Multimodal Querying
III:小型:迈向语音驱动的多模式查询
  • 批准号:
    1816701
  • 财政年份:
    2018
  • 资助金额:
    $ 55万
  • 项目类别:
    Standard Grant

相似国自然基金

不确定性查询模态下域泛化行人重识别的多模态鲁棒表征学习研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
面向大规模流式图数据的连续多模式图匹配查询技术研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
多场景下满足差分隐私的查询处理技术研究
  • 批准号:
    62372051
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
面向多类型数据库的一体化数据模型与查询语言研究
  • 批准号:
    62372264
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
面向大规模动态复杂网络的多约束可达查询处理技术
  • 批准号:
    62372101
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
面向农业大数据的多模态语义理解与异构量化查询
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
神经符号结合的多模态知识智能查询方法研究
  • 批准号:
    62276063
  • 批准年份:
    2022
  • 资助金额:
    56 万元
  • 项目类别:
    面上项目
多源图数据查询的隐私计算研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    53 万元
  • 项目类别:
    面上项目
面向多源时序数据联动监测的大规模复杂时空事件查询与分析
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    56 万元
  • 项目类别:
    面上项目
面向自然语句查询的多模态数据检索研究
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    57 万元
  • 项目类别:
    面上项目

相似海外基金

How can we make use of one or more computationally powerful virtual robots, to create a hive mind network to better coordinate multi-robot teams?
我们如何利用一个或多个计算能力强大的虚拟机器人来创建蜂巢思维网络,以更好地协调多机器人团队?
  • 批准号:
    2594635
  • 财政年份:
    2025
  • 资助金额:
    $ 55万
  • 项目类别:
    Studentship
M2DESCO - Computational Multimode Modelling Enabled Design of Safe & Sustainable Multi-Component High-Entropy Coatings
M2DESCO - 计算多模式建模支持安全设计
  • 批准号:
    10096988
  • 财政年份:
    2024
  • 资助金额:
    $ 55万
  • 项目类别:
    EU-Funded
Automating a novel multi-tool additive and subtractive manufacturing platform for micrometre-resolution prototyping across diverse industries
自动化新型多工具增材和减材制造平台,用于跨不同行业的微米分辨率原型制作
  • 批准号:
    10097846
  • 财政年份:
    2024
  • 资助金额:
    $ 55万
  • 项目类别:
    Collaborative R&D
Multi-component interventions to reducing unhealthy diets and physical inactivity among adolescents and youth in sub-Saharan Africa (Generation H)
采取多方干预措施减少撒哈拉以南非洲青少年的不健康饮食和缺乏身体活动(H 代)
  • 批准号:
    10106976
  • 财政年份:
    2024
  • 资助金额:
    $ 55万
  • 项目类别:
    EU-Funded
An Integrated Life-course Approach for Person-centred Solutions and Care for Ageing with Multi-morbidity in the European Regions - STAGE; Stay Healthy Through Ageing
欧洲地区以人为本的解决方案和针对多种疾病的老龄化护理的综合生命全程方法 - STAGE;
  • 批准号:
    10112787
  • 财政年份:
    2024
  • 资助金额:
    $ 55万
  • 项目类别:
    EU-Funded
Situation-aware Multi-sided Personalised Analytics in Spatial Crowdsourcing
空间众包中的态势感知多边个性化分析
  • 批准号:
    DP240100356
  • 财政年份:
    2024
  • 资助金额:
    $ 55万
  • 项目类别:
    Discovery Projects
学校教育と多様なテジタル文化資源を繋ぐネットワークとLODモデルの設計
设计连接学校教育和各种数字文化资源的网络和LOD模型
  • 批准号:
    24K15673
  • 财政年份:
    2024
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
遺伝子多型を考慮したmRNA医薬による炎症反応を予測・評価する手法の構築
建立考虑基因多态性的mRNA药物引起的炎症反应预测和评估方法
  • 批准号:
    24K15821
  • 财政年份:
    2024
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
在宅ケアにおける多職種のカスタマーハラスメント対策人材育成プログラムの開発
制定针对家庭护理中多学科客户骚扰对策的人力资源开发计划
  • 批准号:
    24K14077
  • 财政年份:
    2024
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
看護師中心の多職種チームによる高齢患者術後せん妄の予防に有用な介入方法の構築
由护士领导的多学科团队开发一种有助于预防老年患者术后谵妄的干预方法
  • 批准号:
    24K14158
  • 财政年份:
    2024
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了