Tractable Big Data and Big Models in Machine Learning

机器学习中易于处理的大数据和大模型

基本信息

  • 批准号:
    RGPIN-2015-06068
  • 负责人:
  • 金额:
    $ 2.11万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2018
  • 资助国家:
    加拿大
  • 起止时间:
    2018-01-01 至 2019-12-31
  • 项目状态:
    已结题

项目摘要

In nearly all fields of science and engineering, the amount of data we collect is growing at unprecedented rates. We no longer produce data sizes from megabytes to gigabytes, but rather from terabytes to petabytes (and beyond). Machine learning is one of the key tools we use to make sense of these ever-growing quantities of data ('big data'), and it is now being used to solve very complicated tasks by fitting increasingly-complicated models to these huge data sets ('big models'). Machine learning is used in everyday technologies like e-mail spam filtering, product recommendation systems, advertisement ranking systems, new motion sensing devices, and recent improvements in speech recognition. There remains a huge potential for machine learning to impact applications ranging from physics to biology and from education technology to human-computer interaction. ***The successes and potential of large-scale machine learning are driving the need to develop techniques that can consider constantly-increasing data and model sizes, and the objective of this proposal is to advance the state of the art in fitting big models to big data sets. Building on my existing work showing that special model structures can be used to give order-of-magnitude improvements in runtimes,  the outcome of this research will be new techniques that are substantially faster than existing techniques (e.g., polynomial-time instead of exponential-time, or improving runtime by a factor that may be as large as the data or model size). In particular, the research will focus on:***1. Improved incremental gradient methods: this extends our recent work on exponentially-convergent stochastic gradient methods, leading to methods that have faster convergence rates, as well as memory-free methods that avoid expensive full passes through the data.***2. Exploiting new problem structures: this thread seeks out new problem structures to exploit (such as graphs and non-quadratic surrogate functions), which will lead to the discovery of new tractable problem classes.***3. Parallel and distributed methods: this thread focuses on developing methods that have appealing theoretical and practical properties when implemented in a parallel and distributed settings, allowing scaling to much larger datasets.***By focusing on improving the scalability of core enabling technologies behind data-driven applications, this work could affect a wide variety of scientific and engineering disciplines that produce huge datasets, in both academia and industry. Further, this research will provide key training to graduate and undergraduate students. It will produce highly-qualified personnel with skills and experience in large-scale data analysis, with the theoretical background required to solve ever-larger problems and model even more complex phenomena. These skills will prove to be a major asset in the expansion of Canada's growing knowledge-based economy.**
在几乎所有的科学和工程领域,我们收集的数据量正以前所未有的速度增长。我们产生的数据大小不再是从兆字节到千兆字节,而是从太字节到拍字节(甚至更大)。机器学习是我们用来理解这些不断增长的数据量(“大数据”)的关键工具之一,现在它被用来解决非常复杂的任务,通过将日益复杂的模型拟合到这些庞大的数据集(“大模型”)。机器学习用于日常技术,如电子邮件垃圾邮件过滤、产品推荐系统、广告排名系统、新的运动传感设备以及语音识别的最新改进。从物理学到生物学,从教育技术到人机交互,机器学习仍然有巨大的潜力来影响应用。***大规模机器学习的成功和潜力正在推动开发能够考虑不断增长的数据和模型大小的技术的需求,本提案的目标是推进将大模型拟合到大数据集的最新技术。基于我现有的工作表明,特殊的模型结构可以用来在运行时提供数量级的改进,本研究的结果将是比现有技术快得多的新技术(例如,多项式时间而不是指数时间,或者通过一个可能与数据或模型大小一样大的因素来改善运行时)。具体而言,研究将集中在:***1。改进的增量梯度方法:这扩展了我们最近在指数收敛随机梯度方法上的工作,导致具有更快收敛速度的方法,以及避免昂贵的全遍历数据的无内存方法。***2。开发新的问题结构:这个线程寻找新的问题结构来开发(如图和非二次代函数),这将导致发现新的可处理的问题类。并行和分布式方法:这个线程专注于开发在并行和分布式设置中实现时具有吸引人的理论和实践属性的方法,允许扩展到更大的数据集。***通过专注于提高数据驱动应用程序背后的核心使能技术的可扩展性,这项工作可能会影响学术界和工业界产生大量数据集的各种科学和工程学科。此外,本研究将为研究生和本科生提供重要的训练。它将培养具有大规模数据分析技能和经验的高素质人才,具备解决更大问题和模拟更复杂现象所需的理论背景。这些技能将被证明是加拿大不断发展的知识经济的主要资产

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Schmidt, Mark其他文献

Experimental quantification of the effect of Mg on calcite-aqueous fluid oxygen isotope fractionation
  • DOI:
    10.1016/j.chemgeo.2012.03.027
  • 发表时间:
    2012-06-05
  • 期刊:
  • 影响因子:
    3.9
  • 作者:
    Mavromatis, Vasileios;Schmidt, Mark;Oelkers, Eric H.
  • 通讯作者:
    Oelkers, Eric H.
Convex Optimization for Big Data
  • DOI:
    10.1109/msp.2014.2329397
  • 发表时间:
    2014-09-01
  • 期刊:
  • 影响因子:
    14.9
  • 作者:
    Cevher, Volkan;Becker, Stephen;Schmidt, Mark
  • 通讯作者:
    Schmidt, Mark
A Portable and Autonomous Mass Spectrometric System for On-Site Environmental Gas Analysis
  • DOI:
    10.1021/acs.est.6b03669
  • 发表时间:
    2016-12-20
  • 期刊:
  • 影响因子:
    11.4
  • 作者:
    Brennwald, Matthias S.;Schmidt, Mark;Kipfer, Rolf
  • 通讯作者:
    Kipfer, Rolf
Dimensions in major depressive disorder and their relevance for treatment outcome.
  • DOI:
    10.1016/j.jad.2013.10.020
  • 发表时间:
    2014-02
  • 期刊:
  • 影响因子:
    6.6
  • 作者:
    Vrieze, Elske;Demyttenaere, Koen;Bruffaerts, Ronny;Hermans, Dirk;Pizzagalli, Diego A.;Sienaert, Pascal;Hompes, Titia;de Boer, Peter;Schmidt, Mark;Claes, Stephan
  • 通讯作者:
    Claes, Stephan
Fe-Si-oxyhydroxide deposits at a slow-spreading centre with thickened oceanic crust: The Lilliput hydrothermal field (9°33′S, Mid-Atlantic Ridge)
  • DOI:
    10.1016/j.chemgeo.2010.09.012
  • 发表时间:
    2010-11-15
  • 期刊:
  • 影响因子:
    3.9
  • 作者:
    Dekov, Vesselin M.;Petersen, Sven;Schmidt, Mark
  • 通讯作者:
    Schmidt, Mark

Schmidt, Mark的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Schmidt, Mark', 18)}}的其他基金

Large-Scale Machine Learning
大规模机器学习
  • 批准号:
    CRC-2019-00358
  • 财政年份:
    2022
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Canada Research Chairs
Hyper-fast hyper-parameter tuning for the next generation of machine learning
下一代机器学习的超快速超参数调整
  • 批准号:
    RGPIN-2022-03669
  • 财政年份:
    2022
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Discovery Grants Program - Individual
Tractable Big Data and Big Models in Machine Learning
机器学习中易于处理的大数据和大模型
  • 批准号:
    RGPIN-2015-06068
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Discovery Grants Program - Individual
Large-Scale Machine Learning
大规模机器学习
  • 批准号:
    CRC-2019-00358
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Canada Research Chairs
Tractable Big Data and Big Models in Machine Learning
机器学习中易于处理的大数据和大模型
  • 批准号:
    RGPIN-2015-06068
  • 财政年份:
    2020
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Discovery Grants Program - Individual
Machine Learning
机器学习
  • 批准号:
    1000230673-2014
  • 财政年份:
    2020
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Canada Research Chairs
Large-Scale Machine Learning
大规模机器学习
  • 批准号:
    CRC-2019-00358
  • 财政年份:
    2020
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Canada Research Chairs
Machine Learning
机器学习
  • 批准号:
    1000230673-2014
  • 财政年份:
    2019
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Canada Research Chairs
Tractable Big Data and Big Models in Machine Learning
机器学习中易于处理的大数据和大模型
  • 批准号:
    RGPIN-2015-06068
  • 财政年份:
    2019
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Discovery Grants Program - Individual
Machine Learning
机器学习
  • 批准号:
    1000230673-2014
  • 财政年份:
    2018
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Canada Research Chairs

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
ARF鸟苷酸交换因子BIG1介导ACSL4依赖性铁死亡在非酒精性脂肪性肝炎中的作用及机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于Big Code深度背景增强的Android应用代码反混淆研究
  • 批准号:
    61972290
  • 批准年份:
    2019
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
BIG1介导STING囊泡转运在抗肺癌免疫反应中的作用及分子机制
  • 批准号:
    81903639
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
水稻Big Grain3 通过调控细胞分裂素转运调节籽粒大小
  • 批准号:
    2019JJ50243
  • 批准年份:
    2019
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
ARF鸟苷酸交换因子BIG1调控巨噬细胞重编程在脓毒症免疫抑制形成中的作用及机制研究
  • 批准号:
    81971488
  • 批准年份:
    2019
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
控制豆科作物器官大小关键基因BIG SEEDS1的功能与应用研究
  • 批准号:
    31771345
  • 批准年份:
    2017
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
生长素转运调控基因BIG介导高浓度CO2下气孔关闭的分子机制
  • 批准号:
    31171356
  • 批准年份:
    2011
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
ARF鸟苷酸交换因子BIG1定向调控ABCA1功能的分子机制
  • 批准号:
    81173056
  • 批准年份:
    2011
  • 资助金额:
    69.0 万元
  • 项目类别:
    面上项目
BIG2介导的GABAA型受体转运模式及信号调控机制
  • 批准号:
    31070924
  • 批准年份:
    2010
  • 资助金额:
    35.0 万元
  • 项目类别:
    面上项目

相似海外基金

Conference: Theory and Foundations of Statistics in the Era of Big Data
会议:大数据时代的统计学理论与基础
  • 批准号:
    2403813
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Standard Grant
FightAMR: Novel global One Health surveillance approach to fight AMR using Artificial Intelligence and big data mining
FightAMR:利用人工智能和大数据挖掘对抗 AMR 的新型全球统一健康监测方法
  • 批准号:
    MR/Y034422/1
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Research Grant
Big mobile phone GPS data driven pseudo individual life-pattern generation
大手机GPS数据驱动伪个体生活模式生成
  • 批准号:
    24K17367
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Exploring Hotel Customer Experiences in Japan via Big Data and Large Language Model Analysis
通过大数据和大语言模型分析探索日本酒店客户体验
  • 批准号:
    24K21025
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Big Data-based Distributed Control using a Behavioural Systems Framework
使用行为系统框架的基于大数据的分布式控制
  • 批准号:
    DP240100300
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Discovery Projects
CC* Networking Infrastructure: Enabling Big Science and Big Data Projects at the University of Massachusetts
CC* 网络基础设施:支持马萨诸塞大学的大科学和大数据项目
  • 批准号:
    2346286
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Standard Grant
REU Site: Online Interdisciplinary Big Data Analytics in Science and Engineering
REU 网站:科学与工程领域的在线跨学科大数据分析
  • 批准号:
    2348755
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Standard Grant
Market Orientation, Big Data Analysis Capability, and Business Performance: The Moderating Role of Supplier Relationship, Big data Analysis Outscoring
市场导向、大数据分析能力与经营绩效:供应商关系的调节作用、大数据分析得分
  • 批准号:
    24K05127
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Generative Visual Pre-training on Unlabelled Big Data
未标记大数据的生成视觉预训练
  • 批准号:
    DP240101848
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Discovery Projects
MEGASKILLS [MEthodology of Psycho-pedagogical, Big Data and Commercial Video GAmes procedures for the European SKILLS Agenda Implementation]
MEGASKILLS [欧洲技能议程实施的心理教育学、大数据和商业视频游戏程序的方法]
  • 批准号:
    10069843
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
    EU-Funded
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了