Slow Kill for Big Data Learning

大数据学习的慢杀

基本信息

  • 批准号:
    2113599
  • 负责人:
  • 金额:
    $ 17万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-09-01 至 2025-08-31
  • 项目状态:
    未结题

项目摘要

Big-data applications typically involve large numbers of samples and features and are often contaminated with outliers, posing challenges for variable selection and parameter estimation. Fitting a sparse model with a prescribed cardinality is a common request in practice, but it is associated with solving a highly nonconvex and discrete problem. Using multiple starting points in such nonconvex optimization is common, but is often computationally prohibitive on big data; new cost-effective techniques are needed to alleviate the starting point requirement and ensure the best statistical accuracy. Moreover, how to adjust an arbitrarily given loss function to guard against gross outliers and achieve a high break-down point poses a major challenge for modern-day data analysis. The project will study innovative and efficient statistical methods and perform rigorous theoretical analysis to answer these questions. In this project, education is tightly coupled with research, consisting of course development, student mentoring, outreach, and recruiting underrepresented students.The project will propose a novel slow-kill technique for large-scale variable selection, motivated by a scalable optimization algorithm with iteration-varying threshold and simultaneous L2-regularization. The three main elements of progressive quantile control, growing learning rate and adaptive L2-shrinkage in slow kill have solid theoretical support, and its ability to reduce the problem size during the iteration, as opposed to boosting and forward pathwise algorithms, makes it attractive for big data. The interplay between statistics and optimization in the project will reveal tight error rates and fast convergence under some regularity conditions, without the need to pursue a globally optimal solution. Furthermore, a framework of outlier-resistant estimation will be introduced to robustify a given method beyond the standard likelihood setup. It has a close connection to the method of trimming but includes explicit outlyingness parameters for all samples, which in turn facilitates computation and theory. With slow kill, the number of data resamplings will be substantially reduced, and the obtained resistant estimators can enjoy minimax rate optimality in both low and high dimensions. Overall, the proposed research will create a new-generation high dimensional tool for robust sparse learning that can accommodate coherent designs and gross outliers in big data applications, to deepen and broaden existing methods and theory in statistics and optimization.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
大数据应用通常涉及大量的样本和特征,并且经常被离群值污染,这对变量选择和参数估计提出了挑战。 在实践中,用指定的基数拟合稀疏模型是一个常见的要求,但它与解决高度非凸和离散的问题有关。在这种非凸优化中使用多个起点是常见的,但在大数据上通常是计算上禁止的;需要新的具有成本效益的技术来减轻起点要求并确保最佳的统计准确性。此外,如何调整一个任意给定的损失函数,以防止总的离群值,并实现一个高的崩溃点,现代数据分析提出了一个重大挑战。该项目将研究创新和有效的统计方法,并进行严格的理论分析来回答这些问题。在这个项目中,教育与研究紧密结合,包括课程开发,学生辅导,外展和招募代表性不足的学生。该项目将提出一种新的慢杀技术,用于大规模变量选择,其动机是一种可扩展的优化算法,具有迭代变化的阈值和同步L2正则化。渐进分位数控制、增长学习率和自适应L2收缩在慢杀中的三个主要元素有坚实的理论支持,并且它在迭代过程中减少问题大小的能力,而不是boosting和forward pathwise算法,使其对大数据具有吸引力。该项目中统计和优化之间的相互作用将揭示在某些规则性条件下的严格错误率和快速收敛,而无需追求全局最优解。此外,一个框架的离群抗估计将被引入到robustify一个给定的方法超出标准的似然设置。它与修剪方法有密切的联系,但包括所有样本的显式outlyingness参数,这反过来又有利于计算和理论。通过慢杀,数据重采样的次数将大大减少,并且所得到的抵抗估计量在低维和高维都具有极大极小率最优性。总体而言,拟议的研究将创建一个新一代的高维工具,用于强大的稀疏学习,可以适应大数据应用中的连贯设计和总离群值,以深化和扩大现有的方法和理论在统计和优化。这个奖项反映了NSF的法定使命,并已被认为是值得通过使用基金会的智力价值和更广泛的影响审查标准进行评估的支持。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Gaining Outlier Resistance With Progressive Quantiles: Fast Algorithms and Theoretical Studies
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Yiyuan She其他文献

Indirect Gaussian Graph Learning Beyond Gaussianity
超越高斯性的间接高斯图学习
Reduced Rank Vector Generalized Linear Models for Feature Extraction
  • DOI:
    10.4310/sii.2013.v6.n2.a4
  • 发表时间:
    2010-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yiyuan She
  • 通讯作者:
    Yiyuan She
Supplementary Material for ‘Robust Orthogonal Complement Principal Component Analysis’
“稳健正交补主成分分析”的补充材料
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yiyuan She;Shijie Li;D. Wu
  • 通讯作者:
    D. Wu
Selective Factor Extraction in High Dimensions
  • DOI:
    10.1093/biomet/asw059
  • 发表时间:
    2014-03
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yiyuan She
  • 通讯作者:
    Yiyuan She
Joint Association Graph Screening and Decomposition for Large-Scale Linear Dynamical Systems
大规模线性动力系统的联合关联图筛选与分解

Yiyuan She的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Yiyuan She', 18)}}的其他基金

CIF:Small: Theory and Methods for Simultaneous Feature Auto-grouping and Dimension Reduction in Supervised Multivariate Learning
CIF:Small:监督多元学习中同时特征自动分组和降维的理论和方法
  • 批准号:
    2105818
  • 财政年份:
    2021
  • 资助金额:
    $ 17万
  • 项目类别:
    Standard Grant
CIF: Small: Collaborative Research: Scalable Nonconvex Optimization with Statistical Guarantees for Information Computing in High Dimensions
CIF:小型:协作研究:具有统计保证的可扩展非凸优化,用于高维信息计算
  • 批准号:
    1617801
  • 财政年份:
    2016
  • 资助金额:
    $ 17万
  • 项目类别:
    Standard Grant
CAREER: Theory and Methods for Simultaneous Variable Selection and Rank Reduction
职业:同时变量选择和降级的理论和方法
  • 批准号:
    1352259
  • 财政年份:
    2014
  • 资助金额:
    $ 17万
  • 项目类别:
    Continuing Grant
CIF: Small: Collaborative Research: Compressed Sensing for Coherent Designs under Gaussian/Non-Gaussian Noise
CIF:小型:协作研究:高斯/非高斯噪声下相干设计的压缩感知
  • 批准号:
    1116447
  • 财政年份:
    2011
  • 资助金额:
    $ 17万
  • 项目类别:
    Standard Grant

相似国自然基金

HDACi联合A3ARP靶向递送的“Kick-and-Kill”疗法清除慢性HBV感染的效应及机制研究
  • 批准号:
    LZ23H030002
  • 批准年份:
    2023
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于Rotate-and-Kill技术的寻找凸区域内外极值图形的最优算法的设计
  • 批准号:
    62002394
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
硫醚类化合物介导大蒜根系“attract-kill”控治疫病的细胞程序化死亡作用机制研究
  • 批准号:
    31972328
  • 批准年份:
    2019
  • 资助金额:
    57.0 万元
  • 项目类别:
    面上项目
间作体系中非寄主植物根系“attract-kill”模式控制疫病的化学生态学机制
  • 批准号:
    31601682
  • 批准年份:
    2016
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于“shock and kill”策略研究两株深海链霉菌中HIV潜伏激活的活性成分
  • 批准号:
    41676130
  • 批准年份:
    2016
  • 资助金额:
    72.0 万元
  • 项目类别:
    面上项目

相似海外基金

新規Shock and Kill戦略によるHIVリザーバー減少効果の解析
使用新的电击杀灭策略分析 HIV 病毒库减少效果
  • 批准号:
    24K11628
  • 财政年份:
    2024
  • 资助金额:
    $ 17万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Novel attract and kill strategies for control of UK fruit crop pests: PROBANDZ
控制英国水果作物害虫的新颖吸引和杀死策略:PROBANDZ
  • 批准号:
    10093816
  • 财政年份:
    2024
  • 资助金额:
    $ 17万
  • 项目类别:
    Collaborative R&D
Determining how polymyxins kill bacteria
确定多粘菌素如何杀死细菌
  • 批准号:
    BB/Y003667/1
  • 财政年份:
    2024
  • 资助金额:
    $ 17万
  • 项目类别:
    Research Grant
Between a hot place & hypoxia: Quantifying fish-kill risk in inland rivers
炎热的地方之间
  • 批准号:
    LP220200882
  • 财政年份:
    2023
  • 资助金额:
    $ 17万
  • 项目类别:
    Linkage Projects
War and Material Reality: the social life of things designed to kill
战争与物质现实:旨在杀戮的事物的社会生活
  • 批准号:
    2886870
  • 财政年份:
    2023
  • 资助金额:
    $ 17万
  • 项目类别:
    Studentship
To kill or not to kill: deciphering the metabolic triggers of a facultative algicidal bacterium Ponticoccus. (4565)
杀还是不杀:破译兼性杀藻细菌桥球菌的代谢触发因素。
  • 批准号:
    2859444
  • 财政年份:
    2023
  • 资助金额:
    $ 17万
  • 项目类别:
    Studentship
Towards phage therapy: combining genetics and cutting edge CryoEM to optimise a bacterial virus to kill a superbug
迈向噬菌体疗法:结合遗传学和尖端冷冻电镜来优化细菌病毒以杀死超级细菌
  • 批准号:
    2902040
  • 财政年份:
    2023
  • 资助金额:
    $ 17万
  • 项目类别:
    Studentship
Investigating the Ability of Human Blood Neutrophils to Kill Cancer
研究人类血液中性粒细胞杀死癌症的能力
  • 批准号:
    10648774
  • 财政年份:
    2023
  • 资助金额:
    $ 17万
  • 项目类别:
Dominant genetics of cohesin pathway proteins to kill cancer
粘连蛋白途径蛋白杀死癌症的显性遗传学
  • 批准号:
    468785
  • 财政年份:
    2022
  • 资助金额:
    $ 17万
  • 项目类别:
    Operating Grants
Developing Novel Nematicides to Kill Parasitic Nematodes of Agricultural Crops
开发新型杀线虫剂杀死农作物的寄生线虫
  • 批准号:
    547321-2020
  • 财政年份:
    2022
  • 资助金额:
    $ 17万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Doctoral
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了