CDS&E: Collaborative Research: Scalable Nonparametric Learning for Massive Data with Statistical Guarantees

CDS

基本信息

  • 批准号:
    1821183
  • 负责人:
  • 金额:
    $ 19万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-08-01 至 2021-07-31
  • 项目状态:
    已结题

项目摘要

We now live in the era of data deluge. The sheer volume of the data to be processed, together with the growing complexity of statistical models and the increasingly distributed nature of the data sources, creates new challenges to modern statistics theory. Standard machine learning methods are no longer able to accommodate the computational requirements. They need to be re-designed or adapted, which calls for a new generation of design and theory of scalable learning algorithms for massive data. This project aims to provide a collection of state-of-the-art nonparametric learning tools for big data analysis, which can be directly used by scientists and practitioners and have beneficial impacts on various fields such as biomedicine, health-care, defense and security, and information technology. The deliverables of this project include easy-to-use software packages that will be thoroughly evaluated using a range of application examples. They will directly help scientists to explore and analyze complex data sets. Due to storage and computational bottlenecks, traditional statistical inferential procedures originally designed for a single machine are no longer applicable to modern large datasets. This project aims to design new scalable learning algorithms of wide-ranging nonparametric models for data that are distributed across a large number of multi-core computational nodes, or in a fashion of random sketching if only a single machine is available. The computational limits of these new algorithms will be examined from a statistical perspective. For example, in the divide-and-conquer setup, the number of deployed machines can be viewed as a simple proxy for computing cost. The project aims to establish a sharp upper bound for this number: when the number is below this bound, statistical optimality (in terms of nonparametric estimation or testing) is achievable; otherwise, statistical optimality becomes impossible. Related questions will also be addressed in the randomized sketching method in terms of the minimal number of random projections.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
我们现在生活在数据洪水时代。统计模型的复杂性以及数据源的分布性质日益复杂,为现代统计理论带来了新的挑战,将处理的数据数量越来越大。标准的机器学习方法不再能够满足计算要求。它们需要重新设计或改编,这要求新一代的设计和可扩展学习算法的理论用于大规模数据。该项目旨在为大数据分析提供一系列最先进的非参数学习工具,科学家和从业人员可以直接使用该工具,并对生物医学,医疗保健,国防,安全以及信息技术等各个领域产生有益的影响。该项目的可交付成果包括易于使用的软件包,将使用一系列申请示例对其进行彻底评估。他们将直接帮助科学家探索和分析复杂的数据集。由于存储和计算瓶颈,最初为单台计算机设计的传统统计推论程序不再适用于现代大型数据集。该项目旨在设计广泛的非参数模型的新的可扩展学习算法,以分配在大量多核计算节点上的数据,或者以随机素描的方式(如果只有一台机器可用)。这些新算法的计算限制将从统计角度进行检查。例如,在划分和争议设置中,可以将部署的机器数量视为计算成本的简单代理。该项目旨在为此数字建立急剧的上限:当数字低于此界限时,统计最佳性(就非参数估计或测试而言)是可以实现的;否则,统计最佳性将变得不可能。相关问题还将在随机素描方法中以最少的随机预测来解决。该奖项反映了NSF的法定任务,并且使用基金会的知识分子优点和更广泛的影响评估标准,认为值得通过评估来获得支持。

项目成果

期刊论文数量(23)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Machine learning in/for blockchain: Future and challenges
High Dimensional Inference in Partially Linear Models
  • DOI:
    10.2139/ssrn.3015397
  • 发表时间:
    2017-08
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ying Zhu;Zhuqing Yu;Guang Cheng
  • 通讯作者:
    Ying Zhu;Zhuqing Yu;Guang Cheng
Gaussian approximation for high dimensional vector under physical dependence
  • DOI:
    10.3150/17-bej939
  • 发表时间:
    2018-11
  • 期刊:
  • 影响因子:
    1.5
  • 作者:
    Xianyang Zhang;Guang Cheng
  • 通讯作者:
    Xianyang Zhang;Guang Cheng
Online Batch Decision-Making with High-Dimensional Covariates
  • DOI:
  • 发表时间:
    2020-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    ChiHua Wang;Guang Cheng
  • 通讯作者:
    ChiHua Wang;Guang Cheng
Early Stopping for Nonparametric Testing
非参数测试的提前停止
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Qifan Song其他文献

Support Recovery in Sparse PCA with Incomplete Data
支持稀疏PCA中不完整数据的恢复
Support Recovery in Sparse PCA with Non-Random Missing Data
支持稀疏 PCA 中非随机缺失数据的恢复
  • DOI:
    10.48550/arxiv.2302.01535
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hanbyul Lee;Qifan Song;J. Honorio
  • 通讯作者:
    J. Honorio
Optimal False Discovery Control of Minimax Estimator
极小极大估计器的最优错误发现控制
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Qifan Song;Guang Cheng
  • 通讯作者:
    Guang Cheng
Matrix Completion from General Deterministic Sampling Patterns
一般确定性采样模式的矩阵补全
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hanbyul Lee;R. Mazumder;Qifan Song;J. Honorio
  • 通讯作者:
    J. Honorio
A New Paradigm for Generative Adversarial Networks Based on Randomized Decision Rules
基于随机决策规则的生成对抗网络新范式
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    1.4
  • 作者:
    Sehwan Kim;Qifan Song;Faming Liang
  • 通讯作者:
    Faming Liang

Qifan Song的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Qifan Song', 18)}}的其他基金

High Dimensional Semiparametric Estimation and Inferences
高维半参数估计和推论
  • 批准号:
    1811812
  • 财政年份:
    2018
  • 资助金额:
    $ 19万
  • 项目类别:
    Continuing Grant

相似国自然基金

数智背景下的团队人力资本层级结构类型、团队协作过程与团队效能结果之间关系的研究
  • 批准号:
    72372084
  • 批准年份:
    2023
  • 资助金额:
    40 万元
  • 项目类别:
    面上项目
在线医疗团队协作模式与绩效提升策略研究
  • 批准号:
    72371111
  • 批准年份:
    2023
  • 资助金额:
    41 万元
  • 项目类别:
    面上项目
面向人机接触式协同作业的协作机器人交互控制方法研究
  • 批准号:
    62373044
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于数字孪生的颅颌面人机协作智能手术机器人关键技术研究
  • 批准号:
    82372548
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
A-型结晶抗性淀粉调控肠道细菌协作产丁酸机制研究
  • 批准号:
    32302064
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

CDS&E/Collaborative Research: Local Gaussian Process Approaches for Predicting Jump Behaviors of Engineering Systems
CDS
  • 批准号:
    2420358
  • 财政年份:
    2024
  • 资助金额:
    $ 19万
  • 项目类别:
    Standard Grant
CDS&E/Collaborative Research: Data-Driven Inverse Design of Additively Manufacturable Aperiodic Architected Cellular Materials
CDS
  • 批准号:
    2245298
  • 财政年份:
    2023
  • 资助金额:
    $ 19万
  • 项目类别:
    Standard Grant
Collaborative Research: CDS&E: Computational Exploration of Electrically Conductive Metal-Organic Frameworks as Cathode Materials in Lithium-Sulfur Batteries
合作研究:CDS
  • 批准号:
    2302618
  • 财政年份:
    2023
  • 资助金额:
    $ 19万
  • 项目类别:
    Standard Grant
Collaborative Research: CDS&E: 3-D Stellar Hydrodynamics of Convective Penetration and Convective Boundary Mixing in Massive Stars
合作研究:CDS
  • 批准号:
    2309102
  • 财政年份:
    2023
  • 资助金额:
    $ 19万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了