CIF: Small: Statistically Optimal Subsampling for Big Data and Rare Events Data

CIF:小:大数据和稀有事件数据的统计最佳子采样

基本信息

  • 批准号:
    2105571
  • 负责人:
  • 金额:
    $ 39.95万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-06-15 至 2025-05-31
  • 项目状态:
    未结题

项目摘要

The ever-increasing amounts of big data offer unprecedented opportunities for advancing knowledge across scientific fields. However, traditional analyses of big data involve high computational costs and often require supercomputers. This project aims to develop computational tools that empower practitioners to analyze big data without dependency on supercomputers. It produces optimal algorithms that extract the maximum amount of information from massive data with limited computing resources. Rare-events data are common in big data where the numbers of interested events are relatively small although available full data are massive. This project is identifying conditions when the majority data can be discarded without any information loss, and developing methods for valid analysis and appropriate decision-making with rare events data. Education is another key component of the project, with a significant focus on classroom integration and next-generation workforce training, aiming to attract and equip a broader range of participants, especially underrepresented groups, to the field of computational data science.Subsampling has demonstrated a pervasive potential to enable better use of a fixed amount of computing resources. However, existing investigations focus on calculations of the collected data, and available results are not suitable for statistical inference on the underlying model. This project develops and expands the subsampling technique in the following directions: 1) It establishes a framework to determine statistically optimal subsampling probabilities by examining statistical distributional properties of subsample estimators; 2) it derives the maximum subsampled conditional likelihood estimator that has the smallest asymptotic variance among a large class of asymptotically unbiased estimators; and 3) it obtains new theoretical insights on rare-events data and challenges a long-standing view of underestimated probabilities for rare events. The research is a significant addition to the field of big data subsampling and provides tools that are widely applicable to facilitate practical inference and decision-making. It also answers important questions that are essential for extracting valid information from rare-events data.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
不断增长的大数据量为跨科学领域的知识发展提供了前所未有的机会。然而,传统的大数据分析涉及高计算成本,通常需要超级计算机。该项目旨在开发计算工具,使从业者能够在不依赖超级计算机的情况下分析大数据。它产生最优算法,在有限的计算资源下从海量数据中提取最大数量的信息。稀有事件数据在大数据中很常见,在大数据中,尽管可用的完整数据非常大,但感兴趣的事件数量相对较少。该项目正在确定在不丢失任何信息的情况下可以丢弃大部分数据的条件,并开发针对罕见事件数据进行有效分析和适当决策的方法。教育是该项目的另一个关键组成部分,重点关注课堂整合和下一代劳动力培训,旨在吸引和装备更广泛的参与者,特别是代表性不足的群体,进入计算数据科学领域。子抽样已经证明了一种普遍的潜力,可以更好地利用固定数量的计算资源。然而,现有的研究主要集中在收集数据的计算上,现有的结果不适合对基础模型进行统计推断。本项目从以下几个方面发展和扩展了子抽样技术:1)通过检查子抽样估计量的统计分布特性,建立了一个框架来确定统计上最优的子抽样概率;2)在一大类渐近无偏估计量中,导出渐近方差最小的最大下抽样条件似然估计量;3)它获得了关于罕见事件数据的新的理论见解,并挑战了长期以来低估罕见事件概率的观点。该研究是对大数据子抽样领域的重要补充,并为促进实际推理和决策提供了广泛适用的工具。它还回答了从罕见事件数据中提取有效信息所必需的重要问题。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(16)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Nonuniform Negative Sampling and Log Odds Correction with Rare Events Data
  • DOI:
  • 发表时间:
    2021-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    HaiYing Wang;Aonan Zhang;Chong Wang
  • 通讯作者:
    HaiYing Wang;Aonan Zhang;Chong Wang
A Scalable Frequentist Model Averaging Method
一种可扩展的频率模型平均方法
Optimal Poisson Subsampling for Softmax Regression
  • DOI:
    10.1007/s11424-023-1179-z
  • 发表时间:
    2023-08
  • 期刊:
  • 影响因子:
    2.1
  • 作者:
    Yaqiong Yao;Jiahui Zou;Haiying Wang
  • 通讯作者:
    Yaqiong Yao;Jiahui Zou;Haiying Wang
A note on centering in subsample selection for linear regression
  • DOI:
    10.1002/sta4.525
  • 发表时间:
    2022-09
  • 期刊:
  • 影响因子:
    1.7
  • 作者:
    Hai Ying Wang
  • 通讯作者:
    Hai Ying Wang
Subsampling in Longitudinal Models
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

HaiYing Wang其他文献

Adaptive LASSO for varying-coefficient partially linear measurement error models
用于变系数部分线性测量误差模型的自适应 LASSO
Logistic Regression for Massive Data with Rare Events
具有稀有事件的海量数据的逻辑回归
Inaugural Editorial. Can We Achieve Our Mission: Fast, Accessible, Cutting-edge, and Top-quality?
首届社论。

HaiYing Wang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('HaiYing Wang', 18)}}的其他基金

Collaborative Research: Information-Based Subdata Selection Inspired by Optimal Design of Experiments
协作研究:受实验优化设计启发的基于信息的子数据选择
  • 批准号:
    1812013
  • 财政年份:
    2018
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CSR: Small: Leveraging Physical Side-Channels for Good
CSR:小:利用物理侧通道做好事
  • 批准号:
    2312089
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant
NeTS: Small: NSF-DST: Modernizing Underground Mining Operations with Millimeter-Wave Imaging and Networking
NeTS:小型:NSF-DST:利用毫米波成像和网络实现地下采矿作业现代化
  • 批准号:
    2342833
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant
CPS: Small: NSF-DST: Autonomous Operations of Multi-UAV Uncrewed Aerial Systems using Onboard Sensing to Monitor and Track Natural Disaster Events
CPS:小型:NSF-DST:使用机载传感监测和跟踪自然灾害事件的多无人机无人航空系统自主操作
  • 批准号:
    2343062
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant
Collaborative Research: FET: Small: Reservoir Computing with Ion-Channel-Based Memristors
合作研究:FET:小型:基于离子通道忆阻器的储层计算
  • 批准号:
    2403559
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant
オミックス解析を用いたブドウ球菌 small colony variants の包括的特徴づけ
使用组学分析全面表征葡萄球菌小菌落变体
  • 批准号:
    24K13443
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
AF: Small: Problems in Algorithmic Game Theory for Online Markets
AF:小:在线市场的算法博弈论问题
  • 批准号:
    2332922
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant
Collaborative Research: FET: Small: Algorithmic Self-Assembly with Crisscross Slats
合作研究:FET:小型:十字交叉板条的算法自组装
  • 批准号:
    2329908
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant
NeTS: Small: ML-Driven Online Traffic Analysis at Multi-Terabit Line Rates
NeTS:小型:ML 驱动的多太比特线路速率在线流量分析
  • 批准号:
    2331111
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: LEGAS: Learning Evolving Graphs At Scale
协作研究:SHF:小型:LEGAS:大规模学习演化图
  • 批准号:
    2331302
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: LEGAS: Learning Evolving Graphs At Scale
协作研究:SHF:小型:LEGAS:大规模学习演化图
  • 批准号:
    2331301
  • 财政年份:
    2024
  • 资助金额:
    $ 39.95万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了