Reusing Data Efficiently for Iterative and Integrative Inference

有效地重用数据进行迭代和集成推理

基本信息

项目摘要

Drawing knowledge and reproducible results from complex data drives a broad range of scientific disciplines. From a statistical viewpoint, model selection and inference are the two fundamental tasks, the latter often pursued only after models are chosen through data-driven procedures. Naively using the same data for both tasks creates complicated correlations between the selected models and their inferential properties, which inevitably affects the reproducibility of findings from these models. The investigator develops methods for reusing data from selection to compensate for these correlations while not squandering away information from the full data. Finding immediate use in biomedical problems, observational studies in the behavioral sciences, and engineering applications, the methods will aid discoveries even when analyses rely on scarce samples. This research has a broader outreach component in creating opportunities for interdisciplinary engagement, training statisticians, and contributing to a new graduate curriculum.The project is geared towards efficient and reproducible inference through a reuse of data from the model selection steps. Combining ideas from convex optimization, probability theory, and statistical learning, the project seeks solutions for two main thrusts. In the first thrust, the investigator develops methods to integrate fresh samples available at a later point in time with information from selection. This workflow is realized in modern applications such as online streaming of data, which demand iterative inference on the fly. In the second thrust, the investigator explores integrative inference by combining selected models from different batches or splits or sources of data. Aggregating inference from multiple sources through a reuse of samples will have the potential for new discoveries that any single dataset may fail to report due to a lack of power.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
从复杂的数据中提取知识和可重复的结果推动了广泛的科学学科。从统计学的角度来看,模型选择和推理是两项基本任务,后者通常只有在通过数据驱动程序选择模型之后才能进行。在两个任务中使用相同的数据会在所选模型及其推理属性之间产生复杂的相关性,这不可避免地影响了这些模型结果的可重复性。研究者开发了重新使用选择数据的方法,以补偿这些相关性,同时不会浪费来自完整数据的信息。在生物医学问题、行为科学的观察研究和工程应用中找到直接的用途,即使在分析依赖于稀缺样本的情况下,这些方法也将有助于发现。这项研究有一个更广泛的推广组成部分,创造跨学科参与的机会,培训统计学家,并有助于新的研究生课程。该项目是面向有效的和可重复的推理,通过重用的数据,从模型选择的步骤。 结合凸优化,概率论和统计学习的思想,该项目寻求两个主要目标的解决方案。在第一个重点中,研究人员开发了将稍后可用的新鲜样本与选择信息整合的方法。这种工作流在现代应用程序中实现,例如在线数据流,这些应用程序需要动态迭代推理。在第二个推力中,研究者通过组合来自不同批次或分裂或数据来源的选定模型来探索综合推理。通过重复使用样本来汇总多个来源的推断将有可能产生任何单一数据集可能因缺乏力量而无法报告的新发现。该奖项反映了NSF的法定使命,并被认为值得通过使用基金会的知识价值和更广泛的影响审查标准进行评估来支持。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Approximate Post-Selective Inference for Regression with the Group LASSO
  • DOI:
  • 发表时间:
    2020-12
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Snigdha Panigrahi;Peter Macdonald;Daniel A Kessler
  • 通讯作者:
    Snigdha Panigrahi;Peter Macdonald;Daniel A Kessler
Approximate Selective Inference via Maximum Likelihood
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Snigdha Panigrahi其他文献

An MCMC-free approach to post-selective inference
一种无 MCMC 的后选择推理方法
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Snigdha Panigrahi;J. Marković;Jonathan E. Taylor
  • 通讯作者:
    Jonathan E. Taylor
Inference on the proportion of variance explained in principal component analysis
主成分分析解释方差比例的推断
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ronan Perry;Snigdha Panigrahi;Jacob Bien;Daniela Witten
  • 通讯作者:
    Daniela Witten
A relevance-scalability-interpretability tradeoff with temporally evolving user personas
相关性-可扩展性-可解释性与随时间变化的用户角色的权衡
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Snigdha Panigrahi;N. Fawaz
  • 通讯作者:
    N. Fawaz
Kinematic formula for heterogeneous Gaussian related fields
异质高斯相关场的运动公式
Maximal moments and uniform modulus of continuity for stable random fields
稳定随机场的最大矩和均匀连续模量

Snigdha Panigrahi的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Snigdha Panigrahi', 18)}}的其他基金

FRG: Collaborative Research: Quantile-Based Modeling for Large-Scale Heterogeneous Data
FRG:协作研究:大规模异构数据的基于分位数的建模
  • 批准号:
    1951980
  • 财政年份:
    2020
  • 资助金额:
    $ 15万
  • 项目类别:
    Standard Grant

相似国自然基金

Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
基于Linked Open Data的Web服务语义互操作关键技术
  • 批准号:
    61373035
  • 批准年份:
    2013
  • 资助金额:
    77.0 万元
  • 项目类别:
    面上项目
Molecular Interaction Reconstruction of Rheumatoid Arthritis Therapies Using Clinical Data
  • 批准号:
    31070748
  • 批准年份:
    2010
  • 资助金额:
    34.0 万元
  • 项目类别:
    面上项目
高维数据的函数型数据(functional data)分析方法
  • 批准号:
    11001084
  • 批准年份:
    2010
  • 资助金额:
    16.0 万元
  • 项目类别:
    青年科学基金项目
染色体复制负调控因子datA在细胞周期中的作用
  • 批准号:
    31060015
  • 批准年份:
    2010
  • 资助金额:
    25.0 万元
  • 项目类别:
    地区科学基金项目
Computational Methods for Analyzing Toponome Data
  • 批准号:
    60601030
  • 批准年份:
    2006
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

CRII: AF: Efficiently Computing and Updating Topological Descriptors for Data Analysis
CRII:AF:高效计算和更新数据分析的拓扑描述符
  • 批准号:
    2348238
  • 财政年份:
    2024
  • 资助金额:
    $ 15万
  • 项目类别:
    Standard Grant
Supporting complex workflows for data-intensive discovery collaboratively, reliably and efficiently
支持复杂的工作流程,以协作、可靠和高效的方式进行数据密集型发现
  • 批准号:
    RGPIN-2021-04233
  • 财政年份:
    2022
  • 资助金额:
    $ 15万
  • 项目类别:
    Discovery Grants Program - Individual
A platform for efficiently integrating, visualizing, and searching large-scale infectious and immune-mediated disease data.
一个用于高效集成、可视化和搜索大规模传染病和免疫介导疾病数据的平台。
  • 批准号:
    10707696
  • 财政年份:
    2022
  • 资助金额:
    $ 15万
  • 项目类别:
BCSER: Developing Expertise in Data Envelope Analysis (DEA) to Guide Investigations of Best Practices at HSIs Efficiently Graduating Hispanics with STEM Degrees
BCSER:发展数据包络分析 (DEA) 方面的专业知识,指导 HSI 的最佳实践调查,有效地使西班牙裔学生获得 STEM 学位
  • 批准号:
    2125636
  • 财政年份:
    2021
  • 资助金额:
    $ 15万
  • 项目类别:
    Standard Grant
Supporting complex workflows for data-intensive discovery collaboratively, reliably and efficiently
支持复杂的工作流程,以协作、可靠和高效的方式进行数据密集型发现
  • 批准号:
    DGECR-2021-00370
  • 财政年份:
    2021
  • 资助金额:
    $ 15万
  • 项目类别:
    Discovery Launch Supplement
Supporting complex workflows for data-intensive discovery collaboratively, reliably and efficiently
支持复杂的工作流程,以协作、可靠和高效的方式进行数据密集型发现
  • 批准号:
    RGPIN-2021-04233
  • 财政年份:
    2021
  • 资助金额:
    $ 15万
  • 项目类别:
    Discovery Grants Program - Individual
Method for efficiently detect structural variations with long read sequencing data
利用长读长测序数据高效检测结构变异的方法
  • 批准号:
    17K07264
  • 财政年份:
    2017
  • 资助金额:
    $ 15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Mining Patterns and Changes of Wave Shapes for Efficiently Querying Periodic Data Streams
有效查询周期性数据流的挖掘模式和波形变化
  • 批准号:
    DE140100387
  • 财政年份:
    2014
  • 资助金额:
    $ 15万
  • 项目类别:
    Discovery Early Career Researcher Award
BIGDATA: F: DKA: Collaborative Research: Dealing Efficiently with Big Social Network Data
BIGDATA:F:DKA:协作研究:有效处理社交网络大数据
  • 批准号:
    1447554
  • 财政年份:
    2014
  • 资助金额:
    $ 15万
  • 项目类别:
    Continuing Grant
BIGDATA: F: DKA: Collaborative Research: Dealing Efficiently with Big Social Network Data
BIGDATA:F:DKA:协作研究:有效处理社交网络大数据
  • 批准号:
    1447697
  • 财政年份:
    2014
  • 资助金额:
    $ 15万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了