Synthetic Data User Testing and Dissemination

综合数据用户测试和传播

基本信息

  • 批准号:
    1042181
  • 负责人:
  • 金额:
    $ 19.37万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2010
  • 资助国家:
    美国
  • 起止时间:
    2010-09-15 至 2015-08-31
  • 项目状态:
    已结题

项目摘要

Researchers throughout the social, behavioral, economic, and health sciences use data to test hypotheses about a wide range of individual and social behaviors, decisions, and outcomes. Government statistical agencies regularly collect data that are extremely valuable for this purpose. However, these data are not made directly available to the research community because the data providers' (responents') identity is part of the data itself. Therefore statistical agencies and the scientific community have been developing methods to make analytically valid and highly detailed data available to researchers while simultaneously protecting individual privacy.A particularly valuable and sensitive kind of data is linked administrative data such as the Longitudinal Employer-Household Data (LEHD), the Longitudinal Business Database (LBD) and surveys with linked administrative data (SIPP). These datasets have been constructed with support from statistical agencies and the NSF. The highly detailed nature of these data make them particularly sensitive, and access to the micro-data remains restriced. One approach for balancing the tension between confientiality protection and access is the generation of synthetic data. The process for generating such data begins by estimating a posterior predictive distribution (PPD) of the to-be-released data given the confidential micro-data. The next step is to draw samples from the PPD to produce the released micro-data. The quality of inferences based on a wide variety of models applied to synthetic and actual data has been indaquately assessed to date because only a limited number of users have had access to both data sources. This kind of assessment needs to be integrated within a quality-feedback loop in order to improve synthetic data and increase the use of the data by the research community. This award facilitiates such a feedback loop for synthetic versions of two datasetss: the Census Bureau's Survey of Income and Program Participation and the Longitudinal Business Database. The goal is to broaden access to the data, enhance the feedback loop, and provide flexible and secure access to these synthetic data early releases.A variety of social scientists from a range of disciplines will be able to use this data access method and will provide detailed input that will guide future improvements in data quality.
整个社会、行为、经济和健康科学的研究人员使用数据来测试关于个人和社会行为、决策和结果的各种假设。政府统计机构定期收集对这一目的极其有价值的数据。然而,这些数据不能直接提供给研究界,因为数据提供者(答复者)的身份是数据本身的一部分。因此,统计机构和科学界一直在开发方法,以便向研究人员提供分析上有效和高度详细的数据,同时保护个人隐私。一种特别有价值和敏感的数据是链接的行政数据,如纵向雇主-家庭数据(LHD)、纵向商业数据库(LBD)和带有链接的行政数据的调查(SIPP)。这些数据集是在统计机构和国家科学基金会的支持下构建的。这些数据的高度详细性质使它们特别敏感,对微观数据的获取仍然受到限制。平衡保密性保护和访问之间紧张关系的一种方法是生成合成数据。在给定机密微数据的情况下,通过估计要发布的数据的后验预测分布(PPD)来开始生成这种数据的过程。下一步是从PPD中抽取样本,以产生发布的微观数据。迄今为止,对应用于合成数据和实际数据的各种模型所作的推论的质量进行了令人信服的评估,因为只有有限数量的用户能够访问这两个数据来源。这类评估需要纳入质量反馈循环,以便改进综合数据并增加研究界对数据的使用。这一奖项为两个数据集的合成版本提供了这样的反馈循环:人口普查局的收入和计划参与调查以及纵向商业数据库。目标是扩大对数据的访问,增强反馈循环,并提供对这些早期发布的合成数据的灵活和安全的访问。来自不同学科的各种社会科学家将能够使用这种数据访问方法,并将提供详细的输入,以指导未来数据质量的改进。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Lars Vilhuber其他文献

A guide for social science journal editors on easing into open science
  • DOI:
    10.1186/s41073-023-00141-5
  • 发表时间:
    2024-02-16
  • 期刊:
  • 影响因子:
    10.700
  • 作者:
    Priya Silverstein;Colin Elman;Amanda Montoya;Barbara McGillivray;Charlotte R. Pennington;Chase H. Harrison;Crystal N. Steltenpohl;Jan Philipp Röer;Katherine S. Corker;Lisa M. Charron;Mahmoud Elsherif;Mario Malicki;Rachel Hayes-Harb;Sandra Grinschgl;Tess Neal;Thomas Rhys Evans;Veli-Matti Karhulahti;William L. D. Krenzer;Anabel Belaus;David Moreau;Debora I. Burin;Elizabeth Chin;Esther Plomp;Evan Mayo-Wilson;Jared Lyle;Jonathan M. Adler;Julia G. Bottesini;Katherine M. Lawson;Kathleen Schmidt;Kyrani Reneau;Lars Vilhuber;Ludo Waltman;Morton Ann Gernsbacher;Paul E. Plonski;Sakshi Ghai;Sean Grant;Thu-Mai Christian;William Ngiam;Moin Syed
  • 通讯作者:
    Moin Syed
Escaping Low Earnings: The Role of Employer Characteristics and Changes
摆脱低收入:雇主特征和变化的作用
  • DOI:
    10.1177/001979390405700405
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Harry J. Holzer;Julia I. Lane;Lars Vilhuber
  • 通讯作者:
    Lars Vilhuber
La spécificité de la formation en milieu de travail : un survol des contributions théoriques et empiriques récentes
劳动环境的形成的具体情况:近年对理论和经验的贡献的监督
  • DOI:
    10.7202/602347ar
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    3.7
  • 作者:
    Lars Vilhuber
  • 通讯作者:
    Lars Vilhuber
Assessing Utility of Differential Privacy for RCTs
评估差异隐私对 RCT 的效用
  • DOI:
    10.48550/arxiv.2309.14581
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Soumya Mukherjee;Aratrika Mustafi;Aleksandra B. Slavkovic;Lars Vilhuber
  • 通讯作者:
    Lars Vilhuber

Lars Vilhuber的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Lars Vilhuber', 18)}}的其他基金

Collaborative Research: Elements: TRAnsparency CErtified (TRACE): Trusting Computational Research Without Repeating It
协作研究:要素:TRAnsparency CErtified (TRACE):信任计算研究而不重复它
  • 批准号:
    2209629
  • 财政年份:
    2022
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
Conferences on Reproducibility and Replicability in Economics and the Social Sciences (CRRESS)
经济学和社会科学的再现性和可重复性会议(CRRESS)
  • 批准号:
    2217493
  • 财政年份:
    2022
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
RCN: Coordination of the NSF-Census Research Network
RCN:NSF-人口普查研究网络的协调
  • 批准号:
    1507241
  • 财政年份:
    2014
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
RCN: Coordination of the NSF-Census Research Network
RCN:NSF-人口普查研究网络的协调
  • 批准号:
    1237602
  • 财政年份:
    2012
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
NCRN-MN: Cornell Census-NSF Research Node: Integrated Research Support, Training and Data Documentation
NCRN-MN:康奈尔大学人口普查-NSF 研究节点:综合研究支持、培训和数据文档
  • 批准号:
    1131848
  • 财政年份:
    2011
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
Social Science Gateway to TeraGrid
TeraGrid 的社会科学门户
  • 批准号:
    0922005
  • 财政年份:
    2009
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
The economics of mass layoffs: displaced workers, displacing firms,and causes and consequences
大规模裁员的经济学:失业工人、企业倒闭以及原因和后果
  • 批准号:
    0820349
  • 财政年份:
    2008
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Continuing Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
基于Linked Open Data的Web服务语义互操作关键技术
  • 批准号:
    61373035
  • 批准年份:
    2013
  • 资助金额:
    77.0 万元
  • 项目类别:
    面上项目
Molecular Interaction Reconstruction of Rheumatoid Arthritis Therapies Using Clinical Data
  • 批准号:
    31070748
  • 批准年份:
    2010
  • 资助金额:
    34.0 万元
  • 项目类别:
    面上项目
高维数据的函数型数据(functional data)分析方法
  • 批准号:
    11001084
  • 批准年份:
    2010
  • 资助金额:
    16.0 万元
  • 项目类别:
    青年科学基金项目
染色体复制负调控因子datA在细胞周期中的作用
  • 批准号:
    31060015
  • 批准年份:
    2010
  • 资助金额:
    25.0 万元
  • 项目类别:
    地区科学基金项目
Computational Methods for Analyzing Toponome Data
  • 批准号:
    60601030
  • 批准年份:
    2006
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

From Data to Discovery: BlokBIO's Vision of Transforming Genomic Research with User-Centric Intelligence Solutions
从数据到发现:BlokBIO 通过以用户为中心的智能解决方案转变基因组研究的愿景
  • 批准号:
    10109374
  • 财政年份:
    2024
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Launchpad
SBIR Phase I: Methods for Embedding User Data into 3D Generative AI Computer-aided-Design Models
SBIR 第一阶段:将用户数据嵌入 3D 生成式 AI 计算机辅助设计模型的方法
  • 批准号:
    2335491
  • 财政年份:
    2024
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
Understanding of Consumption Context Using User Generated Big Data
使用用户生成的大数据了解消费环境
  • 批准号:
    23H00859
  • 财政年份:
    2023
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Collaborative Research: CCF Core: Small: User-transparent Data Management for Persistence and Crash-consistency in Non-volatile Memories
协作研究:CCF 核心:小型:用户透明的数据管理,以实现非易失性存储器中的持久性和崩溃一致性
  • 批准号:
    2313146
  • 财政年份:
    2023
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
Collaborative Research: DESC: Type I: A User-Interactive Approach to Water Management for Sustainable Data Centers: From Water Efficiency to Self-Sufficiency
合作研究:DESC:类型 I:可持续数据中心水资源管理的用户交互方法:从用水效率到自给自足
  • 批准号:
    2324916
  • 财政年份:
    2023
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
CAREER: Scalable Spatial Data Science on User-generated Data
职业:基于用户生成数据的可扩展空间数据科学
  • 批准号:
    2237348
  • 财政年份:
    2023
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Continuing Grant
HNDS-I: CatMapper: User-friendly tools for integrating data by complex, dynamic categories
HNDS-I:CatMapper:用户友好的工具,用于按复杂的动态类别集成数据
  • 批准号:
    2318505
  • 财政年份:
    2023
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
Collaborative Research: CCF Core: Small: User-transparent Data Management for Persistence and Crash-consistency in Non-volatile Memories
协作研究:CCF 核心:小型:用户透明的数据管理,以实现非易失性存储器中的持久性和崩溃一致性
  • 批准号:
    2415473
  • 财政年份:
    2023
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Standard Grant
Designing Infectious Disease Data Submission Tool Based on User Feedback
根据用户反馈设计传染病数据提交工具
  • 批准号:
    486994
  • 财政年份:
    2023
  • 资助金额:
    $ 19.37万
  • 项目类别:
    Miscellaneous Programs
Elevating Community Voices by Developing a User-centered Approach to Enable Self-testing and Remote Data Collection among Under-represented Populations (Project Elevate)
通过开发以用户为中心的方法来提高社区的声音,以在代表性不足的人群中进行自我测试和远程数据收集(Project Elevate)
  • 批准号:
    10820757
  • 财政年份:
    2023
  • 资助金额:
    $ 19.37万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了