III: Medium: Quantifying the Unknown Unknowns for Data Integration

III:媒介:量化数据集成的未知因素

基本信息

  • 批准号:
    2033792
  • 负责人:
  • 金额:
    $ 33.45万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-04-01 至 2023-09-30
  • 项目状态:
    已结题

项目摘要

As the amount and variety of data available online explodes, it is common practice for data scientists to acquire and integrate disparate data sources to achieve higher quality results. But even with a perfectly cleaned and merged data set, two fundamental questions remain: (1) is the integrated data set complete and (2) what is the impact of any unknown (i.e., unobserved) data on query results? In this work, this project will develop and analyze techniques to estimate the impact of the unknown data (a.k.a., unknown unknowns) for analytical queries. This will help to better understand answers in the presence of incomplete information across fields ranging from business and the military to medical applications.This project will develop and exploit the following paradoxical statistical phenomenon: the ability to see certain data items more than once (across multiple data sets) enables one to estimate parameters of data items that have never been seen at all. This project will therefore develop new statistical techniques which take advantage of overlapping datasets, and software backed by both theory and experiments. This will enable users with overlapping incomplete data sets to actively "see the unseen," and in many cases perform as though they had access to missing information not represented in any of their data sources. The project will also focus on data validation, and how to use multiple unreliable data sources to correct each other. Further, as the proposed analysis is nuanced and novel, the project will also explore how to best convey valuable insights to the user, via interactive visualizations of the predictions. For further information see the project web site at: http://unknown-unknowns.cs.brown.edu
随着可在线可用数据的数量和多种数据爆炸,数据科学家通常是获取和整合不同数据源以获得更高质量结果的常见实践。但是,即使有一个完美清洁和合并的数据集,仍然存在两个基本问题:(1)集成数据集完成,(2)任何未知(即未观察到的)数据对查询结果有什么影响?在这项工作中,该项目将开发和分析技术,以估计未知数据(又称未知未知数)对分析查询的影响。这将有助于更好地理解从业务,军事到医疗应用的领域不完整的信息的存在。该项目将开发和利用以下矛盾的统计统计现象:能够多次查看某些数据项(跨多个数据集)的能力,使一个人可以估算一个从未见过的数据项的一个。因此,该项目将开发新的统计技术,这些技术利用重叠的数据集,并以理论和实验为支持的软件。这将使用户可以重叠不完整的数据集积极地“看到看不见”,并且在许多情况下,他们的执行就好像他们可以访问其任何数据源中未表示的丢失信息一样。 该项目还将集中于数据验证,以及如何使用多个不可靠的数据源来相互纠正。 此外,由于提出的分析是细微的和新颖的,该项目还将通过预测的交互式可视化来探索如何最好地向用户传达有价值的见解。有关更多信息

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Tim Kraska其他文献

Building Database Applications in the Cloud
  • DOI:
    10.3929/ethz-a-006007449
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tim Kraska
  • 通讯作者:
    Tim Kraska
Towards a Benchmark for the Cloud
迈向云基准
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Carsten Binnig;Donald Kossmann;Tim Kraska;Simon Losing
  • 通讯作者:
    Simon Losing
Safe Visual Data Exploration
安全的可视化数据探索
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zheguang Zhao;Emanuel Zgraggen;L. Stefani;Carsten Binnig;E. Upfal;Tim Kraska
  • 通讯作者:
    Tim Kraska
Self-Organizing Data Containers
自组织数据容器
Making the Case for Query-by-Voice with EchoQuery
使用 EchoQuery 进行语音查询的案例

Tim Kraska的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Tim Kraska', 18)}}的其他基金

BD Spokes: SPOKE: NORTHEAST: Collaborative: A Licensing Model and Ecosystem for Data Sharing
BD Spokes:SPOKE:NORTHEAST:协作:数据共享的许可模型和生态系统
  • 批准号:
    1947440
  • 财政年份:
    2019
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Standard Grant
III: Medium: Learning-based Synthesis of Data Processing Engines
III:媒介:基于学习的数据处理引擎综合
  • 批准号:
    1900933
  • 财政年份:
    2019
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Continuing Grant
III: Medium: Quantifying the Unknown Unknowns for Data Integration
III:媒介:量化数据集成的未知因素
  • 批准号:
    1562657
  • 财政年份:
    2016
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Continuing Grant
BD Spokes: SPOKE: NORTHEAST: Collaborative: A Licensing Model and Ecosystem for Data Sharing
BD Spokes:SPOKE:NORTHEAST:协作:数据共享的许可模型和生态系统
  • 批准号:
    1636698
  • 财政年份:
    2016
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Standard Grant
CAREER: Query Compilation Techniques for Complex Analytics on Enterprise Clusters
职业:企业集群上复杂分析的查询编译技术
  • 批准号:
    1453171
  • 财政年份:
    2015
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Continuing Grant

相似国自然基金

复合低维拓扑材料中等离激元增强光学响应的研究
  • 批准号:
    12374288
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
基于管理市场和干预分工视角的消失中等企业:特征事实、内在机制和优化路径
  • 批准号:
    72374217
  • 批准年份:
    2023
  • 资助金额:
    41.00 万元
  • 项目类别:
    面上项目
托卡马克偏滤器中等离子体的多尺度算法与数值模拟研究
  • 批准号:
    12371432
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
中等质量黑洞附近的暗物质分布及其IMRI系统引力波回波探测
  • 批准号:
    12365008
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
中等垂直风切变下非对称型热带气旋快速增强的物理机制研究
  • 批准号:
    42305004
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Study of bond-frustration effects in medium- and high-entropy substances using ultrasound
利用超声波研究中熵和高熵物质的键挫败效应
  • 批准号:
    21K03476
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
How the interview techniques and recording medium affect on 'fact-findings'
采访技巧和记录介质如何影响“事实调查”
  • 批准号:
    19K01359
  • 财政年份:
    2019
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Studying Massive Star Evolution from Progenitor to Supernova Remnant using Long-term Hydrodynamical Simulations and Machine Learning
使用长期流体动力学模拟和机器学习研究从祖细胞到超新星遗迹的大规模恒星演化
  • 批准号:
    19K03913
  • 财政年份:
    2019
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
SHF: Medium: Quantifying and Designing Around Architectural Risk
SHF:中:围绕架构风险进行量化和设计
  • 批准号:
    1763699
  • 财政年份:
    2018
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Continuing Grant
Quantifying the impact of stellar feedback on the interstellar medium
量化恒星反馈对星际介质的影响
  • 批准号:
    533571-2018
  • 财政年份:
    2018
  • 资助金额:
    $ 33.45万
  • 项目类别:
    Canadian Graduate Scholarships Foreign Study Supplements
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了