III: Medium: Collaborative Research: U4U - Taming Uncertainty with Uncertainty-Annotated Databases

III:媒介:合作研究:U4U - 利用不确定性注释数据库来克服不确定性

基本信息

  • 批准号:
    1956149
  • 负责人:
  • 金额:
    $ 53.29万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

Uncertainty is prevalent in data analysis, no matter what the size of the data, the application domain, or type of analysis. Common sources of uncertainty include missing values, sensor errors, bias, outliers, and many other factors. Classical deterministic data management does not track uncertainty and, thus requires data quality issues to be resolved before data is ingested into the system, which is often not feasible. The net effect is that inherently uncertain data is being treated as certain. However, if ignored, data uncertainty results in hard to trace errors, which in turn can have severe real world implications such as unfounded scientific discoveries, financial damages, or even medical decisions based on incorrect data. While there exist techniques for managing incomplete data, these techniques are generally too heavy-weight for real-world usage and may hide relevant information from users. The goal of this project is to develop light-weight techniques for managing uncertain data that empower a wide range of applications to manage uncertainty.Current methods for managing uncertain data are often computationally expensive and are only applicable to limited types of queries. The planned research will result in novel methods for managing uncertain data that bridge the gap between deterministic and incomplete data management. The foundation of this project are uncertainty-annotated databases, which enrich data with uncertainty labels and provide semantics for propagating these labels through queries. The result is a strict generalization of classical data management that combines the performance, generality, and ease-of-use of deterministic data management with the strong correctness guarantees of incomplete database techniques. Achieving this goal is highly non-trivial, because query evaluation over uncertain data is intractable, even for relatively simple uncertain data models and restricted classes of queries. Three main research thrusts will be explored that address the main challenges in developing such a technique: (i) uncertainty-annotated databases will be extended with attribute-level annotations and an compact encoding of an over-approximation of possible answers. This enables the approach to handle missing data and to deal with non-monotone queries such as queries with aggregation; (ii) methods to compactly approximating incomplete databases will be developed to deal with the large or even infinite sets of possible results produced by queries over uncertain data; (iii) optimized algorithms for query evaluation over uncertainty-annotated databases will be developed to address the performance limitations of queries over uncertain data. The planned work will significantly enhance the state-of-the-art in uncertain data management by, for the first time, enabling principled uncertainty management for complex queries at a reasonable cost.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
不确定性在数据分析中普遍存在,无论数据的大小,应用域或分析类型的大小如何。不确定性的常见来源包括缺失值,传感器错误,偏见,离群值和许多其他因素。经典的确定性数据管理不会跟踪不确定性,因此需要在将数据摄入到系统中之前要解决数据质量问题,这通常是不可行的。净效应是,本质上不确定的数据被视为确定的。但是,如果被忽略,数据不确定性会导致难以追踪错误,从而基于错误的数据,这可能会产生严重的现实世界影响,例如毫无根据的科学发现,财务损失,甚至是医疗决策。尽管存在管理不完整数据的技术,但这些技术通常对于现实世界中的使用过度过重,并且可能会隐藏用户的相关信息。该项目的目的是开发轻重量技术来管理不确定的数据,以授权广泛的应用程序来管理不确定性。管理不确定数据的流动方法通常在计算上很昂贵,并且仅适用于有限类型的查询。计划的研究将为管理不确定的数据提供新的方法,以弥合确定性和不完整数据管理之间的差距。该项目的基础是不确定性不确定的数据库,它们具有不确定性标签的数据,并提供了通过查询传播这些标签的语义。结果是对经典数据管理的严格概括,将确定性数据管理的性能,通用性和易用性与不完整数据库技术的强烈正确性保证相结合。实现这一目标是高度不平凡的,因为对不确定数据的查询评估也很棘手,即使对于相对简单的不确定的数据模型和限制性查询类别也是如此。将探讨三个主要的研究作用,即解决开发这种技术的主要挑战:(i)不确定性不确定的数据库将通过属性级注释进行扩展,并紧凑地编码可能的答案。这使方法可以处理丢失的数据并处理非主持酮查询,例如汇总的查询; (ii)将开发紧凑近似数据库的方法,以处理由不确定数据而不是查询产生的大型甚至无限的可能结果集; (iii)将开发针对不确定性注销数据库的查询评估的优化算法,以解决不确定数据的查询的性能限制。计划的工作将首次以合理的成本为复杂查询实现原则的不确定性管理,从而大大提高不确定数据管理的最新工作。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子优点和更广泛影响的审查标准来通过评估来通过评估来获得支持的。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Runtime provenance refinement for notebooks
笔记本的运行时出处细化
Overlay Spreadsheets
叠加电子表格
Efficient Uncertainty Tracking for Complex Queries with Attribute-level Bounds
具有属性级别界限的复杂查询的高效不确定性跟踪
The Right Tool for the Job: Data-Centric Workflows in Vizier
适合工作的工具:Vizier 中以数据为中心的工作流程
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Oliver Kennedy其他文献

PIP: A database system for great and small expectations
PIP:满足大大小小的期望的数据库系统
Jigsaw: efficient optimization over uncertain enterprise data
Jigsaw:不确定企业数据的高效优化
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Oliver Kennedy;Suman Nath
  • 通讯作者:
    Suman Nath
Efficient Approximation of Certain and Possible Answers for Ranking and Window Queries over Uncertain Data (Extended version)
不确定数据的排名和窗口查询的某些和可能答案的有效近似(扩展版)
  • DOI:
    10.48550/arxiv.2302.08676
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Su Feng;Boris Glavic;Oliver Kennedy
  • 通讯作者:
    Oliver Kennedy
Inventory Allocation for Online Graphical Display Advertising using Multi-objective Optimization
使用多目标优化的在线图形展示广告库存分配
On-Demand Query Result Cleaning
按需查询结果清理
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ying Yang;Oliver Kennedy;Jan Chomicki
  • 通讯作者:
    Jan Chomicki

Oliver Kennedy的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Oliver Kennedy', 18)}}的其他基金

SCC-PG: A Sustainable and Connected Community-Scale Food System to Empower Consumers, Farmers, and Retailers
SCC-PG:可持续且互联的社区规模食品系统,为消费者、农民和零售商提供支持
  • 批准号:
    2125516
  • 财政年份:
    2021
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Standard Grant
NSF Student Travel Grant for 2019 Symposium on Cloud Computing (SOCC)
2019 年云计算研讨会 (SOCC) 的 NSF 学生旅费补助
  • 批准号:
    1930814
  • 财政年份:
    2019
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Standard Grant
CAREER: Declarative Uncertainty
职业:声明的不确定性
  • 批准号:
    1750460
  • 财政年份:
    2018
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Continuing Grant
CIF21 DIBBs: EI: Vizier, Streamlined Data Curation
CIF21 DIBB:EI:Vizier,简化的数据管理
  • 批准号:
    1640864
  • 财政年份:
    2017
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Standard Grant
III: Small: Just in Time Datastructures
III:小:即时数据结构
  • 批准号:
    1617586
  • 财政年份:
    2016
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Standard Grant
CI-P: Planning for a Community Infrastructure to Enable Pocket-Scale Data Management Research
CI-P:规划社区基础设施以实现小型数据管理研究
  • 批准号:
    1629791
  • 财政年份:
    2016
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Standard Grant

相似国自然基金

复合低维拓扑材料中等离激元增强光学响应的研究
  • 批准号:
    12374288
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
基于管理市场和干预分工视角的消失中等企业:特征事实、内在机制和优化路径
  • 批准号:
    72374217
  • 批准年份:
    2023
  • 资助金额:
    41.00 万元
  • 项目类别:
    面上项目
托卡马克偏滤器中等离子体的多尺度算法与数值模拟研究
  • 批准号:
    12371432
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
中等质量黑洞附近的暗物质分布及其IMRI系统引力波回波探测
  • 批准号:
    12365008
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
中等垂直风切变下非对称型热带气旋快速增强的物理机制研究
  • 批准号:
    42305004
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
  • 批准号:
    2420691
  • 财政年份:
    2024
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Designing AI Systems with Steerable Long-Term Dynamics
合作研究:III:中:设计具有可操纵长期动态的人工智能系统
  • 批准号:
    2312865
  • 财政年份:
    2023
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Standard Grant
Collaborative Research: III: MEDIUM: Responsible Design and Validation of Algorithmic Rankers
合作研究:III:媒介:算法排序器的负责任设计和验证
  • 批准号:
    2312932
  • 财政年份:
    2023
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Algorithms for scalable inference and phylodynamic analysis of tumor haplotypes using low-coverage single cell sequencing data
合作研究:III:中:使用低覆盖率单细胞测序数据对肿瘤单倍型进行可扩展推理和系统动力学分析的算法
  • 批准号:
    2415562
  • 财政年份:
    2023
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Standard Grant
III: Medium: Collaborative Research: Integrating Large-Scale Machine Learning and Edge Computing for Collaborative Autonomous Vehicles
III:媒介:协作研究:集成大规模机器学习和边缘计算以实现协作自动驾驶汽车
  • 批准号:
    2348169
  • 财政年份:
    2023
  • 资助金额:
    $ 53.29万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了