NSF-BSF: III: Small: Data Driven Schema
NSF-BSF:III:小型:数据驱动模式
基本信息
- 批准号:2109922
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-09-01 至 2024-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Data needs to be organized systematically and rigorously. Data about consumer products goes into one table, and data about micro-organisms goes into a different table. This makes it easier for humans and computers to store the data, to retrieve and query it, and to update it. But today one often finds large amounts of noisy, inconsistent, incomplete data, which are impossible to organize rigorously. The sheer volume of this data makes it very valuable, yet it is of limited utility without proper organization. This project develops methods for organizing noisy, inconsistent, incomplete data, and develops techniques for storing, querying, and updating such data. Its findings will inform organizations on how to organize and use large amounts of noisy data.This project develops a technique for approximate schema discovery for noisy data, for normalizing the data according to this schema, and for improving query processing. The input consists of a single, large relation, which may be noisy, inconsistent, incomplete, and the system discovers automatically a few candidate schemas that can represent the data with minimal loss and with high utility for downstream tasks. Each schema is associated with an information-theoretic score, which represents the amount of information that may be lost when we represent the data according to that schema. Then, the project researches new approaches for querying the data stored in an approximate schema, by either recording explicitly the number of "spurious tuples" generated by the schema, or by using probabilities to quantify the degree of confidence in the query's answer. The techniques explored in this project combine information theory with graph algorithms and with query optimization.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据需要系统而严谨地组织起来。关于消费品的数据放在一张表中,关于微生物的数据放在另一张表中。这使得人类和计算机更容易存储数据、检索和查询数据以及更新数据。但今天,人们经常发现大量嘈杂、不一致、不完整的数据,这些数据不可能严格地组织起来。这些数据的绝对数量使其非常有价值,但如果没有适当的组织,它的效用有限。该项目开发了组织嘈杂、不一致、不完整数据的方法,并开发了存储、查询和更新这些数据的技术。其研究结果将为组织提供如何组织和使用大量嘈杂数据的信息。该项目开发了一种技术,用于对噪声数据进行近似模式发现,根据该模式对数据进行规范化,并改进查询处理。输入由单个大关系组成,该关系可能是嘈杂的、不一致的、不完整的,系统会自动发现一些候选模式,这些模式可以以最小的损失表示数据,并且对下游任务具有很高的效用。每个模式都与一个信息理论分数相关联,该分数表示根据该模式表示数据时可能丢失的信息量。然后,该项目研究了查询存储在近似模式中的数据的新方法,通过显式记录模式生成的“伪元组”的数量,或者通过使用概率来量化查询答案的置信度。本项目探索的技术将信息论与图算法和查询优化相结合。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
On the Tractability of SHAP Explanations
论 SHAP 解释的可处理性
- DOI:10.1613/jair.1.13283
- 发表时间:2022
- 期刊:
- 影响因子:5
- 作者:Van den Broeck, Guy;Lykov, Anton;Schleich, Maximilian;Suciu, Dan
- 通讯作者:Suciu, Dan
Optimizing Tensor Programs on Flexible Storage
在灵活存储上优化张量程序
- DOI:10.1145/3588717
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Schleich, Maximilian;Shaikhha, Amir;Suciu, Dan
- 通讯作者:Suciu, Dan
Bag Query Containment and Information Theory
包查询遏制和信息论
- DOI:10.1145/3472391
- 发表时间:2021
- 期刊:
- 影响因子:1.8
- 作者:Khamis, Mahmoud Abo;Kolaitis, Phokion G.;Ngo, Hung Q.;Suciu, Dan
- 通讯作者:Suciu, Dan
Degree Sequence Bound For Join Cardinality Estimation
- DOI:10.4230/lipics.icdt.2023.8
- 发表时间:2022-01
- 期刊:
- 影响因子:0
- 作者:Kyle Deeds;Dan Suciu;M. Balazinska;Walter Cai
- 通讯作者:Kyle Deeds;Dan Suciu;M. Balazinska;Walter Cai
Quasi-Stable Coloring for Graph Compression: Approximating Max-Flow, Linear Programs, and Centrality
图压缩的准稳定着色:近似最大流、线性程序和中心性
- DOI:10.14778/3574245.3574264
- 发表时间:2022
- 期刊:
- 影响因子:2.5
- 作者:Kayali, Moe;Suciu, Dan
- 通讯作者:Suciu, Dan
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Dan Suciu其他文献
A Dichotomy for the Generalized Model Counting Problem for Unions of Conjunctive Queries
连接查询并集广义模型计数问题的二分法
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
Batya Kenig;Dan Suciu - 通讯作者:
Dan Suciu
Optimizing Large-Scale Semi-Naïve Datalog Evaluation in Hadoop
优化 Hadoop 中的大规模半简单数据记录评估
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
Marianne Shaw;Paraschos Koutris;Bill Howe;Dan Suciu - 通讯作者:
Dan Suciu
Integrating Network-Bound XML Data
集成网络绑定的 XML 数据
- DOI:
- 发表时间:
2001 - 期刊:
- 影响因子:0
- 作者:
M. Fernández;Atsuyuki Morishima;Dan Suciu;W. Tan - 通讯作者:
W. Tan
XViz: A Tool for Visualizing XPath Expressions
XViz:可视化 XPath 表达式的工具
- DOI:
10.1007/978-3-540-39429-7_9 - 发表时间:
2003 - 期刊:
- 影响因子:0
- 作者:
B. Handy;Dan Suciu - 通讯作者:
Dan Suciu
Cytosolic protein ubiquitylation in normal and endotoxin stimulated human peripheral blood mononuclear cells
正常和内毒素刺激的人外周血单核细胞中胞质蛋白的泛素化
- DOI:
- 发表时间:
2000 - 期刊:
- 影响因子:0
- 作者:
M. Majetschak;Dan Suciu;K. Häsler;U. Obertacke;F. Schade;H. Jennissen - 通讯作者:
H. Jennissen
Dan Suciu的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Dan Suciu', 18)}}的其他基金
III: Small: Datalog with Aggregates: Complexity, Optimization, Evaluation
III:小:带有聚合的数据记录:复杂性、优化、评估
- 批准号:
2314527 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
III: Medium: Collaborative Research: Reasoning about Optimizers for Data-Intensive Systems
III:媒介:协作研究:数据密集型系统优化器的推理
- 批准号:
1954222 - 财政年份:2020
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
III:Small: Optimal Query Processing meets Information Theory: from Proofs to Algorithms
III:Small:最优查询处理遇到信息论:从证明到算法
- 批准号:
1907997 - 财政年份:2019
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
III: Medium: Collaborative Research: A Unified and Declarative Approach to Causal Analysis for Big Data
III:媒介:协作研究:大数据因果分析的统一声明式方法
- 批准号:
1703281 - 财政年份:2017
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
III: Small: Scalable Probabilistic Inference for Large Knowledge Bases
III:小:大型知识库的可扩展概率推理
- 批准号:
1614738 - 财政年份:2016
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
AitF: FULL: Query Processing with Optimal Communication Cost
AitF:FULL:具有最佳通信成本的查询处理
- 批准号:
1535565 - 财政年份:2015
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale: DCM: A Formal Foundation for Big Data Management
BIGDATA:中型:DCM:大数据管理的正式基础
- 批准号:
1247469 - 财政年份:2013
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
III: Small: Query Compilation on Probabilistic Databases
III:小:概率数据库上的查询编译
- 批准号:
1115188 - 财政年份:2011
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
III: Small: BeliefDB - Adding Belief Annotations to Databases
III:小:BeliefDB - 向数据库添加信念注释
- 批准号:
0915054 - 财政年份:2009
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
III COR: Query Evaluation and View Materialization in Probabilistic Data
III COR:概率数据中的查询评估和视图具体化
- 批准号:
0713576 - 财政年份:2007
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
相似国自然基金
枯草芽孢杆菌BSF01降解高效氯氰菊酯的种内群体感应机制研究
- 批准号:31871988
- 批准年份:2018
- 资助金额:59.0 万元
- 项目类别:面上项目
基于掺硼直拉单晶硅片的Al-BSF和PERC太阳电池光衰及其抑制的基础研究
- 批准号:61774171
- 批准年份:2017
- 资助金额:63.0 万元
- 项目类别:面上项目
B细胞刺激因子-2(BSF-2)与自身免疫病的关系
- 批准号:38870708
- 批准年份:1988
- 资助金额:3.0 万元
- 项目类别:面上项目
相似海外基金
Collaborative Research: NSF-BSF: How cell adhesion molecules control neuronal circuit wiring: Binding affinities, binding availability and sub-cellular localization
合作研究:NSF-BSF:细胞粘附分子如何控制神经元电路布线:结合亲和力、结合可用性和亚细胞定位
- 批准号:
2321481 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
Collaborative Research: NSF-BSF: How cell adhesion molecules control neuronal circuit wiring: Binding affinities, binding availability and sub-cellular localization
合作研究:NSF-BSF:细胞粘附分子如何控制神经元电路布线:结合亲和力、结合可用性和亚细胞定位
- 批准号:
2321480 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
NSF-BSF: Many-Body Physics of Quantum Computation
NSF-BSF:量子计算的多体物理学
- 批准号:
2338819 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
Collaborative Research: NSF-BSF: Under Pressure: The evolution of guard cell turgor and the rise of the angiosperms
合作研究:NSF-BSF:压力之下:保卫细胞膨压的进化和被子植物的兴起
- 批准号:
2333889 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Collaborative Research: NSF-BSF: Under Pressure: The evolution of guard cell turgor and the rise of the angiosperms
合作研究:NSF-BSF:压力之下:保卫细胞膨压的进化和被子植物的兴起
- 批准号:
2333888 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
NSF-BSF: Towards a Molecular Understanding of Dynamic Active Sites in Advanced Alkaline Water Oxidation Catalysts
NSF-BSF:高级碱性水氧化催化剂动态活性位点的分子理解
- 批准号:
2400195 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
NSF-BSF: Collaborative Research: Solids and reactive transport processes in sewer systems of the future: modeling and experimental investigation
NSF-BSF:合作研究:未来下水道系统中的固体和反应性输送过程:建模和实验研究
- 批准号:
2134594 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
NSF-BSF Combinatorial Set Theory and PCF
NSF-BSF 组合集合论和 PCF
- 批准号:
2400200 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
NSF-BSF: CDS&E: Tensor Train methods for Quantum Impurity Solvers
NSF-BSF:CDS
- 批准号:
2401159 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
NSF-BSF: Collaborative Research: AF: Small: Algorithmic Performance through History Independence
NSF-BSF:协作研究:AF:小型:通过历史独立性实现算法性能
- 批准号:
2420942 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant