III: Small: Scalable Probabilistic Inference for Large Knowledge Bases

III:小:大型知识库的可扩展概率推理

基本信息

  • 批准号:
    1614738
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2016
  • 资助国家:
    美国
  • 起止时间:
    2016-07-15 至 2020-06-30
  • 项目状态:
    已结题

项目摘要

Large Knowledge Bases are constructed today automatically from large corpora of text, like Web pages, journal articles, news stories. The construction proceeds in two major stages. First, several database queries are computed on the corpora of text, to extract candidate data items; the resulting data, called a factor graph, can be thought of as a very large, noisy, uncertain, redundant, and inconsistent database. Second, a complex probabilistic inference is performed on the factor graph to produce a large, probabilistic knowledge base. Both stages are computationally expensive, but only the first stage has benefited so far from advances in database query processing techniques. This project develops new database processing techniques for the probabilistic inference task. These new techniques have theoretical guarantees, either in the form of absolute guarantees on the runtime of the probabilistic inference, or in the form of a trade-off between the run time and the precision of the probabilistic inference.The main technique pursued by the project is called lifted probabilistic inference, and consists of algorithms that compute the probability of a SQL query inductively on the structure of the query, without having to first ground the query to compute the large factor graph. Lifted inference is very efficient, but possible only for some queries. The project has four thrusts. First, it combines sampling with lifted inference for efficient approximate probabilistic inference for any query; this algorithms can pushed in the database engine, and can therefore benefit immediately from all optimizations available today in modern, parallel query processors. Second, the project studies the complexity of query evaluation on symmetric databases, a special case of high practical importance, since it scales easily to arbitrarily large domains. In the third thrust, the project extends lifted inference techniques to queries with negations by combining probabilistic inference with resolution; this is necessary because soft constraints in knowledge bases almost always have negations. Finally, the project develops a system prototype and benchmarks.
今天,大型知识库是从网页、期刊文章、新闻故事等大型文本语料库中自动构建的。建设分两个主要阶段进行。首先,在文本语料库上计算几个数据库查询,以提取候选数据项;结果数据称为因子图,可以认为是一个非常大、噪声、不确定、冗余和不一致的数据库。其次,在因子图上执行复杂的概率推理,以产生一个大型的概率知识库。这两个阶段的计算成本都很高,但到目前为止,只有第一个阶段受益于数据库查询处理技术的进步。该项目为概率推理任务开发了新的数据库处理技术。这些新技术有理论上的保证,要么是对概率推理的运行时间的绝对保证,要么是以运行时间和概率推理的精度之间的权衡的形式。该项目追求的主要技术被称为提升的概率推理,它包括在查询的结构上归纳地计算SQL查询的概率的算法,而不必首先使查询基础来计算大因子图。取消推理是非常有效的,但仅对某些查询可能。该项目有四个推力。首先,它将抽样与提升推理相结合,为任何查询提供高效的近似概率推理;该算法可以推入数据库引擎,因此可以立即从现代并行查询处理器中提供的所有优化中受益。其次,该项目研究了对称数据库上的查询求值的复杂性,这是一个具有很高实用价值的特例,因为它很容易扩展到任意大的域。在第三个推力中,该项目将Lift推理技术扩展到带有否定的查询,将概率推理与解析相结合;这是必要的,因为知识库中的软约束几乎总是有否定的。最后,项目开发了一个系统原型和基准测试。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Bag Query Containment and Information Theory
包查询遏制和信息论
  • DOI:
    10.1145/3472391
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    1.8
  • 作者:
    Khamis, Mahmoud Abo;Kolaitis, Phokion G.;Ngo, Hung Q.;Suciu, Dan
  • 通讯作者:
    Suciu, Dan
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Dan Suciu其他文献

A Dichotomy for the Generalized Model Counting Problem for Unions of Conjunctive Queries
连接查询并集广义模型计数问题的二分法
Optimizing Large-Scale Semi-Naïve Datalog Evaluation in Hadoop
优化 Hadoop 中的大规模半简单数据记录评估
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Marianne Shaw;Paraschos Koutris;Bill Howe;Dan Suciu
  • 通讯作者:
    Dan Suciu
Integrating Network-Bound XML Data
集成网络绑定的 XML 数据
XViz: A Tool for Visualizing XPath Expressions
XViz:可视化 XPath 表达式的工具
Cytosolic protein ubiquitylation in normal and endotoxin stimulated human peripheral blood mononuclear cells
正常和内毒素刺激的人外周血单核细胞中胞质蛋白的泛素化
  • DOI:
  • 发表时间:
    2000
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. Majetschak;Dan Suciu;K. Häsler;U. Obertacke;F. Schade;H. Jennissen
  • 通讯作者:
    H. Jennissen

Dan Suciu的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Dan Suciu', 18)}}的其他基金

III: Small: Datalog with Aggregates: Complexity, Optimization, Evaluation
III:小:带有聚合的数据记录:复杂性、优化、评估
  • 批准号:
    2314527
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
NSF-BSF: III: Small: Data Driven Schema
NSF-BSF:III:小型:数据驱动模式
  • 批准号:
    2109922
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Medium: Collaborative Research: Reasoning about Optimizers for Data-Intensive Systems
III:媒介:协作研究:数据密集型系统优化器的推理
  • 批准号:
    1954222
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III:Small: Optimal Query Processing meets Information Theory: from Proofs to Algorithms
III:Small:最优查询处理遇到信息论:从证明到算法
  • 批准号:
    1907997
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Medium: Collaborative Research: A Unified and Declarative Approach to Causal Analysis for Big Data
III:媒介:协作研究:大数据因果分析的统一声明式方法
  • 批准号:
    1703281
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
AitF: FULL: Query Processing with Optimal Communication Cost
AitF:FULL:具有最佳通信成本的查询处理
  • 批准号:
    1535565
  • 财政年份:
    2015
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
BIGDATA: Mid-Scale: DCM: A Formal Foundation for Big Data Management
BIGDATA:中型:DCM:大数据管理的正式基础
  • 批准号:
    1247469
  • 财政年份:
    2013
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Small: Query Compilation on Probabilistic Databases
III:小:概率数据库上的查询编译
  • 批准号:
    1115188
  • 财政年份:
    2011
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: BeliefDB - Adding Belief Annotations to Databases
III:小:BeliefDB - 向数据库添加信念注释
  • 批准号:
    0915054
  • 财政年份:
    2009
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III COR: Query Evaluation and View Materialization in Probabilistic Data
III COR:概率数据中的查询评估和视图具体化
  • 批准号:
    0713576
  • 财政年份:
    2007
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

III: SMALL: Scalable In-Database Prescriptive Analytics for Dynamic Environments
III:小型:适用于动态环境的可扩展数据库内规范分析
  • 批准号:
    2211918
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: RUI: Scalable and Iterative Statistical Testing of Multiple Hypotheses on Massive Datasets
III:小型:RUI:海量数据集上多个假设的可扩展和迭代统计检验
  • 批准号:
    2006765
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: A Submodular Framework for Scalable Graph Matching with Performance Guarantees
III:小型:具有性能保证的可扩展图匹配的子模块框架
  • 批准号:
    1908070
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Collaborative Research: Scalable Deep Bayesian Tensor Decomposition
III:小:协作研究:可扩展的深贝叶斯张量分解
  • 批准号:
    1910983
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Collaborative Research: Scalable Deep Bayesian Tensor Decomposition
III:小:协作研究:可扩展的深贝叶斯张量分解
  • 批准号:
    1909912
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Peer-to-peer Database (P2PDB): A decentralized, scalable data sharing and management platform
III:小型:点对点数据库(P2PDB):去中心化、可扩展的数据共享和管理平台
  • 批准号:
    1910613
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Small: Combining Stochastics and Numerics for Improved Scalable Matrix Computations
III:小型:结合随机变量和数值以改进可扩展矩阵计算
  • 批准号:
    1815054
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Scalable Event Trend Analytics For Data Stream Inquiry
III:小型:用于数据流查询的可扩展事件趋势分析
  • 批准号:
    1815866
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Scalable, Practical Deterministic Database Systems
III:小型:可扩展、实用的确定性数据库系统
  • 批准号:
    1763797
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Collaborative Research: Scalable Schema-Based Event Extraction
III:小型:协作研究:可扩展的基于模式的事件提取
  • 批准号:
    1617969
  • 财政年份:
    2016
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了