Adaptive Bayesian Models for Entity Resolution with Heterogeneous Data
用于异构数据实体解析的自适应贝叶斯模型
基本信息
- 批准号:2310222
- 负责人:
- 金额:$ 25万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-12-01 至 2025-05-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Methods for integrating information from multiple sources have become critical in order to perform complete and accurate data analyses on streams of data. The process of merging and removing duplicate information from noisy data is known as entity resolution or record linkage. Entity resolution tasks are prevalent in many areas, including public health, human rights, official statistics, social networks, fraud detection, and national security, among others. Although probabilistic approaches for entity resolution have become more pervasive in recent years, principled approaches that are also computationally tractable and scalable for large data sets are limited. This project aims to develop Bayesian models and efficient computational algorithms suited for entity resolution tasks with heterogeneous types of data. The methods will be made accessible to practitioners and other researchers through open-source software. Entity resolution with multiple files can be treated as a clustering task in which similar records that represent the same latent entity are grouped together. In this context, a large number of small clusters or microclusters is expected. The following three general avenues of research will be explored: (a) adaptive prior distributions for random partitions that display microclustering properties and permit straightforward incorporation of prior information at different scales; (b) integrated Bayesian models suited for entity resolution tasks with social network data that are easily adaptable according to the nature of the available information; and (c) computational algorithms for model acceleration of entity resolution applications on big data. A variety of Markov Chain Monte Carlo algorithms and efficient alternatives for posterior inference in the microclustering setting of entity resolution will be explored to overcome the known practical limitations of Bayesian inference in high-dimensional discrete spaces.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
为了对数据流进行完整和准确的数据分析,整合来自多个来源的信息的方法变得至关重要。从噪声数据中合并和删除重复信息的过程称为实体解析或记录链接。实体解析任务在许多领域都很普遍,包括公共卫生、人权、官方统计、社交网络、欺诈检测和国家安全等。虽然近年来实体解析的概率方法变得越来越普遍,但对于大型数据集来说,计算上易于处理和可扩展的原则性方法是有限的。该项目旨在开发贝叶斯模型和高效的计算算法,适用于具有异构类型数据的实体解析任务。这些方法将通过开放源码软件提供给从业人员和其他研究人员。 具有多个文件的实体解析可以被视为聚类任务,其中表示相同潜在实体的类似记录被分组在一起。在这种情况下,预计会出现大量的小簇或微簇。将探讨以下三种一般研究途径:(a)随机分区的自适应先验分布,显示微聚类特性,并允许在不同尺度上直接合并先验信息;(B)适用于实体解析任务的集成贝叶斯模型与社会网络数据,易于根据可用信息的性质进行调整;以及(c)用于大数据上的实体解析应用的模型加速的计算算法。各种马尔可夫链蒙特卡罗算法和有效的替代品后的推理在实体分辨率的微聚类设置将探讨克服已知的实际限制贝叶斯推理在高维discrete spaces.This奖项反映了NSF的法定使命,并已被认为是值得通过使用基金会的智力价值和更广泛的影响审查标准进行评估的支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Brenda Betancourt其他文献
Posterior Prototyping: Bridging the Gap between Bayesian Record Linkage and Regression
后验原型:弥合贝叶斯记录链接和回归之间的差距
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Andee Kaplan;Brenda Betancourt;R. Steorts - 通讯作者:
R. Steorts
Fast generation of exchangeable sequences of clusters data
快速生成可交换的簇数据序列
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:2.2
- 作者:
Keith D. Levin;Brenda Betancourt - 通讯作者:
Brenda Betancourt
Entity Resolution with Random Partition Priors for Microclustering [R package microclustr version 0.1.0]
使用随机分区先验进行微聚类的实体解析 [R 包 microcluster 版本 0.1.0]
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
R. Steorts;Brenda Betancourt;Giacomo Zanella - 通讯作者:
Giacomo Zanella
Random Partition Models for Microclustering Tasks
微聚类任务的随机分区模型
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:3.7
- 作者:
Brenda Betancourt;Giacomo Zanella;R. Steorts - 通讯作者:
R. Steorts
A weakly informative prior for Bayesian dynamic model selection with applications in fMRI
贝叶斯动态模型选择的弱信息先验及其在 fMRI 中的应用
- DOI:
10.1080/02664763.2017.1363161 - 发表时间:
2016 - 期刊:
- 影响因子:1.5
- 作者:
J. A. Fúquene Patiño;Brenda Betancourt;João B. M. Pereira - 通讯作者:
João B. M. Pereira
Brenda Betancourt的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Brenda Betancourt', 18)}}的其他基金
Adaptive Bayesian Models for Entity Resolution with Heterogeneous Data
用于异构数据实体解析的自适应贝叶斯模型
- 批准号:
2051911 - 财政年份:2021
- 资助金额:
$ 25万 - 项目类别:
Continuing Grant
相似国自然基金
多元纵向数据与复发事件和终止事件的Bayesian联合模型研究
- 批准号:82173628
- 批准年份:2021
- 资助金额:52 万元
- 项目类别:面上项目
三维地质模型约束下地球化学场的Bayesian-MCMC推断
- 批准号:42072326
- 批准年份:2020
- 资助金额:63 万元
- 项目类别:面上项目
基于Bayesian Kriging模型的压射机构稳健优化设计基础研究
- 批准号:51875209
- 批准年份:2018
- 资助金额:59.0 万元
- 项目类别:面上项目
X射线图像分析中的MCMC-Bayesian理论与计算方法研究
- 批准号:U1830105
- 批准年份:2018
- 资助金额:62.0 万元
- 项目类别:联合基金项目
基于Bayesian位移场的SAR图像精确配准方法研究
- 批准号:41601345
- 批准年份:2016
- 资助金额:19.0 万元
- 项目类别:青年科学基金项目
多结局Bayesian联合生存模型及糖尿病并发症预测研究
- 批准号:81673274
- 批准年份:2016
- 资助金额:50.0 万元
- 项目类别:面上项目
基于Meta流行病学和Bayesian方法构建针刺干预无偏倚风险效果评价体系研究
- 批准号:81403276
- 批准年份:2014
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
BtoC电子商务中基于分层Bayesian网络的信任与声誉计算理论研究
- 批准号:71302080
- 批准年份:2013
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
基于Bayesian网络的坚硬顶板条件下煤与瓦斯突出预警控制机理研究
- 批准号:51274089
- 批准年份:2012
- 资助金额:80.0 万元
- 项目类别:面上项目
Bayesian实物期权及在信用风险决策中的应用
- 批准号:71071027
- 批准年份:2010
- 资助金额:23.0 万元
- 项目类别:面上项目
相似海外基金
MPhil/PhD Statistics (Assessing inequality in the Criminal Justice System using novel causal inference methods and Bayesian spatial models)
硕士/博士统计学(使用新颖的因果推理方法和贝叶斯空间模型评估刑事司法系统中的不平等)
- 批准号:
2905812 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Studentship
Interpretable Bayesian Non-linear statistical learning models for multi-omics data integration
用于多组学数据集成的可解释贝叶斯非线性统计学习模型
- 批准号:
10714882 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Bayesian Prediction Theory and Information Geometry for Non-regular and Quantum Statistical Models
非正则和量子统计模型的贝叶斯预测理论和信息几何
- 批准号:
23K11006 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
iCyberPlatform - An innovative cybersecurity platform that uses AI, ML, Bayesian statistical models and the LDA algorithm to provide enhanced cyber defence against breaches
iCyberPlatform - 一个创新的网络安全平台,使用人工智能、机器学习、贝叶斯统计模型和 LDA 算法来提供针对违规的增强网络防御
- 批准号:
10037731 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Collaborative R&D
Bayesian Meta-Learning for Earth Observation: Better Models with Less Data
用于地球观测的贝叶斯元学习:用更少的数据建立更好的模型
- 批准号:
2890092 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Studentship
Advanced Bayesian Methods for Generalized Choice Response Time Models of Decision-Making
用于决策的广义选择响应时间模型的高级贝叶斯方法
- 批准号:
2242962 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Continuing Grant
Bayesian Sparse Dirichlet-Multinomial Models for Discovering Latent Structure in High-Dimensional Compositional Count Data
用于发现高维组合计数数据中潜在结构的贝叶斯稀疏狄利克雷多项模型
- 批准号:
2245492 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Continuing Grant
Developing Conjugate Models for Exact MCMC free Bayesian Inference with Application to High-Dimensional Spatio-Temporal Data
开发用于精确 MCMC 免费贝叶斯推理的共轭模型并应用于高维时空数据
- 批准号:
2310756 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
Multiscale, Multi-fidelity and Multiphysics Bayesian Neural Network (BNN) Machine Learning (ML) Surrogate Models for Modelling Design Based Accidents
用于基于事故建模设计的多尺度、多保真度和多物理场贝叶斯神经网络 (BNN) 机器学习 (ML) 替代模型
- 批准号:
2764855 - 财政年份:2022
- 资助金额:
$ 25万 - 项目类别:
Studentship
Scalable and Robust Bayesian Inference for Implicit Statistical Models
隐式统计模型的可扩展且稳健的贝叶斯推理
- 批准号:
FT210100260 - 财政年份:2022
- 资助金额:
$ 25万 - 项目类别:
ARC Future Fellowships














{{item.name}}会员




