Data Reduction and Large-Scale Inference - Bayesian Coresets

数据缩减和大规模推理 - 贝叶斯核心集

基本信息

  • 批准号:
    2592814
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Studentship
  • 财政年份:
    2021
  • 资助国家:
    英国
  • 起止时间:
    2021 至 无数据
  • 项目状态:
    未结题

项目摘要

The use of Bayesian methods in large-scale data settings is attractive due to the coherent uncertainty quantification, and prior specification they provide. Unfortunately, Bayesian inference algorithms are not generally computationally scalable, making their application to large datasets difficult or infeasible. As modern data sets continue to grow ever larger, it is essential for inference procedures to be scalable whilst retaining theoretical guarantees on the quality of their results. The question then naturally arises of how to reduce data in a principled manner, somehow extracting the meaningful structure in massive, high-dimensional data sets and condensing it into a smaller, lower-dimensional data sets which are less costly to analyse. Previous work on scaling Bayesian inference has focused on augmenting algorithms to, for example, use only a random data subsample at each iteration. However, by leveraging the insight that data is often redundant, recent work on Bayesian coresets has provided numerous approaches to finding a weighted subset of the data (called a coreset) that is much smaller than the original dataset. This coreset can then be exploited in many existing posterior inference algorithms without alteration, providing computational speedup and guarantees on posterior approximation error. Significant computational gains can be achieved by ensuring that the combined cost of coreset construction plus follow-on regression-parameter estimation from the coreset is less than that of estimating the inference parameters from the full dataset. These ideas can extend to other applications too, for example to Bayesian inference where, rather than using point estimates, parameters are sampled from a posterior distribution using MCMC or SMC techniques. Such sampling processes involve repeatedly evaluating the likelihood function which is less costly using a small coreset than it is for the full dataset. Work on this topic could also be taken in the direction hybridizing coreset methods with nonlinear dimensionality reduction techniques. Such techniques are designed not to reduce the number of data points, but rather the dimension of each data point, by recognizing and exploiting the fact that data may be concentrated around a manifold of low intrinsic dimension, embedded in a high-dimensional space. There are several other interesting research directions in which the work might be taken; current coreset reduction methods rely on full or conditional independence of data points. To what extent can the methods be extended beyond this regime? Can dimensionality reduction methods be placed within a well-founded and unified probabilistic framework? The University project supervisors will be Nick Whiteley and Robert Allison. "Industrial" co-supervisor(s) will be from the machine learning research group within the NCSC which is fully engaged on research into largescale Bayesian inference techniques, including data-reduction methods, and will join with our regular detailed technical discussions. This group is well connected across the UK university research community in the areas of data-science/computational-statistics/machine-learning as well as with the Alan Turing Institute and with NCSC research activities
贝叶斯方法在大规模数据环境中的使用是有吸引力的,由于它们提供的一致的不确定性量化和先验规范。不幸的是,贝叶斯推理算法通常不具有计算可扩展性,这使得它们在大型数据集上的应用变得困难或不可行。随着现代数据集的不断扩大,推理过程必须具有可扩展性,同时保持对结果质量的理论保证。那么问题自然就出现了,如何以原则性的方式减少数据,以某种方式从海量的高维数据集中提取有意义的结构,并将其压缩成更小的低维数据集,分析成本更低。以前关于扩展贝叶斯推理的工作主要集中在增强算法上,例如,在每次迭代中只使用随机数据子样本。然而,通过利用数据通常是冗余的这一观点,最近关于贝叶斯核心集的工作提供了许多方法来找到比原始数据集小得多的数据的加权子集(称为核心集)。这种核心集,然后可以利用在许多现有的后验推理算法没有改变,提供计算加速和保证后验近似误差。通过确保核心集构造加上后续回归参数估计的组合成本小于从完整数据集估计推断参数的组合成本,可以实现显著的计算增益。这些想法也可以扩展到其他应用,例如贝叶斯推断,而不是使用点估计,参数是从后验分布使用MCMC或SMC技术进行采样。这样的采样过程涉及重复评估的似然函数,这是成本较低的使用一个小的核心集比它是为完整的数据集。关于这一主题的工作也可以采取的方向杂交coreset方法与非线性降维技术。这样的技术被设计为不减少数据点的数量,而是通过认识和利用数据可以集中在嵌入在高维空间中的低固有维度的流形周围的事实来减少每个数据点的维度。还有其他几个有趣的研究方向,其中的工作可能会采取;目前的coreset减少方法依赖于数据点的完全或有条件的独立。这些方法在多大程度上可以扩展到这一制度之外?降维方法是否可以放在一个有充分根据的统一概率框架内?大学项目主管将是尼克·怀特利和罗伯特·艾利森。“工业”联合主管将来自NCSC内的机器学习研究小组,该小组全面参与大规模贝叶斯推理技术的研究,包括数据简化方法,并将加入我们定期进行的详细技术讨论。该小组在数据科学/计算统计/机器学习领域与英国大学研究界以及Alan Turing Institute和NCSC研究活动有着良好的联系

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

其他文献

吉治仁志 他: "トランスジェニックマウスによるTIMP-1の線維化促進機序"最新医学. 55. 1781-1787 (2000)
Hitoshi Yoshiji 等:“转基因小鼠中 TIMP-1 的促纤维化机制”现代医学 55. 1781-1787 (2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
LiDAR Implementations for Autonomous Vehicle Applications
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
生命分子工学・海洋生命工学研究室
生物分子工程/海洋生物技术实验室
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
吉治仁志 他: "イラスト医学&サイエンスシリーズ血管の分子医学"羊土社(渋谷正史編). 125 (2000)
Hitoshi Yoshiji 等人:“血管医学与科学系列分子医学图解”Yodosha(涉谷正志编辑)125(2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Effect of manidipine hydrochloride,a calcium antagonist,on isoproterenol-induced left ventricular hypertrophy: "Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,K.,Teragaki,M.,Iwao,H.and Yoshikawa,J." Jpn Circ J. 62(1). 47-52 (1998)
钙拮抗剂盐酸马尼地平对异丙肾上腺素引起的左心室肥厚的影响:“Yoshiyama,M.,Takeuchi,K.,Kim,S.,Hanatani,A.,Omura,T.,Toda,I.,Akioka,
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:

的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('', 18)}}的其他基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    --
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship

相似国自然基金

兼捕减少装置(Bycatch Reduction Devices, BRD)对拖网网囊系统水动力及渔获性能的调控机制
  • 批准号:
    32373187
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

Using Large-Scale Network Data to Measure Social Returns and Improve Targeting of Crime-Reduction Interventions
使用大规模网络数据衡量社会回报并提高减少犯罪干预措施的针对性
  • 批准号:
    2242453
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Multifidelity Nonsmooth Optimization and Data-Driven Model Reduction for Robust Stabilization of Large-Scale Linear Dynamical Systems
用于大规模线性动力系统鲁棒稳定的多保真非光滑优化和数据驱动模型简化
  • 批准号:
    2012250
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
AF: Small: Data-Driven Model Reduction for Optimal Control of Large-Scale Systems
AF:小型:用于大型系统优化控制的数据驱动模型简化
  • 批准号:
    1816219
  • 财政年份:
    2018
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Development of 3D data reduction system for sharing large CAD model with AR on smart phone.
开发 3D 数据缩减系统,用于在智能手机上与 AR 共享大型 CAD 模型。
  • 批准号:
    17K00162
  • 财政年份:
    2017
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A study of joint dimension reduction and clustering for heuristic considerations of large-scaled data
用于大规模数据启发式考虑的联合降维和聚类研究
  • 批准号:
    26330052
  • 财政年份:
    2014
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Data Reduction Techniques for Systematic Information Quantification in Large Scale, Multiple Spike Trains
大规模、多尖峰序列系统信息量化的数据缩减技术
  • 批准号:
    EP/E057152/1
  • 财政年份:
    2007
  • 资助金额:
    --
  • 项目类别:
    Research Grant
Data Reduction Techniques for Systematic Information Quantification in Large Scale, Multiple Spike Trains
大规模、多尖峰序列系统信息量化的数据缩减技术
  • 批准号:
    EP/E057101/1
  • 财政年份:
    2007
  • 资助金额:
    --
  • 项目类别:
    Research Grant
Study of dimension reduction methods driven by large scale biological data
大规模生物数据驱动的降维方法研究
  • 批准号:
    0707160
  • 财政年份:
    2007
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
NMR AND DATA REDUCTION TECHNIQUES FOR LARGE BIOMOLECULES
大生物分子的核磁共振和数据简化技术
  • 批准号:
    6448191
  • 财政年份:
    2001
  • 资助金额:
    --
  • 项目类别:
NMR AND DATA REDUCTION TECHNIQUES FOR LARGE BIOMOLECULES
大生物分子的核磁共振和数据简化技术
  • 批准号:
    6301754
  • 财政年份:
    2000
  • 资助金额:
    --
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了