III: Small:Collaborative Research: Bayesian Model Computation for Large and High Dimensional Data Sets

III:小型:协作研究:大型高维数据集的贝叶斯模型计算

基本信息

项目摘要

This award is funded under the American Recovery and Reinvestment Act of 2009 (Public Law 111-5. This grant supports research in adapting and optimizing Markov Chain Monte Carlo methods to compute Bayesian models on large data sets resident on secondary storage, exploiting database systems techniques. The work will seek to optimize computations, preserve model accuracy and accelerate sampling techniques from large and high dimensional data sets, exploiting different data set layouts and indexing data structures. The team will develop weighted sampling methods that can produce models of similar quality as traditional sampling methods, but which are much faster for large data sets that cannot fit on primary storage. One sub-goal will study how to compress a large data set preserving its statistical properties for parametric Bayesian models, and then adapting existing methods to handle compressed data sets. Intellectual Merit and Broader Impact This endeavor requires developing novel computational methods that can work efficiently with large data sets and numerically intensive computations. The main technical difficulty is that it is not possible to obtain accurate samples from subsamples of a large data set. Therefore, the team will focus on accelerating sampling from the posterior distribution based on the entire data set. This problem is unusually difficult because stochastic methods require a high number of iterations (typically thousands) over the entire data set to converge. However, if the data set is compressed it becomes necessary to generalize traditional methods to use weighted points combined with higher order statistics, beyond the well-known sufficient statistics for the Gaussian distribution. Developing optimizations combining primary and secondary storage is quite different from optimizing an algorithm that works only on primary storage. This research effort requires comprehensive statistical knowledge on both Bayesian models and stochastic methods, beyond traditional data mining methods. A strong database systems background in optimizing computations with large disk-resident matrices is also necessary. This research will enable a faster solution of larger scale problems compared to modern statistical packages to solve stochastic models. Bayesian analysis and model management will be easier, faster and more flexible. Broad Impact This research will occur within the context of three separate application areas: cancer, water pollution, and medical data sets with patients having cancer and heart disease. The educational component of this grant will enhance current teaching and research on data mining. In an advanced data mining course students will apply stochastic methods to compute complex Bayesian models on hundreds of variables and millions of records. Data mining research projects will be enhanced with Bayesian models, promoting interaction between statistics and computer science. Keywords: Bayesian model, stochastic method, database system
该奖项是根据2009年《美国复苏和再投资法案》(公法111-5)资助的。这笔赠款支持采用和优化马尔可夫链蒙特卡罗方法的研究,以利用数据库系统技术,对驻留在辅助存储上的大型数据集计算贝叶斯模型。这项工作将寻求优化计算,保持模型精度,并加快从大型和高维数据集采样技术,利用不同的数据集布局和索引数据结构。该团队将开发加权抽样方法,这种方法可以产生与传统抽样方法类似质量的模型,但对于无法放入主存储的大型数据集来说,速度要快得多。一个子目标将研究如何在参数贝叶斯模型中保持大数据集的统计特性,然后调整现有方法来处理压缩数据集。智力价值和更广泛的影响这一努力需要开发新的计算方法,能够有效地处理大型数据集和数值密集型计算。主要的技术困难是不可能从大数据集的子样本中获得准确的样本。因此,该团队将专注于加速基于整个数据集的后验分布的采样。这个问题异常困难,因为随机方法需要在整个数据集上进行大量的迭代(通常是数千次)才能收敛。然而,如果数据集被压缩,则有必要将传统方法推广到使用加权点和高阶统计量,而不是众所周知的用于高斯分布的充分统计量。开发结合主存储和辅助存储的优化与优化仅在主存储上起作用的算法有很大不同。这项研究工作需要贝叶斯模型和随机方法的全面统计知识,而不是传统的数据挖掘方法。此外,还需要在优化大型磁盘驻留矩阵的计算方面具有强大的数据库系统背景。与解决随机模型的现代统计软件包相比,这项研究将使更快地解决更大规模的问题。贝叶斯分析和模型管理将更容易、更快、更灵活。广泛影响这项研究将在三个不同的应用领域进行:癌症、水污染以及癌症和心脏病患者的医学数据集。这笔赠款的教育部分将加强目前在数据挖掘方面的教学和研究。在高级数据挖掘课程中,学生将应用随机方法计算数百个变量和数百万条记录的复杂贝叶斯模型。将用贝叶斯模型加强数据挖掘研究项目,促进统计学和计算机科学之间的互动。关键词:贝叶斯模型、随机方法、数据库系统

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Veerabhadran Baladandayuthapani其他文献

Spatially Structured Regression for Non-conformable Spaces: Integrating Pathology Imaging and Genomics Data in Cancer
非整合空间的空间结构化回归:整合癌症病理成像和基因组数据
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Nathaniel Osher;Jian Kang;Arvind Rao;Veerabhadran Baladandayuthapani
  • 通讯作者:
    Veerabhadran Baladandayuthapani
Rejoinder to the discussion of “Bayesian graphical models for modern biological applications”
  • DOI:
    10.1007/s10260-022-00634-5
  • 发表时间:
    2022-04-12
  • 期刊:
  • 影响因子:
    0.800
  • 作者:
    Yang Ni;Veerabhadran Baladandayuthapani;Marina Vannucci;Francesco C. Stingo
  • 通讯作者:
    Francesco C. Stingo
Geometry-driven Bayesian Inference for Ultrametric Covariance Matrices
超量协方差矩阵的几何驱动贝叶斯推理
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tsung;Zhenke Wu;K. Bharath;Veerabhadran Baladandayuthapani
  • 通讯作者:
    Veerabhadran Baladandayuthapani
Spatial modeling of annual minimum and maximum temperatures in Iceland
  • DOI:
    10.1007/s00703-010-0101-0
  • 发表时间:
    2010-12-24
  • 期刊:
  • 影响因子:
    2.100
  • 作者:
    Birgir Hrafnkelsson;Jeffrey S. Morris;Veerabhadran Baladandayuthapani
  • 通讯作者:
    Veerabhadran Baladandayuthapani

Veerabhadran Baladandayuthapani的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Veerabhadran Baladandayuthapani', 18)}}的其他基金

Collaborative Research: New Bayesian Nonparametric Paradigms of Personalized Medicine for Lung Cancer
合作研究:肺癌个体化医疗的新贝叶斯非参数范式
  • 批准号:
    1922567
  • 财政年份:
    2018
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Continuing Grant
Collaborative Research: New Bayesian Nonparametric Paradigms of Personalized Medicine for Lung Cancer
合作研究:肺癌个体化医疗的新贝叶斯非参数范式
  • 批准号:
    1463233
  • 财政年份:
    2015
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Continuing Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Collaborative Research: III: Small: High-Performance Scheduling for Modern Database Systems
协作研究:III:小型:现代数据库系统的高性能调度
  • 批准号:
    2322973
  • 财政年份:
    2024
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: High-Performance Scheduling for Modern Database Systems
协作研究:III:小型:现代数据库系统的高性能调度
  • 批准号:
    2322974
  • 财政年份:
    2024
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: A DREAM Proactive Conversational System
合作研究:III:小型:一个梦想的主动对话系统
  • 批准号:
    2336769
  • 财政年份:
    2024
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: A DREAM Proactive Conversational System
合作研究:III:小型:一个梦想的主动对话系统
  • 批准号:
    2336768
  • 财政年份:
    2024
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
III: Small: Multiple Device Collaborative Learning in Real Heterogeneous and Dynamic Environments
III:小:真实异构动态环境中的多设备协作学习
  • 批准号:
    2311990
  • 财政年份:
    2023
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Reconstruction of Diffusion History in Cyber and Human Networks with Applications in Epidemiology and Cybersecurity
合作研究:III:小:重建网络和人类网络中的扩散历史及其在流行病学和网络安全中的应用
  • 批准号:
    2324770
  • 财政年份:
    2023
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Physics Guided Graph Networks for Modeling Water Dynamics in Freshwater Ecosystems
合作研究:III:小型:用于模拟淡水生态系统中水动力学的物理引导图网络
  • 批准号:
    2316306
  • 财政年份:
    2023
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Efficient and Robust Multi-model Data Analytics for Edge Computing
协作研究:III:小型:边缘计算的高效、稳健的多模型数据分析
  • 批准号:
    2311596
  • 财政年份:
    2023
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Efficient and Robust Multi-model Data Analytics for Edge Computing
协作研究:III:小型:边缘计算的高效、稳健的多模型数据分析
  • 批准号:
    2311598
  • 财政年份:
    2023
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Reconstruction of Diffusion History in Cyber and Human Networks with Applications in Epidemiology and Cybersecurity
合作研究:III:小:重建网络和人类网络中的扩散历史及其在流行病学和网络安全中的应用
  • 批准号:
    2324769
  • 财政年份:
    2023
  • 资助金额:
    $ 5.69万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了