Model-based learning on high-dimensional biological data

高维生物数据的基于模型的学习

基本信息

  • 批准号:
    RGPIN-2022-04889
  • 负责人:
  • 金额:
    $ 1.38万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2022
  • 资助国家:
    加拿大
  • 起止时间:
    2022-01-01 至 2023-12-31
  • 项目状态:
    已结题

项目摘要

Mixture models continue to be the most popular approach for learning hidden cluster structure in heterogenous data. Mixture-based cluster analysis assumes that data arise from a mixture of homogenous subpopulations where a cluster can be modeled parametrically via a component density. In model-based clustering (unsupervised) as opposed to model-based classification (semi-supervised), no group label information is available for any observations. Advantages of probabilistic mixture model clustering as well as the statistical grounding for such models is well established. The long term goal of the applicant's research program is to develop flexible statistical models for biological and clinical data sets to gain deeper insight into complex underlying processes. While flexible models continue to be developed, some challenges remain. Mixtures of Gaussian distributions remain popular but perform poorly in the presence of heavy tails, outliers, etc. The applicant has published on mixtures of multivariate power exponential distributions and recently proposed a mixture of multivariate skew power exponential distributions. These latter mixtures can be both leptokurtic or platykurtic, and model skewness. A rigorous comparison to state-of-the-art competitors showed excellent clustering and classification performance, however, these mixtures remain over-parametrized for high-dimensional datasets. The proposed research will focus on developing mixtures that can deal with high dimensional data based on subspace clustering assuming that most of the data exists in a lower dimensional subspace thereby limiting the number of component-specific parameters to be estimated. This will allow for highly parsimonious models that can account for tail weight, cluster peakedness, and skewness. Another focus will be to develop an alternative to a full expectation-maximization (EM) approach when the data has missingness. This will be done via a marginal density of observed values approach that is less computationally expensive than full EM and less susceptible to severe violations of missing at random. This flexibility is particularly important when the data are both high dimensional in nature and have missingness. Furthermore, motivated by actigraphy time series data, mixture models will be used to cluster time series with changepoints. These models will detect changepoints in an unsupervised, test-free, fashion while simultaneously clustering observations. This approach will be extended to account for covariates, as well as modeling multivariate time series with change points. The work proposed represents a major step forward in model-based clustering of multivariate and time series data. The proposed models will be able to account for varying tail weight, skewness, kurtosis, model high dimensions parsimoniously, and account for missingness computationally efficiently. Models will be made available via user friendly R packages and top tier journals.
混合模型仍然是学习异构数据中隐藏的聚类结构的最流行的方法。基于混合的聚类分析假设数据来自同质子群体的混合物,其中聚类可以通过组分密度参数化建模。在基于模型的聚类(无监督)中,与基于模型的分类(半监督)相反,没有任何组标签信息可用于任何观察。概率混合模型聚类的优点以及这种模型的统计基础是建立良好的。申请人研究计划的长期目标是为生物和临床数据集开发灵活的统计模型,以更深入地了解复杂的潜在过程。虽然灵活的模式在继续发展,但仍然存在一些挑战。 高斯分布的混合仍然很流行,但在存在重尾、离群值等的情况下表现不佳。申请人已经发表了关于多元幂指数分布的混合的文章,并且最近提出了多元偏斜幂指数分布的混合。这些后一种混合物可以是尖峰或平峰的,也可以是模型偏度。与最先进的竞争对手的严格比较显示出出色的聚类和分类性能,然而,这些混合物对于高维数据集仍然过度参数化。拟议的研究将集中在开发的混合物,可以处理高维数据的基础上子空间聚类假设,大部分的数据存在于一个较低的维度的子空间,从而限制了组件的特定参数的数量估计。这将允许高度简约的模型,可以考虑尾部权重,聚类峰值和偏度。另一个重点将是开发一种替代完全期望最大化(EM)的方法时,数据有缺失。这将通过观测值的边际密度方法来完成,该方法的计算成本低于全EM,并且不太容易受到随机缺失的严重违反。当数据本质上是高维的并且具有缺失时,这种灵活性特别重要。此外,受体动仪时间序列数据的启发,混合模型将用于聚类具有变点的时间序列。这些模型将以无监督、无测试的方式检测变点,同时对观测值进行聚类。这种方法将被扩展到解释协变量,以及建模多变量时间序列的变化点。 提出的工作是一个重大的一步,基于模型的聚类多变量和时间序列数据。所提出的模型将能够考虑到不同的尾部重量,偏度,峰度,模型高维简约,并考虑计算效率的缺失。模型将通过用户友好的R包和顶级期刊提供。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Dang, Utkarsh其他文献

Dang, Utkarsh的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Dang, Utkarsh', 18)}}的其他基金

Model-based learning on high-dimensional biological data
高维生物数据的基于模型的学习
  • 批准号:
    DGECR-2022-00457
  • 财政年份:
    2022
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Discovery Launch Supplement
Model-based discriminant analysis for longitudinal data
基于模型的纵向数据判别分析
  • 批准号:
    408729-2011
  • 财政年份:
    2013
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Doctoral
Model-based discriminant analysis for longitudinal data
基于模型的纵向数据判别分析
  • 批准号:
    408729-2011
  • 财政年份:
    2012
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Doctoral
Model-based discriminant analysis for longitudinal data
基于模型的纵向数据判别分析
  • 批准号:
    408729-2011
  • 财政年份:
    2011
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Doctoral

相似国自然基金

Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Exploring the Intrinsic Mechanisms of CEO Turnover and Market Reaction: An Explanation Based on Information Asymmetry
  • 批准号:
    W2433169
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国学者研究基金项目
含Re、Ru先进镍基单晶高温合金中TCP相成核—生长机理的原位动态研究
  • 批准号:
    52301178
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
NbZrTi基多主元合金中化学不均匀性对辐照行为的影响研究
  • 批准号:
    12305290
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
眼表菌群影响糖尿病患者干眼发生的人群流行病学研究
  • 批准号:
    82371110
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
镍基UNS N10003合金辐照位错环演化机制及其对力学性能的影响研究
  • 批准号:
    12375280
  • 批准年份:
    2023
  • 资助金额:
    53.00 万元
  • 项目类别:
    面上项目
CuAgSe基热电材料的结构特性与构效关系研究
  • 批准号:
    22375214
  • 批准年份:
    2023
  • 资助金额:
    50.00 万元
  • 项目类别:
    面上项目
基于大数据定量研究城市化对中国季节性流感传播的影响及其机理
  • 批准号:
    82003509
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: CPS: Medium: Physics-Model-Based Neural Networks Redesign for CPS Learning and Control
合作研究:CPS:中:基于物理模型的神经网络重新设计用于 CPS 学习和控制
  • 批准号:
    2311084
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Standard Grant
Deep learning-based prediction model for intraoperative neuromuscular blockade
基于深度学习的术中神经肌肉阻滞预测模型
  • 批准号:
    23K14406
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
A machine learning model to assess the presence and severity of knee osteoarthritis based on gait data features
基于步态数据特征评估膝骨关节炎的存在和严重程度的机器学习模型
  • 批准号:
    23K16611
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
First-principles based machine learning phase field model for structural and battery materials
基于第一性原理的结构和电池材料机器学习相场模型
  • 批准号:
    23K13537
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Characterizing neuroimaging 'brain-behavior' model performance bias in rural populations
表征农村人口神经影像“大脑行为”模型的表现偏差
  • 批准号:
    10752053
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
Spatialomics and quantitative MRI of ischemic injury in a piglet model of Legg-Calve-Perthes disease
Legg-Calve-Perthes 病仔猪模型缺血性损伤的空间组学和定量 MRI
  • 批准号:
    10806492
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
Neuronal mechanisms of model-based learning
基于模型的学习的神经机制
  • 批准号:
    10722261
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
Adapting and Implementing a Nurse Care Management Model to Care for Rural Patients with Chronic Pain
适应和实施护理管理模式来护理农村慢性疼痛患者
  • 批准号:
    10741606
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
Collaborative Research: CPS: Medium: Physics-Model-Based Neural Networks Redesign for CPS Learning and Control
合作研究:CPS:中:基于物理模型的神经网络重新设计用于 CPS 学习和控制
  • 批准号:
    2311087
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Standard Grant
Collaborative Research: CPS: Medium: Physics-Model-Based Neural Networks Redesign for CPS Learning and Control
合作研究:CPS:中:基于物理模型的神经网络重新设计用于 CPS 学习和控制
  • 批准号:
    2311086
  • 财政年份:
    2023
  • 资助金额:
    $ 1.38万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了