Model-based clustering of high dimensional discrete data and compositional data
高维离散数据和组合数据的基于模型的聚类
基本信息
- 批准号:RGPIN-2021-03812
- 负责人:
- 金额:$ 1.53万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Discovery Grants Program - Individual
- 财政年份:2021
- 资助国家:加拿大
- 起止时间:2021-01-01 至 2022-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Identification and analysis of population heterogeneity is the primary goal of cluster analysis. Clustering allows us to summarize data into homogenous groups or clusters of observations where observations within each cluster are more similar than between clusters. Model-based clustering, which utilizes mixture models, has been increasingly used in the last two decades. A finite mixture model assumes that the population consists of a finite mixture of subpopulations or components, each of which can be represented by a parametric model. Depending on the nature of the data, appropriate distributions are chosen to model various kinds of data. The long-term goal of the applicant's research program is to develop cutting edge statistical algorithms for biological datasets to gain a comprehensive understanding of biological processes. While there has been a big explosion in data generation in bioinformatics, efficiently analyzing these complex biological data sets still remains a challenge. During the tenure of the grant, the applicant's research will focus on developing novel model-based clustering algorithms for high dimensional and longitudinal discrete data and compositional data. Challenges with such analyses include the large scale nature of omics datasets, heterogeneity in the data types, and a lack of scalability of statistical models that capture the various characteristics of the underlying data generating mechanisms. The proposed research focuses on developing efficient and scalable statistical models for clustering high dimensional data and longitudinal omics data. In addition to these model developments, several open problems in model-based clustering will be explored. When the number of components in a mixture model is unknown, the EM algorithm or a variant thereof must be used in conjunction with a model-selection criterion so that every possible number of components is explored. This can be computationally expensive and using different model selection criteria on the same data can result in selection of different `best' fitting models. To date, most work on the model selection issue has focused on continuous data. Some work will focus on investigation of different model-selection criteria for discrete data and compositional data in general. Investigation of an efficient parameter framework will also be a key focus. The proposed work presents a major step forward in mixture model-based clustering of multivariate discrete data and compositional data. While the proposed research will utilize bioinformatics datasets for applications, they are applicable to discrete and compositional data encountered in many fields such as text analytics, sport analytics, etc. These algorithms will be made available publicly as open source user-friendly R packages. The impact of this work will be primarily in the computational statistics and bioinformatics communities.
群体异质性的识别和分析是聚类分析的主要目标。聚类允许我们将数据汇总到同质组或观察组中,其中每个组内的观察值比组间的观察值更相似。利用混合模型的基于模型的聚类在过去二十年中得到了越来越多的应用。有限混合模型假定总体由子总体或组成部分的有限混合组成,每个子总体或组成部分都可以用参数模型表示。根据数据的性质,选择适当的分布来对各种数据建模。申请人研究项目的长期目标是开发生物数据集的前沿统计算法,以全面了解生物过程。虽然生物信息学的数据生成已经有了很大的发展,但有效地分析这些复杂的生物数据集仍然是一个挑战。在资助期间,申请人的研究将集中于开发新的基于模型的聚类算法,用于高维和纵向离散数据和成分数据。这种分析的挑战包括组学数据集的大规模性质、数据类型的异质性,以及缺乏捕获底层数据生成机制的各种特征的统计模型的可扩展性。本研究的重点是开发高效、可扩展的统计模型,用于高维数据和纵向组学数据的聚类。除了这些模型的发展之外,还将探讨基于模型的聚类中的几个开放问题。当混合模型中的组件数量未知时,必须将EM算法或其变体与模型选择准则结合使用,以便探索每个可能的组件数量。这在计算上可能是昂贵的,并且在相同的数据上使用不同的模型选择标准可能导致选择不同的“最佳”拟合模型。迄今为止,大多数关于模型选择问题的工作都集中在连续数据上。一些工作将集中于研究离散数据和一般组成数据的不同模型选择标准。研究一个有效的参数框架也将是一个重点。本文提出的工作在多元离散数据和组合数据的混合模型聚类方面迈出了重要的一步。虽然拟议的研究将利用生物信息学数据集进行应用,但它们适用于许多领域中遇到的离散和组合数据,如文本分析,运动分析等。这些算法将作为开源的用户友好的R包公开提供。这项工作的影响将主要在计算统计和生物信息学社区。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Dang(Subedi), Sanjeena其他文献
Dang(Subedi), Sanjeena的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Dang(Subedi), Sanjeena', 18)}}的其他基金
Data Science and Analytics
数据科学与分析
- 批准号:
CRC-2020-00303 - 财政年份:2022
- 资助金额:
$ 1.53万 - 项目类别:
Canada Research Chairs
Model-based clustering of high dimensional discrete data and compositional data
高维离散数据和组合数据的基于模型的聚类
- 批准号:
RGPIN-2021-03812 - 财政年份:2022
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual
Data Science And Analytics
数据科学与分析
- 批准号:
CRC-2020-00303 - 财政年份:2021
- 资助金额:
$ 1.53万 - 项目类别:
Canada Research Chairs
相似国自然基金
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:外国青年学者研究基金项目
Incentive and governance schenism study of corporate green washing behavior in China: Based on an integiated view of econfiguration of environmental authority and decoupling logic
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:外国学者研究基金项目
Exploring the Intrinsic Mechanisms of CEO Turnover and Market Reaction: An Explanation Based on Information Asymmetry
- 批准号:W2433169
- 批准年份:2024
- 资助金额:万元
- 项目类别:外国学者研究基金项目
含Re、Ru先进镍基单晶高温合金中TCP相成核—生长机理的原位动态研究
- 批准号:52301178
- 批准年份:2023
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
NbZrTi基多主元合金中化学不均匀性对辐照行为的影响研究
- 批准号:12305290
- 批准年份:2023
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
眼表菌群影响糖尿病患者干眼发生的人群流行病学研究
- 批准号:82371110
- 批准年份:2023
- 资助金额:49.00 万元
- 项目类别:面上项目
镍基UNS N10003合金辐照位错环演化机制及其对力学性能的影响研究
- 批准号:12375280
- 批准年份:2023
- 资助金额:53.00 万元
- 项目类别:面上项目
CuAgSe基热电材料的结构特性与构效关系研究
- 批准号:22375214
- 批准年份:2023
- 资助金额:50.00 万元
- 项目类别:面上项目
A study on prototype flexible multifunctional graphene foam-based sensing grid (柔性多功能石墨烯泡沫传感网格原型研究)
- 批准号:
- 批准年份:2020
- 资助金额:20 万元
- 项目类别:
基于大数据定量研究城市化对中国季节性流感传播的影响及其机理
- 批准号:82003509
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
相似海外基金
High dimensional Model Based Clustering with non-Gaussian Distributions
基于非高斯分布的高维模型聚类
- 批准号:
RGPIN-2018-04444 - 财政年份:2022
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual
Parameter Estimation for Non-Gaussian Model-Based Clustering with High-Dimensional Data
基于非高斯模型的高维数据聚类参数估计
- 批准号:
RGPIN-2017-05258 - 财政年份:2022
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual
Model-based clustering of high dimensional discrete data and compositional data
高维离散数据和组合数据的基于模型的聚类
- 批准号:
RGPIN-2021-03812 - 财政年份:2022
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual
High dimensional Model Based Clustering with non-Gaussian Distributions
基于非高斯分布的高维模型聚类
- 批准号:
RGPIN-2018-04444 - 财政年份:2021
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual
Parameter Estimation for Non-Gaussian Model-Based Clustering with High-Dimensional Data
基于非高斯模型的高维数据聚类参数估计
- 批准号:
RGPIN-2017-05258 - 财政年份:2021
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual
Epigenetic signatures in sepsis-survivors associated with one-year outcome: A model-based clustering analysis of prospective cohorts
脓毒症幸存者的表观遗传特征与一年的结果相关:基于模型的前瞻性队列聚类分析
- 批准号:
457220 - 财政年份:2021
- 资助金额:
$ 1.53万 - 项目类别:
Studentship Programs
Parameter Estimation for Non-Gaussian Model-Based Clustering with High-Dimensional Data
基于非高斯模型的高维数据聚类参数估计
- 批准号:
RGPIN-2017-05258 - 财政年份:2020
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual
High dimensional Model Based Clustering with non-Gaussian Distributions
基于非高斯分布的高维模型聚类
- 批准号:
RGPIN-2018-04444 - 财政年份:2020
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual
Parameter Estimation for Non-Gaussian Model-Based Clustering with High-Dimensional Data
基于非高斯模型的高维数据聚类参数估计
- 批准号:
RGPIN-2017-05258 - 财政年份:2019
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual
High dimensional Model Based Clustering with non-Gaussian Distributions
基于非高斯分布的高维模型聚类
- 批准号:
RGPIN-2018-04444 - 财政年份:2019
- 资助金额:
$ 1.53万 - 项目类别:
Discovery Grants Program - Individual