Multicollinearity in the statistical genomics era: Proposals to account for dependencies between molecular covariates with application to animal breeding
统计基因组学时代的多重共线性:解释分子协变量之间依赖性及其在动物育种中的应用的建议
基本信息
- 批准号:363504750
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:德国
- 项目类别:Research Grants
- 财政年份:2017
- 资助国家:德国
- 起止时间:2016-12-31 至 2019-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
In animal breeding, molecular data (e.g. single nucleotide polymorphisms; SNPs) are incorporated as predictor variables in statistical models to reach an improved genomic evaluation of animals. This leads to more precisely estimated breeding values of not-yet phenotyped animals, which is important for breeding purposes, and enables the genetic architecture of some traits to be elucidated. Not only is the effect size relevant but also the position on the genome. Particularly as high-dimensional SNP data are available, a causative variant can be pinpointed to a specific base pair on the genome. As the number of model parameters increases with a still growing number of SNPs, multicollinearity between covariates can affect the results of whole-genome regression methods. The objective of this study is to additionally incorporate dependencies between the molecular covariates, which are due to the linkage and linkage disequilibrium among chromosome segments, for more accurate estimates of SNP effects. The theoretical covariance between SNP genotypes can be used to filter the whole set of SNPs in order to remain at less but representative predictor variables. Furthermore, a joint approach is proposed that allows the simultaneous selection and shrinkage of relevant predictors. It is hypothesised that this method fulfils the requirements of genomic evaluation: the dependencies between SNPs are considered, smooth estimates are obtained within groups of highly correlated SNPs and the solution is sparse among and also within these groups. Thus, genomic regions that affect a trait can be identified.
在动物育种中,将分子数据(例如单核苷酸多态性; SNP)纳入统计模型中的预测变量,以实现对动物的基因组评估的改进。这导致更精确地估计的尚未表型动物的育种值,这对于繁殖目的很重要,并使某些特征的遗传结构得以阐明。效应大小不仅相关,而且在基因组上的位置。特别是由于提供了高维SNP数据,因此可以将因果变体定位在基因组上的特定碱基对中。随着模型参数的数量随着SNP的持续数量而增加,协变量之间的多共线性会影响全基因组回归方法的结果。这项研究的目的是另外纳入分子协变量之间的依赖性,这是由于染色体片段之间的连锁和连锁不平衡引起的,以更准确地估计SNP效应。 SNP基因型之间的理论协方差可用于过滤整个SNP,以保持较少但代表性的预测变量。此外,提出了一种联合方法,该方法允许同时选择和收缩相关的预测因子。假设该方法满足基因组评估的要求:考虑了SNP之间的依赖性,在高度相关的SNP组中获得了平滑的估计值,并且在这些组中的解决方案稀疏。因此,可以识别影响特征的基因组区域。
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Seagull: lasso, group lasso and sparse-group lasso regularization for linear regression models via proximal gradient descent
- DOI:10.1186/s12859-020-03725-w
- 发表时间:2020-09-15
- 期刊:
- 影响因子:3
- 作者:Klosa, Jan;Simon, Noah;Wittenburg, Doerte
- 通讯作者:Wittenburg, Doerte
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Dr. Dörte Wittenburg其他文献
Dr. Dörte Wittenburg的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Dr. Dörte Wittenburg', 18)}}的其他基金
The role of the theoretical covariance between SNPs in the design of experiments in genomic evaluations
SNP 之间的理论协方差在基因组评估实验设计中的作用
- 批准号:
320694892 - 财政年份:2016
- 资助金额:
-- - 项目类别:
Research Grants
相似国自然基金
整合复杂网络的高维统计推断及其在基因组学数据上的应用
- 批准号:12271329
- 批准年份:2022
- 资助金额:46 万元
- 项目类别:面上项目
基于集成统计学习方法鉴定I型糖尿病肠道微生物标志物及其作用机制研究
- 批准号:81573251
- 批准年份:2015
- 资助金额:57.0 万元
- 项目类别:面上项目
癌症系统表观基因组学新型生物信息统计算法研究
- 批准号:31571359
- 批准年份:2015
- 资助金额:60.0 万元
- 项目类别:面上项目
基于概率分布理论预测DNA调控元件的新方法研究
- 批准号:31401141
- 批准年份:2014
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
新一代测序技术宏基因组数据分析的统计算法研究与应用
- 批准号:61370131
- 批准年份:2013
- 资助金额:73.0 万元
- 项目类别:面上项目
相似海外基金
Comprehensive and non-invasive prenatal screening of coding variation
全面、无创的编码变异产前筛查
- 批准号:
10678005 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Characterizing the genetic etiology of delayed puberty with integrative genomic techniques
利用综合基因组技术表征青春期延迟的遗传病因
- 批准号:
10663605 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Bayesian genetic association analysis of all rare diseases in the Kids First cohort
Kids First 队列中所有罕见疾病的贝叶斯遗传关联分析
- 批准号:
10643463 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Uncovering the Role of the MS4A Gene Family in Alzheimer's Disease
揭示 MS4A 基因家族在阿尔茨海默病中的作用
- 批准号:
10751885 - 财政年份:2023
- 资助金额:
-- - 项目类别: