Evolution-guided machine learning for inferring natural selection

用于推断自然选择的进化引导机器学习

基本信息

  • 批准号:
    10273742
  • 负责人:
  • 金额:
    $ 37.33万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-08-10 至 2026-06-30
  • 项目状态:
    未结题

项目摘要

Project Summary/Abstract A fundamental question in genomics is to understand natural selection on coding and noncoding sequences. Signatures of natural selection encoded in polymorphism and divergence data not only elucidate the patterns of evolution but also pinpoint deleterious genetic variants responsible for genetic disorders. While numerous com- putational methods have been developed to infer sequences under various types of natural selection, the existing methods suffer from two critical limitations. First, most of the methods for inferring natural selection focus on an- alyzing individual loci. Due to the intrinsic sparsity of polymorphism and divergence data, the single-locus-based approaches are often underpowered. Second, when multiple genomic features are correlated with signatures of natural selection, the existing methods are incapable of distinguishing causal genomic features from corre- lated confounders. Due to these limitations, we still lack powerful computational frameworks to identify loci and genomic features responsible for natural selection. During the next five years, l will address the limitations of exist- ing methods by combining evolutionary models and flexible machine learning techniques. Specifically, I formulate the inference of natural selection as a special regression problem in which genomic features are input covariates whereas polymorphism and divergence data are response variables. Based on this idea, my lab will develop a suite of evolution-guided machine learning models to infer negative, positive, and lineage-specific selection. These customized machine learning models will boost the statistical power of selection inference by pooling data across large numbers of loci, and will be able to distinguish genomic determinants from confounders. These new models will be applied to investigate various types of natural selection in the human genome. In addition, a genome-wide map of deleterious variants under strong negative selection will be developed for accurate variant prioritization. The proposed research builds on my recent work for predicting functional noncoding sequences, inferring selection coefficients of coding variants, and unifying variant-level and gene-level prioritization methods. It will illustrate new insights into genomic determinants of functional sequences and human adaptive evolution, and will provide powerful computational tools for identifying disease mutations. It could also serve as a basis for the emerging paradigm of combining classical evolutionary theory and machine learning methods to address a variety of questions in evolutionary biology.
项目总结/摘要 基因组学的一个基本问题是理解编码和非编码序列的自然选择。 多态性和趋异数据中编码的自然选择的特征不仅阐明了 进化,但也查明有害的遗传变异负责遗传疾病。虽然有很多的COM- 已经开发出推定方法来推断各种类型的自然选择下的序列,现有的 方法受到两个关键限制。首先,大多数推断自然选择的方法都集中在- 分析单个基因座。由于多态性和趋异数据的内在稀疏性,基于单基因座的 这些方法往往动力不足。第二,当多个基因组特征与签名相关时, 在自然选择中,现有的方法无法区分因果基因组特征和相关基因组特征。 混杂因素。由于这些限制,我们仍然缺乏强大的计算框架来识别基因座, 负责自然选择的基因组特征。在接下来的五年里,我将解决存在的局限性- 通过结合进化模型和灵活的机器学习技术来学习方法。具体来说,我用公式表示 自然选择的推理是一个特殊的回归问题,其中基因组特征是输入协变量 而多态性和趋异数据是响应变量。基于这个想法,我的实验室将开发 一套进化引导的机器学习模型,用于推断消极,积极和特定谱系的选择。 这些定制的机器学习模型将通过汇集数据来提高选择推理的统计能力 在大量的基因座,并将能够区分基因组决定因素的混杂因素。这些 新的模型将用于研究人类基因组中各种类型的自然选择。另外还有按 在强阴性选择下的有害变体的全基因组图谱将被开发用于精确的变体 优先化。这项研究建立在我最近预测功能性非编码序列的基础上, 推断编码变异的选择系数,统一变异水平和基因水平的优先排序方法。 它将阐明对功能序列和人类适应性进化的基因组决定因素的新见解, 并将为识别疾病突变提供强大的计算工具。它也可以作为基础, 结合经典进化理论和机器学习方法的新兴范式, 进化生物学中的各种问题。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

YIFEI HUANG其他文献

YIFEI HUANG的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('YIFEI HUANG', 18)}}的其他基金

Evolution-guided machine learning for inferring natural selection
用于推断自然选择的进化引导机器学习
  • 批准号:
    10641846
  • 财政年份:
    2021
  • 资助金额:
    $ 37.33万
  • 项目类别:
Evolution-guided machine learning for inferring natural selection
用于推断自然选择的进化引导机器学习
  • 批准号:
    10462615
  • 财政年份:
    2021
  • 资助金额:
    $ 37.33万
  • 项目类别:

相似国自然基金

Journal of Integrative Plant Biology
  • 批准号:
    31024801
  • 批准年份:
    2010
  • 资助金额:
    24.0 万元
  • 项目类别:
    专项基金项目

相似海外基金

An engineering biology approach for sustainable production of omega 3 and pigments from microalgae
一种利用微藻可持续生产 omega 3 和色素的工程生物学方法
  • 批准号:
    10107393
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Launchpad
FLF Next generation atomistic modelling for medicinal chemistry and biology
FLF 下一代药物化学和生物学原子建模
  • 批准号:
    MR/Y019601/1
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Fellowship
Sustainable Style for Clean Growth: Innovating Textile Production through Engineering Biology
清洁增长的可持续方式:通过工程生物学创新纺织品生产
  • 批准号:
    BB/Y007735/1
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Research Grant
Preventing Plastic Pollution with Engineering Biology (P3EB) Mission Hub
利用工程生物学 (P3EB) 任务中心预防塑料污染
  • 批准号:
    BB/Y007972/1
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Research Grant
GlycoCell Engineering Biology Mission Hub: Transforming glycan biomanufacture for health
GlycoCell 工程生物学任务中心:转变聚糖生物制造以促进健康
  • 批准号:
    BB/Y008472/1
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Research Grant
Postdoctoral Fellowship: STEMEdIPRF: Understanding instructor and student concepts of race to measure the prevalence of race essentialism in biology education
博士后奖学金:STEMEdIPRF:了解教师和学生的种族概念,以衡量生物教育中种族本质主义的流行程度
  • 批准号:
    2327488
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Standard Grant
CAREER: Hybridization and radiation: Integrating across phylogenomics, ancestral niche evolution, and pollination biology
职业:杂交和辐射:系统基因组学、祖先生态位进化和授粉生物学的整合
  • 批准号:
    2337784
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Continuing Grant
Collaborative Research: IMPLEMENTATION: Broadening participation of marginalized individuals to transform SABER and biology education
合作研究:实施:扩大边缘化个人的参与,以改变 SABER 和生物教育
  • 批准号:
    2334954
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Standard Grant
Collaborative Research: REU Site: Summer Undergraduate Research Program in RNA and Genome Biology (REU-RGB)
合作研究:REU 网站:RNA 和基因组生物学暑期本科生研究计划 (REU-RGB)
  • 批准号:
    2349255
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Continuing Grant
REU Site: Nature's machinery through the prism of Physics, Biology, Chemistry and Engineering
REU 网站:通过物理、生物、化学和工程学的棱镜观察自然的机器
  • 批准号:
    2349368
  • 财政年份:
    2024
  • 资助金额:
    $ 37.33万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了