Scalable methods for identity by descent

可扩展的血统身份识别方法

基本信息

项目摘要

ABSTRACT In the next a few years, large genotyped cohorts are becoming available (e.g., TOPMed, UK biobank, All of Us, Million Veteran Program). With the sample size approaches 0.1%-1% of the total population size, extensive distant relatives and Identity-by-descent, or IBD information are represented in such samples. Such information will enable more sophisticated and powerful genetics analysis beyond single variant-based analyses. However, current informatics methods are not equipped with the efficiency to handle genotype data of that scale. We will develop new genome informatics methods for biobank-scale cohorts with genotypes. We have developed an efficient tool, RaPID, the first computationally feasible method for inferring IBD segments among individuals in a biobank-scale cohort. We demonstrated that RaPID achieves running time linear to the sample size and is over 100 times faster than existing methods. At the same time, RaPID detects a greater number of IBDs, with higher accuracy, and sharper segment boundaries than existing methods. In this application, we propose to develop (1) the RaPID+ method for pairwise IBD detection that can tolerate and correct phasing errors, with a principled way of parameter tuning, and can work with genotype data across sequencing and array platforms; (2) the RaPID-diploid method for detection of IBD2 segments; (3) the RaPID-multiway method that identifies IBD Cluster; and (4) the RaPID-ancestry method for local ancestry inference across subcontinental populations. Methods will be rigorously tested in simulations using realistic population demographic models as well as real data from large cohorts. All methods will be implemented as free software for academic use. This project will advance genetic research by developing efficient informatics tools that reveal detailed genetic relationships in very large genotyped cohorts.
抽象的 在接下来的几年中,大型基因分型队列将变得可用(例如,我们所有人都在英国,英国生物库, 百万退伍军人计划)。随着样本量接近总数的0.1%-1%,广泛 此类样本中表示遥远的亲戚和身份逐个状态或IBD信息。这样的信息 将使基于单个变体的分析能够实现更复杂和强大的遗传分析。然而, 当前的信息学方法不具备处理该量表的基因型数据的效率。我们将 开发与基因型的生物银行大规模同伴的新基因组信息学方法。我们已经开发了 有效的工具,快速,是推断个体中IBD段的第一种计算可行方法 生物银行规模的队列。我们证明了快速的运行时间线性达到样本量,并且 比现有方法快100倍以上。同时,快速检测到更多的IBD 比现有方法更高的精度和更清晰的段边界。在此应用程序中,我们建议 开发(1)使用一个可以耐受和纠正阶段误差的成对IBD检测的快速+方法 有原则的参数调整方式,可以在测序和数组平台上使用基因型数据; (2)检测IBD2段的快速二倍体方法; (3)识别的快速发展方法 IBD群集; (4)跨大陆种群的局部血统推断的快速考察方法。 使用现实的人口统计学模型和真实的方法将在模拟中严格测试方法 来自大型队列的数据。所有方法将作为用于学术用途的免费软件实施。这个项目将 通过开发有效的信息学工具来提前遗传研究,这些工具揭示了详细的遗传关系 非常大的基因分型队列。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(1)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Shaojie Zhang其他文献

Shaojie Zhang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Shaojie Zhang', 18)}}的其他基金

Genome Informatics For Biobank-scale Data
生物银行规模数据的基因组信息学
  • 批准号:
    10471476
  • 财政年份:
    2021
  • 资助金额:
    $ 57万
  • 项目类别:
Scalable methods for identity by descent
可扩展的血统身份识别方法
  • 批准号:
    10660800
  • 财政年份:
    2018
  • 资助金额:
    $ 57万
  • 项目类别:
Identification, Discovery, and Public Archiving of RNA Structural Motifs
RNA 结构基序的鉴定、发现和公共存档
  • 批准号:
    8348532
  • 财政年份:
    2012
  • 资助金额:
    $ 57万
  • 项目类别:
Identification, Discovery, and Public Archiving of RNA Structural Motifs
RNA 结构基序的鉴定、发现和公共存档
  • 批准号:
    8723857
  • 财政年份:
    2012
  • 资助金额:
    $ 57万
  • 项目类别:
Identification, Discovery, and Public Archiving of RNA Structural Motifs
RNA 结构基序的鉴定、发现和公共存档
  • 批准号:
    8535798
  • 财政年份:
    2012
  • 资助金额:
    $ 57万
  • 项目类别:
Identification, Discovery, and Public Archiving of RNA Structural Motifs
RNA 结构基序的鉴定、发现和公共存档
  • 批准号:
    9897534
  • 财政年份:
    2012
  • 资助金额:
    $ 57万
  • 项目类别:

相似国自然基金

高吞吐低时延的多元LDPC码译码算法及其软件架构研究
  • 批准号:
    62301029
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
深度学习中的流形优化问题:算法设计与求解软件包的开发
  • 批准号:
    12301408
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
能量一阶导数的GPU算法和异构并行计算:WESP软件的发展和向国产异构平台的移植
  • 批准号:
    22373112
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
机理与数据耦合驱动的AI赋能工业软件理论与算法
  • 批准号:
    52335001
  • 批准年份:
    2023
  • 资助金额:
    230 万元
  • 项目类别:
    重点项目
面向量子模拟算法的量子软件优化技术研究
  • 批准号:
    62302395
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Genetic & Social Determinants of Health: Center for Admixture Science and Technology
遗传
  • 批准号:
    10307040
  • 财政年份:
    2021
  • 资助金额:
    $ 57万
  • 项目类别:
Genetic & Social Determinants of Health: Center for Admixture Science and Technology
遗传
  • 批准号:
    10492767
  • 财政年份:
    2021
  • 资助金额:
    $ 57万
  • 项目类别:
Genetic & Social Determinants of Health: Center for Admixture Science and Technology
遗传
  • 批准号:
    10599760
  • 财政年份:
    2021
  • 资助金额:
    $ 57万
  • 项目类别:
Genomics, EHRs, GPUs, and Next Generation Computational Statistics
基因组学、EHR、GPU 和下一代计算统计
  • 批准号:
    10264804
  • 财政年份:
    2011
  • 资助金额:
    $ 57万
  • 项目类别:
Genomics, EHRs, GPUs, and Next Generation Computational Statistics
基因组学、EHR、GPU 和下一代计算统计
  • 批准号:
    10450816
  • 财政年份:
    2011
  • 资助金额:
    $ 57万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了