Genome Informatics For Biobank-scale Data

生物银行规模数据的基因组信息学

基本信息

  • 批准号:
    10471476
  • 负责人:
  • 金额:
    $ 61.61万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-09-24 至 2023-08-31
  • 项目状态:
    已结题

项目摘要

Genetic data of biobank scales offer a wealth of information that is not obvious in traditional smaller cohorts. We will develop and evaluate efficient and accurate algorithms and tools for the analysis of such data to reveal such information. In particular, we will develop methods for three main tasks: haplotype phasing refinement, genotype imputation, and relatedness inference. Although mature methods are available for these tasks in traditional smaller data sets, there is still a lack of scalable efficient and accurate methods and tools for handling genomic big data of that scale. Our main observation is that biobank-scale genetic data offer dense connections between individual data points. Unlike traditional methods based on the Li and Stephens hidden Markov models (HMMs), we models each individual using the individual-specific cohort, i.e., all the other individuals that are connected to the individual. We leverage the efficient positional Burrows-Wheeler transformation (PBWT), a foundational data structure for modeling haplotype matching. We were the first to develop a PBWT-based method for identifying IBD segments in biobank-scale cohorts, RaPID. We are also enriched the traditional PBWT data structure and algorithms to efficient haplotype search and allowing dynamic updates. In this application, we leverage our algorithm development expertise and develop an IBD-based algorithm for refining haplotype phasing of very large panels. We will also develop IBD-based algorithms for improving efficiency and cost-effectiveness of genotype imputation using a very large reference panel. In addition, we will develop RaPID-Affin algorithms for efficient and accurate inference of genetic relatedness. Finally, we will benchmark the methods and develop free software for the community. This project will empower modern genetic research by developing efficient informatics tools for very large genotyped cohorts.
生物库量表的遗传数据提供了大量信息,这些信息在传统中并不明显 较小的队列。我们将开发和评估高效,准确的算法和工具 分析此类数据以揭示此类信息。特别是,我们将开发三个方法 主要任务:单倍型相分化,基因型推出和相关性推断。 尽管在传统较小的数据集中可以使用这些任务的成熟方法,但是 仍然缺乏可扩展有效,准确的方法和工具来处理基因组大数据 那个规模。我们的主要观察结果是,生物银行规模的遗传数据提供了密集的连接 在各个数据点之间。与基于Li和Stephens隐藏的传统方法不同 马尔可夫模型(HMM),我们使用个体特定的队列(即 与个人有关的其他人。我们利用有效的位置 Burrows-wheeler转换(PBWT),一种建模单倍型的基础数据结构 匹配。我们是第一个开发基于PBWT的方法来识别IBD段的方法 生物银行尺度人群,快速。我们还丰富了传统的PBWT数据结构和 算法有效的单倍型搜索并允许动态更新。在此应用程序中,我们 利用我们的算法开发专业知识,并开发一种基于IBD的算法用于精炼 非常大的面板的单倍型平台。我们还将开发基于IBD的算法 使用非常大的参考来提高基因型推出的效率和成本效益 控制板。此外,我们将开发快速脂肪算法,以有效而准确地推断 遗传相关性。最后,我们将对方法进行基准测试,并为 社区。该项目将通过提高高效来增强现代遗传研究的能力 非常大的基因分型队列的信息工具。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Shaojie Zhang其他文献

Shaojie Zhang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Shaojie Zhang', 18)}}的其他基金

Scalable methods for identity by descent
可扩展的血统身份识别方法
  • 批准号:
    9899283
  • 财政年份:
    2018
  • 资助金额:
    $ 61.61万
  • 项目类别:
Scalable methods for identity by descent
可扩展的血统身份识别方法
  • 批准号:
    10660800
  • 财政年份:
    2018
  • 资助金额:
    $ 61.61万
  • 项目类别:
Identification, Discovery, and Public Archiving of RNA Structural Motifs
RNA 结构基序的鉴定、发现和公共存档
  • 批准号:
    8348532
  • 财政年份:
    2012
  • 资助金额:
    $ 61.61万
  • 项目类别:
Identification, Discovery, and Public Archiving of RNA Structural Motifs
RNA 结构基序的鉴定、发现和公共存档
  • 批准号:
    8723857
  • 财政年份:
    2012
  • 资助金额:
    $ 61.61万
  • 项目类别:
Identification, Discovery, and Public Archiving of RNA Structural Motifs
RNA 结构基序的鉴定、发现和公共存档
  • 批准号:
    8535798
  • 财政年份:
    2012
  • 资助金额:
    $ 61.61万
  • 项目类别:
Identification, Discovery, and Public Archiving of RNA Structural Motifs
RNA 结构基序的鉴定、发现和公共存档
  • 批准号:
    9897534
  • 财政年份:
    2012
  • 资助金额:
    $ 61.61万
  • 项目类别:

相似国自然基金

无线供能边缘网络中基于信息年龄的能量与数据协同调度算法研究
  • 批准号:
    62372118
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
NURBS参数化的自交理论与算法研究
  • 批准号:
    12301490
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于先进算法和行为分析的江南传统村落微气候的评价方法、影响机理及优化策略研究
  • 批准号:
    52378011
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
分组密码算法后门的研究
  • 批准号:
    62302293
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
时序深度可加网络的算法与学习理论研究
  • 批准号:
    62306338
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Empirical Power Analysis Tool for fMRI
fMRI 经验功率分析工具
  • 批准号:
    10868802
  • 财政年份:
    2022
  • 资助金额:
    $ 61.61万
  • 项目类别:
Tool Core- Boutros
工具核心-Boutros
  • 批准号:
    10473401
  • 财政年份:
    2022
  • 资助金额:
    $ 61.61万
  • 项目类别:
ARCHS4: Massive Mining of Publicly Available RNA Sequencing Data
ARCHS4:大规模挖掘公开的 RNA 测序数据
  • 批准号:
    10527721
  • 财政年份:
    2022
  • 资助金额:
    $ 61.61万
  • 项目类别:
Eliminating Interference from Autofluorescence in Flow Cytometry
消除流式细胞术中自发荧光的干扰
  • 批准号:
    10484468
  • 财政年份:
    2022
  • 资助金额:
    $ 61.61万
  • 项目类别:
Eliminating Interference from Autofluorescence in Flow Cytometry
消除流式细胞术中自发荧光的干扰
  • 批准号:
    10593113
  • 财政年份:
    2022
  • 资助金额:
    $ 61.61万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了