K-mer indexing for pan-genome reference annotation

用于泛基因组参考注释的 K-mer 索引

基本信息

  • 批准号:
    10093116
  • 负责人:
  • 金额:
    $ 30万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-02-01 至 2023-01-31
  • 项目状态:
    已结题

项目摘要

ABSTRACT  The human genome reference sequence is one of the foundations of genome sciences, especially in the context  of next-­generation sequencing (NGS) analysis.  The reference has enabled discoveries in biomedical research  and been particularly instrumental in human disease gene identification.  However, the human genome reference  is  limited  by  its  static  and  linear  nature.    Specifically,  the  current  reference  lacks  the  featural  and  contextual  flexibility  to  represent  the  breadth  of  human  variation.    Important  elements  of  individual  genomes  are  either  missed or incorrectly represented.  As a solution that will bridge the next generation of reference assemblies with  population genome sequencing studies, we have developed a K-­mer-­based indexing approach.  This method is  more efficient computationally, provides accurate representation in the context of populations and facilitates the  analysis  of  diverse  human  genomes.    Our  goal  is  to  use  this  strategy  in  developing  a  robust  computational  architecture  that  will  encode  and  annotate  large  collections  of  genomes  in  the  context  of  a  pan-­genome  reference.    First, we plan to develop a scalable, efficient K-­mer representation of a large collection of haplotype/phased  reference genomes, by 1) generating an index of all K-­mers in human reference genome GRCh38 in a manner  that can efficiently store variant information as metadata, and then 2) incrementally updating the K-­mer index to  include all novel K-­mers derived from ongoing population sequencing efforts, while 3) developing schemes for  directly analyzing compressed genomic data.    Second, we plan to apply K-­mer representation to genomic analysis by 1) providing the entirety of known  human  genetic  variation  in  an  aggregated  index  that  is  computationally  efficient  and  easy  to  understand,  2)  developing functions for our pan-­genomic index that supports ultra-­rapid queries, such as of clinically important  variants, and 3) linking conventional coordinate information to the K-­mer metadata in the pan-­genome index to  allow annotating genetic variation to a particular genome reference.    Third, we will create an online web portal for the pan-­genome, using cloud computing, to maximize the utility  of our approach, to promote community engagement and to enabling contribution from the research community.   We expect that completion of these aims will provide: a scalable computational architecture which incorporates  the continuous addition of variant information without loss of resolution or accuracy;; rapid query speeds that will  remain nearly constant as the database grows;; a universally accessible portal using cloud computing.    This work will help solve the issues of multiple assemblies.  It will improve researchers’ ability to understand  the  relationship of  variants and  disease,  while also  providing  great  savings  over  the  long-­term  in  infrastructure  and computing costs.
抽象的  人类基因组参考序列是基因组科学的基础之一,特别是在基因组科学的背景下  下一代测序 (NGS) 分析。  该参考文献促成了生物医学研究的发现  特别是在人类疾病基因鉴定方面发挥了重要作用。  However, the human genome reference  受到其静态和线性性质的限制。    具体来说,当前的参考文献缺乏特征和上下文  灵活性来代表人类变异的广度。    个体基因组的重要元素是  missed or incorrectly represented.  作为将下一代参考组件与  在人口基因组测序研究中,我们开发了一种基于 K-mer 的索引方法。  这个方法是  计算效率更高,在人口背景下提供准确的表示,并促进  analysis  of  diverse  human  genomes.    我们的目标是使用这种策略来开发强大的计算  将在泛基因组背景下对大量基因组进行编码和注释的架构  参考。    首先,我们计划开发一个可扩展、高效的 K-mer 表示形式,代表大量单倍型/阶段性的集合  参考基因组,通过 1) 以某种方式生成人类参考基因组 GRCh38 中所有 K-mers 的索引  可以有效地将变体信息存储为元数据,然后 2) 增量更新 K-mer 索引  包括源自正在进行的群体测序工作的所有新型 K-mers,同时 3) 制定方案  directly analyzing compressed genomic data.    其次,我们计划通过 1) 提供全部已知信息,将 K-mer 表示应用于基因组分析  聚合索引中的人类遗传变异,计算效率高且易于理解,2)  为我们的泛基因组索引开发支持超快速查询的功能,例如临床重要的查询  变体,以及 3) 将传统坐标信息与泛基因组索引中的 K-mer 元数据链接起来  允许将遗传变异注释到特定的基因组参考。    第三,我们将利用云计算为泛基因组创建一个在线门户网站,以最大化效用  我们的方法是促进社区参与并促进研究社区的贡献。   我们期望这些目标的完成将提供:一个可扩展的计算架构,其中包含  不断添加变体信息,而不会损失分辨率或准确性;;快速查询速度,这将  随着数据库的增长而几乎保持不变;;使用云计算的普遍可访问的门户。    这项工作将有助于解决多个组件的问题。  它将提高研究人员的理解能力  变异和疾病的关系,同时还可以在基础设施方面长期节省大量费用  和计算成本。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Hanlee P Ji其他文献

Improving bioinformatic pipelines for exome variant calling
  • DOI:
    10.1186/gm306
  • 发表时间:
    2012-01-01
  • 期刊:
  • 影响因子:
    11.200
  • 作者:
    Hanlee P Ji
  • 通讯作者:
    Hanlee P Ji

Hanlee P Ji的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Hanlee P Ji', 18)}}的其他基金

K-mer indexing for pan-genome reference annotation
用于泛基因组参考注释的 K-mer 索引
  • 批准号:
    10793082
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Determine the mechanisms of acquired brain-tropism
确定获得性脑向性的机制
  • 批准号:
    10813237
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Integrating cancer genomics and spatial architecture of tumor infiltrating lymphocytes
整合癌症基因组学和肿瘤浸润淋巴细胞的空间结构
  • 批准号:
    10637960
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Single cell modeling of cancer mutations
癌症突变的单细胞建模
  • 批准号:
    10612689
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Project 1 - Molecular and Cellular Determinants of High Risk Gastric Precancerous Lesions
项目1——高危胃癌癌前病变的分子和细胞决定因素
  • 批准号:
    10715762
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Core A: Administrative
核心A:行政
  • 批准号:
    10715765
  • 财政年份:
    2023
  • 资助金额:
    $ 30万
  • 项目类别:
Determine the mechanisms of acquired brain-tropism
确定获得性脑向性的机制
  • 批准号:
    10706493
  • 财政年份:
    2021
  • 资助金额:
    $ 30万
  • 项目类别:
Determine the mechanisms of acquired brain-tropism
确定获得性脑向性的机制
  • 批准号:
    10272359
  • 财政年份:
    2021
  • 资助金额:
    $ 30万
  • 项目类别:
Multimodal iterative sequencing of cancer genomes and single tumor cells
癌症基因组和单个肿瘤细胞的多模式迭代测序
  • 批准号:
    10363694
  • 财政年份:
    2021
  • 资助金额:
    $ 30万
  • 项目类别:
Multimodal iterative sequencing of cancer genomes and single tumor cells
癌症基因组和单个肿瘤细胞的多模式迭代测序
  • 批准号:
    10112576
  • 财政年份:
    2021
  • 资助金额:
    $ 30万
  • 项目类别:

相似海外基金

CAREER: Efficient Algorithms for Modern Computer Architecture
职业:现代计算机架构的高效算法
  • 批准号:
    2339310
  • 财政年份:
    2024
  • 资助金额:
    $ 30万
  • 项目类别:
    Continuing Grant
Collaborative Research: SHF: Small: Artificial Intelligence of Things (AIoT): Theory, Architecture, and Algorithms
合作研究:SHF:小型:物联网人工智能 (AIoT):理论、架构和算法
  • 批准号:
    2221742
  • 财政年份:
    2022
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Artificial Intelligence of Things (AIoT): Theory, Architecture, and Algorithms
合作研究:SHF:小型:物联网人工智能 (AIoT):理论、架构和算法
  • 批准号:
    2221741
  • 财政年份:
    2022
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
Algorithms and Architecture for Super Terabit Flexible Multicarrier Coherent Optical Transmission
超太比特灵活多载波相干光传输的算法和架构
  • 批准号:
    533529-2018
  • 财政年份:
    2020
  • 资助金额:
    $ 30万
  • 项目类别:
    Collaborative Research and Development Grants
OAC Core: Small: Architecture and Network-aware Partitioning Algorithms for Scalable PDE Solvers
OAC 核心:小型:可扩展 PDE 求解器的架构和网络感知分区算法
  • 批准号:
    2008772
  • 财政年份:
    2020
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
Algorithms and Architecture for Super Terabit Flexible Multicarrier Coherent Optical Transmission
超太比特灵活多载波相干光传输的算法和架构
  • 批准号:
    533529-2018
  • 财政年份:
    2019
  • 资助金额:
    $ 30万
  • 项目类别:
    Collaborative Research and Development Grants
Visualization of FPGA CAD Algorithms and Target Architecture
FPGA CAD 算法和目标架构的可视化
  • 批准号:
    541812-2019
  • 财政年份:
    2019
  • 资助金额:
    $ 30万
  • 项目类别:
    University Undergraduate Student Research Awards
Collaborative Research: ABI Innovation: Algorithms for recovering root architecture from 3D imaging
合作研究:ABI 创新:从 3D 成像恢复根结构的算法
  • 批准号:
    1759836
  • 财政年份:
    2018
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
Collaborative Research: ABI Innovation: Algorithms for recovering root architecture from 3D imaging
合作研究:ABI 创新:从 3D 成像恢复根结构的算法
  • 批准号:
    1759796
  • 财政年份:
    2018
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
Collaborative Research: ABI Innovation: Algorithms for recovering root architecture from 3D imaging
合作研究:ABI 创新:从 3D 成像恢复根结构的算法
  • 批准号:
    1759807
  • 财政年份:
    2018
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了