III: Small: Collaborative Research: Supporting Efficient Discrete Box Queries for Sequence Analysis on Large Scale Genome Databases

III:小型:协作研究:支持高效离散框查询以进行大规模基因组数据库的序列分析

基本信息

  • 批准号:
    1319909
  • 负责人:
  • 金额:
    $ 27.34万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2013
  • 资助国家:
    美国
  • 起止时间:
    2013-09-01 至 2018-08-31
  • 项目状态:
    已结题

项目摘要

This collaborative research project, conducted jointly by the investigators from the Michigan State University (MSU) and the University of Michigan at Dearborn (UM-D), investigates the issues and techniques for storing and searching/querying large scale k-mer data sets (i.e., overlapping k-length subsequences obtained from genome sequences) for sequence analysis in bioinformatics. Efficient k-mer indexing, storage and retrieval are vital to sequence analysis tasks like error correction as sequencing data set sizes increase vastly. Most existing methods for storing and searching k-mers are optimized for exact or range queries. However, this reliance limits the types of sequence analysis that can be done efficiently. Moreover, most existing methods for storing k-mers do not support efficient storage of k-mers at multiple word lengths. For many sequence analysis problems, including error correction, variant detection, and assembly, searches with multiple word lengths enable better sensitivity and specificity. In this project, various techniques for efficiently supporting so-called (discrete) box queries and other related queries (e.g., hybrid queries) on large scale k-mer data sets for sequence analysis are investigated. The approaches to optimizing box queries in solving sequence analysis problems like the error correction are examined. The storage structure and adoption of box queries for supporting searches with multiple word lengths on k-mer data sets are explored. The results from this research will advance the state of knowledge for storage, indexing and retrieval techniques for genome sequence databases. They are expected to significantly impact current practice in bioinformatics by making available new efficient on-disk solutions for sequence analysis. They will also impact a number of other popular application areas including biometrics, image processing, social network, and E-commerce, where processing non-ordered discrete multidimentional data is crucial. This collaborative research project, conducted jointly by the investigators from the Michigan State University (MSU) and the University of Michigan at Dearborn (UM-D), investigates the issues and techniques for storing and searching/querying large scale k-mer data sets for sequence analysis in bioinformatics. Efficient k-mer indexing, storage and retrieval are vital to sequence analysis tasks like error correction as sequencing data set sizes increase vastly. Most existing methods for storing and searching k-mers are optimized for exact or range queries. However, this reliance limits the types of sequence analysis that can be done efficiently. Moreover, most existing methods for storing k-mers do not support efficient storage of k-mers at multiple word lengths. For many sequence analysis problems, searches with multiple word lengths enable better sensitivity and specificity. In this project, various techniques for efficiently supporting so-called (discrete) box queries and other related queries (e.g., hybrid queries) on large scale k-mer data sets for sequence analysis are investigated. In particular, a new index tree, named the BoND-tree, specially designed for a non-ordered discrete data space characterized by k-mer data sets is developed. The unique properties of the space are exploited to develop new node splitting heuristics for the index tree, and theoretical analysis is performed to show the optimality of the proposed heuristics. Besides the BoND-tree, which is based on data partitioning, space-partitioning based index schemes for box quieres in such a space are also developed. To support a more flexible type of query (i.e., hybrid box and range queries), hybrid index schemes integrating strengths of both box query indexes and range query indexes are studied. To facilitate an efficient index construction for large scale k-mer data sets, bulk loading techniques are also developed for the proposed index trees. In addition, the approaches to optimizing box queries in solving sequence analysis problems like the error correction are examined. The storage structure and adoption of box queries for supporting searches with multiple word lengths on k-mer data sets are also explored. The research in the project will result in the discovery of fundamental properties of the data space for sequence data in bioinformatics, the development of a number of novel storage, indexing and retrieval techniques exploiting the properties of such a data space, and the applications of the proposed techniques for solving important problems in sequence analysis. These results will advance the state of knowledge for storage, indexing and retrieval techniques for genome sequence databases. They are expected to significantly impact current practice in bioinformatics by making available new efficient on-disk solutions for sequence analysis. They will also impact a number of other popular application areas including biometrics, image processing, social network, and E-commerce, where processing non-ordered discrete multidimentional data is crucial.
这个合作研究项目由密歇根州立大学(MSU)和密歇根大学迪尔伯恩分校(UM-D)的研究人员联合进行,研究了存储和搜索/查询大规模k-mer数据集的问题和技术(即,从基因组序列获得的重叠k长度序列)用于生物信息学中的序列分析。高效的k-mer索引,存储和检索对于序列分析任务(如错误校正)至关重要,因为测序数据集大小大幅增加。大多数现有的用于存储和搜索k-mer的方法针对精确或范围查询进行了优化。然而,这种依赖性限制了可以有效进行的序列分析的类型。此外,大多数现有的用于存储k-mer的方法不支持以多个字长有效存储k-mer。对于许多序列分析问题,包括错误校正、变异检测和组装,具有多个字长的搜索能够实现更好的灵敏度和特异性。在这个项目中,用于有效地支持所谓的(离散)框查询和其他相关查询(例如,混合查询)对用于序列分析的大规模k-mer数据集进行研究。研究了在解决序列分析问题(如纠错)中优化框查询的方法。探讨了在k-mer数据集上支持多字长搜索的存储结构和框查询的采用。这项研究的结果将推进基因组序列数据库的存储,索引和检索技术的知识状态。 它们有望通过为序列分析提供新的高效磁盘解决方案,对生物信息学的当前实践产生重大影响。它们还将影响许多其他流行的应用领域,包括生物识别,图像处理,社交网络和电子商务,其中处理无序离散多维数据至关重要。这个合作研究项目由密歇根州立大学(MSU)和密歇根大学迪尔伯恩分校(UM-D)的研究人员联合进行,研究了生物信息学中用于序列分析的大规模k-mer数据集的存储和搜索/查询的问题和技术。高效的k-mer索引,存储和检索对于序列分析任务(如错误校正)至关重要,因为测序数据集大小大幅增加。大多数现有的用于存储和搜索k-mer的方法针对精确或范围查询进行了优化。然而,这种依赖性限制了可以有效进行的序列分析的类型。此外,大多数现有的用于存储k-mer的方法不支持以多个字长有效存储k-mer。对于许多序列分析问题,使用多个字长的搜索可以实现更好的灵敏度和特异性。在这个项目中,用于有效地支持所谓的(离散)框查询和其他相关查询(例如,混合查询)对用于序列分析的大规模k-mer数据集进行研究。特别是,一个新的索引树,命名为BoND树,专门为无序的离散数据空间,其特征在于k-mer数据集的开发。利用该空间的独特性质,提出了一种新的索引树节点分裂算法,并通过理论分析证明了该算法的最优性。除了基于数据分区的BoND树之外,还开发了针对此类空间中的盒状区域的基于空间分区的索引方案。为了支持更灵活类型的查询(即,混合框和范围查询),研究了综合框查询索引和范围查询索引优点的混合索引方案。为了便于大规模k-mer数据集的高效索引构建,批量加载技术也被开发用于所提出的索引树。此外,在解决序列分析问题,如错误校正优化框查询的方法进行了检查。本文还探讨了在k-mer数据集上支持多字长搜索的存储结构和框查询的采用。该项目的研究将导致发现生物信息学中序列数据的数据空间的基本属性,开发一些新的存储,索引和检索技术,利用这种数据空间的属性,以及应用所提出的技术解决序列分析中的重要问题。这些结果将推进基因组序列数据库的存储,索引和检索技术的知识状态。它们有望通过为序列分析提供新的高效磁盘解决方案,对生物信息学的当前实践产生重大影响。它们还将影响许多其他流行的应用领域,包括生物识别,图像处理,社交网络和电子商务,其中处理无序离散多维数据至关重要。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Sakti Pramanik其他文献

<em>k</em>-Nearest neighbor searching in hybrid spaces
  • DOI:
    10.1016/j.is.2014.02.004
  • 发表时间:
    2014-07-01
  • 期刊:
  • 影响因子:
  • 作者:
    Dashiell Kolbe;Qiang Zhu;Sakti Pramanik
  • 通讯作者:
    Sakti Pramanik

Sakti Pramanik的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Sakti Pramanik', 18)}}的其他基金

Collaborative Research: Supporting Efficient Similarity Searches for Multidimensional Non-ordered Discrete Data Spaces
协作研究:支持多维非有序离散数据空间的高效相似性搜索
  • 批准号:
    0414576
  • 财政年份:
    2005
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
SGER: Performance Studies for Indexing Genome Sequence Databases
SGER:索引基因组序列数据库的性能研究
  • 批准号:
    0228983
  • 财政年份:
    2002
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
SGER: Data-Distribution Properties in High Dimensional Euclidean Space and their Applications in Optimizing Multi-Media Database Accesses
SGER:高维欧几里德空间中的数据分布特性及其在优化多媒体数据库访问中的应用
  • 批准号:
    9910605
  • 财政年份:
    1999
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
HICLAS: An Effective Tool for Interoperability Among Taxonomic Database Systems
HICLAS:分类数据库系统之间互操作性的有效工具
  • 批准号:
    9630846
  • 财政年份:
    1996
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Moving the Ribosome Database Project (RDP) to a DBMS Foundation
将核糖体数据库项目 (RDP) 移至 DBMS 基金会
  • 批准号:
    9507552
  • 财政年份:
    1995
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Continuing Grant
Hierarchic Database Management Systems and Networking for Systematic Biology
系统生物学的分层数据库管理系统和网络
  • 批准号:
    9408384
  • 财政年份:
    1994
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Hierarchic Database Structures for Implementing Taxonomic Database Systems
用于实现分类数据库系统的分层数据库结构
  • 批准号:
    9021656
  • 财政年份:
    1991
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Arabidopsis Biological Resource Center
拟南芥生物资源中心
  • 批准号:
    9121030
  • 财政年份:
    1991
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Continuing Grant
Parallel Processing of Multi-Directory Hashing
多目录哈希的并行处理
  • 批准号:
    8706069
  • 财政年份:
    1988
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Continuing Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Collaborative Research: III: Small: High-Performance Scheduling for Modern Database Systems
协作研究:III:小型:现代数据库系统的高性能调度
  • 批准号:
    2322973
  • 财政年份:
    2024
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: High-Performance Scheduling for Modern Database Systems
协作研究:III:小型:现代数据库系统的高性能调度
  • 批准号:
    2322974
  • 财政年份:
    2024
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: A DREAM Proactive Conversational System
合作研究:III:小型:一个梦想的主动对话系统
  • 批准号:
    2336769
  • 财政年份:
    2024
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: A DREAM Proactive Conversational System
合作研究:III:小型:一个梦想的主动对话系统
  • 批准号:
    2336768
  • 财政年份:
    2024
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
III: Small: Multiple Device Collaborative Learning in Real Heterogeneous and Dynamic Environments
III:小:真实异构动态环境中的多设备协作学习
  • 批准号:
    2311990
  • 财政年份:
    2023
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Reconstruction of Diffusion History in Cyber and Human Networks with Applications in Epidemiology and Cybersecurity
合作研究:III:小:重建网络和人类网络中的扩散历史及其在流行病学和网络安全中的应用
  • 批准号:
    2324770
  • 财政年份:
    2023
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Efficient and Robust Multi-model Data Analytics for Edge Computing
协作研究:III:小型:边缘计算的高效、稳健的多模型数据分析
  • 批准号:
    2311596
  • 财政年份:
    2023
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Efficient and Robust Multi-model Data Analytics for Edge Computing
协作研究:III:小型:边缘计算的高效、稳健的多模型数据分析
  • 批准号:
    2311598
  • 财政年份:
    2023
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Physics Guided Graph Networks for Modeling Water Dynamics in Freshwater Ecosystems
合作研究:III:小型:用于模拟淡水生态系统中水动力学的物理引导图网络
  • 批准号:
    2316306
  • 财政年份:
    2023
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Small: Reconstruction of Diffusion History in Cyber and Human Networks with Applications in Epidemiology and Cybersecurity
合作研究:III:小:重建网络和人类网络中的扩散历史及其在流行病学和网络安全中的应用
  • 批准号:
    2324769
  • 财政年份:
    2023
  • 资助金额:
    $ 27.34万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了