BULK-LOADING & PERFORMANCE STUDIES OF THE ND-TREE FOR LARGE GENOME DATABASES

散装

基本信息

  • 批准号:
    7610287
  • 负责人:
  • 金额:
    $ 4万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2007
  • 资助国家:
    美国
  • 起止时间:
    2007-05-01 至 2008-04-30
  • 项目状态:
    已结题

项目摘要

This subproject is one of many research subprojects utilizing the resources provided by a Center grant funded by NIH/NCRR. The subproject and investigator (PI) may have received primary funding from another NIH source, and thus could be represented in other CRISP entries. The institution listed is for the Center, which is not necessarily the institution for the investigator. The subproject seeks to provide an efficient indexing method to speed up the search of large biological information databases. In particular, the research is based on a multi-dimensional disk-based index structure, called the ND-tree, which is designed to support similarity queries on vectors/q-grams of large non-ordered discrete data sets. The current method used to construct the ND-tree is incremental, which may significantly affect the effective use of the index due to the huge amount of data to be indexed. The subproject focuses on finding an efficient algorithm to bulkload the ND-tree. Unlike the incremental method, the new bulkloading algorithm assumes that there is some memory space available for bulkloading. Therefore, it is possible for the algorithm to load thousands of vectors into the index structure without incurring a single disk I/O, resulting in a significant reduction in the loading time. The algorithm is also designed such that a bulkloaded ND-tree has a comparable query performance to those incrementally constructed. To evaluate the effectiveness of the new algorithm, it will be experimentally compared with the incremental method and other existing bulkloading methods in terms of both loading and querying efficiency. A theoretical analysis of the bulkloading algorithm is planned for future research. Furthermore, the bulkloading algorithm will become an integrated part of a planned index-based bioinformatics search engine in future research.
这个子项目是许多研究子项目中的一个 由NIH/NCRR资助的中心赠款提供的资源。子项目和 研究者(PI)可能从另一个NIH来源获得了主要资金, 因此可以在其他CRISP条目中表示。所列机构为 研究中心,而研究中心不一定是研究者所在的机构。 该分项目旨在提供一种有效的索引方法,以加快大型生物信息数据库的搜索。 特别是,该研究是基于一个多维的磁盘为基础的索引结构,称为ND-树,这是专为支持大型无序离散数据集的向量/q-gram的相似性查询。 目前构建ND树的方法是增量式的,由于需要索引的数据量巨大,这可能会严重影响索引的有效使用。 该子项目的重点是找到一个有效的算法来批量加载ND树。 与增量方法不同,新的大容量加载算法假定有一些内存空间可用于大容量加载。 因此,该算法可以将数千个向量加载到索引结构中,而不会产生单个磁盘I/O,从而显着减少加载时间。 该算法还被设计成使得大容量加载的ND树具有与增量构造的查询性能相当的查询性能。 为了评估新算法的有效性,它将与增量方法和其他现有的批量加载方法在加载和查询效率方面进行实验比较。 计划对批量装载算法进行理论分析,以供将来研究。 此外,批量装载算法将成为一个集成的一部分,计划在未来的研究基于索引的生物信息学搜索引擎。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

GANG QIAN其他文献

GANG QIAN的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('GANG QIAN', 18)}}的其他基金

SUBSTITUTION MATRICES INTO THE NSP-TREE IN BIOLOGICAL SEQUENCE DATABASES
生物序列数据库中 NSP 树的替换矩阵
  • 批准号:
    8167540
  • 财政年份:
    2010
  • 资助金额:
    $ 4万
  • 项目类别:
USE THE EDIT DISTANCE IN THE ND-TREE FOR EFFICIENT BIOINFORMATICS QUERIES
使用 ND 树中的编辑距离进行高效的生物信息学查询
  • 批准号:
    7960025
  • 财政年份:
    2009
  • 资助金额:
    $ 4万
  • 项目类别:
USE THE EDIT DISTANCE IN THE ND-TREE FOR EFFICIENT BIOINFORMATICS QUERIES
使用 ND 树中的编辑距离进行高效的生物信息学查询
  • 批准号:
    7725103
  • 财政年份:
    2008
  • 资助金额:
    $ 4万
  • 项目类别:

相似海外基金

Novel Data Structures And Scalable Algorithms For High Throughput Bioinformatics
高通量生物信息学的新颖数据结构和可扩展算法
  • 批准号:
    RGPIN-2019-06640
  • 财政年份:
    2022
  • 资助金额:
    $ 4万
  • 项目类别:
    Discovery Grants Program - Individual
Bioinformatics Algorithms for Protein Interactions and Applications
蛋白质相互作用和应用的生物信息学算法
  • 批准号:
    RGPIN-2021-03978
  • 财政年份:
    2022
  • 资助金额:
    $ 4万
  • 项目类别:
    Discovery Grants Program - Individual
Novel Data Structures And Scalable Algorithms For High Throughput Bioinformatics
高通量生物信息学的新颖数据结构和可扩展算法
  • 批准号:
    RGPIN-2019-06640
  • 财政年份:
    2021
  • 资助金额:
    $ 4万
  • 项目类别:
    Discovery Grants Program - Individual
Bioinformatics Algorithms for Protein Interactions and Applications
蛋白质相互作用和应用的生物信息学算法
  • 批准号:
    RGPIN-2021-03978
  • 财政年份:
    2021
  • 资助金额:
    $ 4万
  • 项目类别:
    Discovery Grants Program - Individual
Bioinformatics Algorithms
生物信息学算法
  • 批准号:
    CRC-2017-00215
  • 财政年份:
    2021
  • 资助金额:
    $ 4万
  • 项目类别:
    Canada Research Chairs
Bioinformatics Algorithms and Software for Proteomics
蛋白质组学生物信息学算法和软件
  • 批准号:
    RGPIN-2016-03998
  • 财政年份:
    2021
  • 资助金额:
    $ 4万
  • 项目类别:
    Discovery Grants Program - Individual
Novel Data Structures And Scalable Algorithms For High Throughput Bioinformatics
高通量生物信息学的新颖数据结构和可扩展算法
  • 批准号:
    RGPIN-2019-06640
  • 财政年份:
    2020
  • 资助金额:
    $ 4万
  • 项目类别:
    Discovery Grants Program - Individual
Bioinformatics algorithms
生物信息学算法
  • 批准号:
    CRC-2017-00215
  • 财政年份:
    2020
  • 资助金额:
    $ 4万
  • 项目类别:
    Canada Research Chairs
Bioinformatics algorithms
生物信息学算法
  • 批准号:
    CRC-2017-00215
  • 财政年份:
    2019
  • 资助金额:
    $ 4万
  • 项目类别:
    Canada Research Chairs
Bioinformatics Algorithms and Software for Proteomics
蛋白质组学生物信息学算法和软件
  • 批准号:
    RGPIN-2016-03998
  • 财政年份:
    2019
  • 资助金额:
    $ 4万
  • 项目类别:
    Discovery Grants Program - Individual
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了