III:Small:Algorithms for Tandem Repeat Variant Discovery Using Next Generation Sequencing Data

III:Small:使用下一代测序数据发现串联重复变异的算法

基本信息

  • 批准号:
    1017621
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2010
  • 资助国家:
    美国
  • 起止时间:
    2010-08-15 至 2015-07-31
  • 项目状态:
    已结题

项目摘要

A tandem repeat (TR) is any pattern of nucleotides which occurs as repeating, consecutive copies along a DNA molecule. Often, the pattern copies are not identical. A TR can be polymorphic, that is, it can be different across individuals in a population: 1) the number of copies may be different, 2) the arrangement of non-identical copies may be dfferent, and 3) the copies may contain different small mutations. TR variants are known to affect important biological processes, such as chromatin structure, gene plasticity, gene expression, and disease states, so their discovery is crucial for correctly understanding complex bio-molecular interactions. While a conservative estimate suggests that 100,000 human TRs may be polymorphic, until recently, genome-wide study of TR polymorphism, in humans and other organisms, has been too difficult and costly, with the result that the true extent of polymorphism and its effects are unknown. New genome sequencing technologies offer the first real opportunity to fill in the details of TR diversity. These technologies sequence millions of high quality, short DNA fragments in a singleexperiment. Current sequencing projects are producing many billions of reads rich in TR variant information. Yet, current read mapping algorithms,which attempt to assign each read to its proper location on the reference genome, are not designed to detect TR variants. This project has three central goals: 1. Algorithm Development; 2.Genome Studies; 3. Variation Curation in a public database. Strategies will be developed to accurately and efficiently map TR-containing reads to reference genome TR loci. Anticipated algorithmic developments include: 1) Optimization of tree-based alignment, for use when millions of short, disjoint sequences must be aligned to each other. The reads and references can each be merged into separate Patricia tree data structures and alignment computed between tree nodes, thereby eliminating redundant computation in the prefixes of the two sequence sets. 2) Production of space-saving, Burrows Wheeler transforms (BWT) of the most redundant tree parts by employing approximate shortest common superstrings (SCS) for the two sequence sets. 3) Development of an efficient Four-Russians style block computation for edit distance alignment in the trees by exploiting redundancy inherent in the small alphabet and block input scores, 4) Development of a bounding computation for edit-distance based on efficient, bit-register computation of longest common subsequence (LCS) alignment, and 5) Parallelization of all algorithms for further efficiency with multi-core processors, Single Instruction, Multiple Data (SIMD) bit-register computations, and highly parallel graphics processing units (GPUs). Data from six recently published whole human genomes, two human centenarian genomes, and the 1000 genomes project will be analyzed to discover TR variants. An internet-accessible, public database and analysis platform for curation and display of TR variants will be developed.The TR variant discovery software and all data sets produced will directly enhance the infrastructure for TR diversity research in genome biology, genome evolution, and comparative genomics. The software and data will be freely available to the research community through a high capacity website maintained in the PI's lab at Boston University. The PI will participate in a variety of activities that link research and education and support participation by members of underrepresented groups, including provision of opportunities in research for graduate and undergraduate students, participation in high school enrichment and curriculum development projects, and editorship of an international journal engaged in the dissemination of bioinformatics research.
串联重复(TR)是核苷酸的任何模式,它沿着DNA分子重复,连续复制。通常,模式副本是不相同的。一个TR可以是多态的,也就是说,它在一个群体中的个体之间可能是不同的:1)拷贝的数量可能不同,2)非相同拷贝的排列可能不同,3)拷贝可能包含不同的小突变。已知TR变异会影响重要的生物过程,如染色质结构、基因可塑性、基因表达和疾病状态,因此它们的发现对于正确理解复杂的生物分子相互作用至关重要。尽管保守估计有10万个人类TR可能是多态性的,但直到最近,在人类和其他生物体中对TR多态性进行全基因组研究过于困难和昂贵,其结果是多态性的真正程度及其影响是未知的。新的基因组测序技术提供了第一个真正的机会来填补TR多样性的细节。这些技术在一次实验中对数百万个高质量的短DNA片段进行测序。目前的测序项目正在产生数十亿个富含TR变异信息的reads。然而,目前的读取映射算法,试图将每个读取分配到参考基因组上的适当位置,并没有设计用于检测TR变异。这个项目有三个中心目标:1。算法开发;2.基因组研究;3. 公共数据库中的变异管理。将制定策略,以准确有效地将含有TR的reads映射到参考基因组的TR位点。预期的算法发展包括:1)优化基于树的对齐,用于数百万个短的,不相交的序列必须彼此对齐。读取和引用可以分别合并到单独的Patricia树数据结构中,并在树节点之间计算对齐,从而消除了两个序列集前缀中的冗余计算。2)为了节省空间,对两个序列集采用近似最短公共超弦(SCS)对最冗余树部分进行Burrows Wheeler变换(BWT)。3)通过利用小字母和块输入分数固有的冗余,开发了一种高效的四俄罗斯风格的块计算,用于树中的编辑距离对齐;4)开发了一种基于最长公共子序列(LCS)对齐的高效位寄存器计算的编辑距离边界计算;5)并行化所有算法,以提高多核处理器的效率,单指令,多数据(SIMD)位寄存器计算,以及高度并行图形处理单元(gpu)。将分析最近发表的6个人类全基因组、2个人类百岁老人基因组和1000个基因组计划的数据,以发现TR变异。将开发一个可访问互联网的公共数据库和分析平台,用于管理和显示TR变体。TR变异发现软件和所产生的所有数据集将直接增强基因组生物学、基因组进化和比较基因组学中TR多样性研究的基础设施。软件和数据将通过波士顿大学PI实验室维护的高容量网站免费提供给研究界。PI将参与将研究与教育联系起来的各种活动,并支持代表性不足的群体成员的参与,包括为研究生和本科生提供研究机会,参与高中充实和课程开发项目,以及编辑从事传播生物信息学研究的国际期刊。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Gary Benson其他文献

Evaluating distance functions for clustering tandem repeats.
评估聚类串联重复的距离函数。
An Alphabet Independent Approach to Two-Dimensional Pattern Matching
一种与字母无关的二维模式匹配方法
  • DOI:
    10.1137/s0097539792226321
  • 发表时间:
    1994
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Amir;Gary Benson;Martín Farach
  • 通讯作者:
    Martín Farach
Exact Distribution of a Spaced Seed Statistic for DNA Homology Detection
用于 DNA 同源性检测的间隔种子统计量的精确分布
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Gary Benson;Denise Y. F. Mak
  • 通讯作者:
    Denise Y. F. Mak
Minimal entropy probability paths between genome families
基因组家族之间的最小熵概率路径
3'-UTR SIRF: A database for identifying clusters of short interspersed repeats in 3' untranslated regions
  • DOI:
    10.1186/1471-2105-8-274
  • 发表时间:
    2007-07-30
  • 期刊:
  • 影响因子:
    3.300
  • 作者:
    Benjamin B Andken;In Lim;Gary Benson;John J Vincent;Matthew T Ferenc;Bianca Heinrich;Larissa A Jarzylo;Heng-Ye Man;James O Deshler
  • 通讯作者:
    James O Deshler

Gary Benson的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Gary Benson', 18)}}的其他基金

REU Site: Bioinformatics Research and Interdisciplinary Training Experience in Analysis and Interpretation of Information-Rich Biological Data Sets (REU-BRITE)
REU网站:信息丰富的生物数据集分析和解释的生物信息学研究和跨学科培训经验(REU-BRITE)
  • 批准号:
    1949968
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
REU Site: Bioinformatics Research and Interdisciplinary Training Experience in Analysis and Interpretation of Information-Rich Biological Data Sets (REU-BRITE)
REU网站:信息丰富的生物数据集分析和解释的生物信息学研究和跨学科培训经验(REU-BRITE)
  • 批准号:
    1559829
  • 财政年份:
    2016
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Small: Bit-Parallel Algorithms for Sequence Alignment and Applications in Detecting Human Genetic Variation and Bacterial Strain Typing
III:小:序列比对的位并行算法及其在检测人类遗传变异和细菌菌株分型中的应用
  • 批准号:
    1423022
  • 财政年份:
    2014
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
IGERT: Integrating Computational Science into Research in Biological Networks
IGERT:将计算科学融入生物网络研究
  • 批准号:
    0654108
  • 财政年份:
    2007
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
SEI(BIO): DNA Inverted Repeats: Sensitive Detection Methods and Research Database
SEI(BIO):DNA 反向重复:灵敏检测方法和研究数据库
  • 批准号:
    0612153
  • 财政年份:
    2006
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Composition Patterns in Nucleotide Sequences
核苷酸序列的组成模式
  • 批准号:
    0413463
  • 财政年份:
    2003
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
TRDB: A Multi-genome Database of Tandem Repeats
TRDB:串联重复的多基因组数据库
  • 批准号:
    0413462
  • 财政年份:
    2003
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
TRDB: A Multi-genome Database of Tandem Repeats
TRDB:串联重复的多基因组数据库
  • 批准号:
    0090789
  • 财政年份:
    2001
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Composition Patterns in Nucleotide Sequences
核苷酸序列的组成模式
  • 批准号:
    0073081
  • 财政年份:
    2000
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CAREER: Tandem Repeats: Sequence Comparison and Search Algorithms
职业:串联重复:序列比较和搜索算法
  • 批准号:
    9623532
  • 财政年份:
    1996
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

III: Small: Stochastic Algorithms for Large Scale Data Analysis
III:小型:大规模数据分析的随机算法
  • 批准号:
    2131335
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Small: Collaborative Research: Algorithms, systems, and theories for exploiting data dependencies in crowdsourcing
III:小型:协作研究:在众包中利用数据依赖性的算法、系统和理论
  • 批准号:
    2007941
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Combinatorial Algorithms for High-dimensional Learning
III:小:高维学习的组合算法
  • 批准号:
    2008557
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Towards the Foundations of Training Deep Neural Networks: New Theory and Algorithms
III:小:迈向训练深度神经网络的基础:新理论和算法
  • 批准号:
    2008981
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Small: Collaborative Research: Algorithms, systems, and theories for exploiting data dependencies in crowdsourcing
III:小型:协作研究:在众包中利用数据依赖性的算法、系统和理论
  • 批准号:
    2008155
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Stochastic Algorithms for Large Scale Data Analysis
III:小型:大规模数据分析的随机算法
  • 批准号:
    1908104
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
III: Small: Novel Geometric Algorithms for Learning from Big Biomedical Data
III:小:从生物医学大数据中学习的新型几何算法
  • 批准号:
    1910492
  • 财政年份:
    2019
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: New algorithms for genome skimming and its applications
III:小:基因组略读的新算法及其应用
  • 批准号:
    1815485
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Algorithms and Practical Applications for Team Formation and Change
III:小:团队组建和变革的算法和实际应用
  • 批准号:
    1813406
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
III: Small: Algorithms and Theoretical Foundations for Approximate Bayesian Inference in Machine Learning
III:小:机器学习中近似贝叶斯推理的算法和理论基础
  • 批准号:
    1906694
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了