Molecular Sequence Analysis Using Word Counts: Statistics Power and Applications

使用字数统计的分子序列分析:统计能力和应用

基本信息

  • 批准号:
    8096511
  • 负责人:
  • 金额:
    $ 20.38万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2011
  • 资助国家:
    美国
  • 起止时间:
    2011-07-22 至 2015-04-30
  • 项目状态:
    已结题

项目摘要

DESCRIPTION (provided by applicant): Pattern counting statistical methods have been used in many computational biology problems including: a) identification of transcription factor binding sites (TFBS) or cis-regulatory modules, b) comparison of genomic sequences and evolutionary studies, and 3) comparison of metagenomics communities. Many statistics have been developed to achieve these objectives. However, studies of properties of these statistics, e.g. power, have been lagging behind. In addition, pattern counting based methods should be very useful for the analysis of sequence data from the next generation sequencing technologies (NGS), e.g. ABI/SOLiD, and Roche 454 pyrosequencing, since these statistics do not need sequence assembly, a challenging problem in NGS. However, the available pattern counting statistics cannot be readily applied to the sequence fragment data due to the additional randomness introduced during NGS and new statistics have to be developed and studied. We recently studied the power of detecting enriched patterns in one molecular sequence and of detecting relationships between two sequences using pattern counting. Based on the results from these studies, we will achieve the following aims. In Aim 1, we study statistics for detecting enriched patterns. 1a). Extend the power study of detecting enriched patterns to more realistic background sequences when cis- regulatory modules are present and to regulatory sequences from multiple organisms. 1b) Design and study new statistics for detecting enriched patterns based on Chip-Seq data from multiple organisms. In Aim 2, we will develop alignment free statistics to study the relationships between organisms. 2a). Extend our recent work on alignment free sequence comparison statistics to more general evolutionary models and to design new statistics for horizontal gene transfers. 2b). Design and study new alignment free statistics for genome comparison based on short sequence reads from NGS data. The proposed projects will generate a suite of computer algorithms related to power analysis for detecting enriched pairs and alignment free genome comparison based on whole genome data or sequence fragment data from NGS. The algorithms will be disseminated through the web and R-code will be deposited in the R-library. The results from this study will be important for the study of detecting motifs and cisregulatory modules in genomic sequences and for evolutionary studies. PUBLIC HEALTH RELEVANCE: The statistical power of pattern counting methods for detecting enriched patterns in one sequence and for alignment-free sequence comparison is not well understood. New statistics, efficient algorithms and user-friendly software will be developed for detecting enriched patterns and genome comparison based on next generation sequencing (NGS) data. These tools will be used to analyze several NGS data sets.
描述(由申请人提供):模式计数统计方法已用于许多计算生物学问题,包括:a)转录因子结合位点(TFBS)或顺式调控模块的鉴定,B)基因组序列和进化研究的比较,以及3)宏基因组学群落的比较。为实现这些目标,编制了许多统计数据。然而,这些统计量的性质,如权力,一直滞后的研究。此外,基于模式计数的方法对于来自下一代测序技术(NGS)(例如ABI/SOLiD和Roche 454焦磷酸测序)的序列数据的分析应该是非常有用的,因为这些统计不需要序列组装,而序列组装是NGS中的挑战性问题。然而,由于NGS期间引入的额外随机性,现有的模式计数统计不能容易地应用于序列片段数据,并且必须开发和研究新的统计。我们最近研究了在一个分子序列中检测富集模式和使用模式计数检测两个序列之间的关系的能力。根据这些研究的结果,我们将实现以下目标。在目标1中,我们研究了用于检测丰富模式的统计。1a)。当存在顺式调控模块时,将检测富集模式的功效研究扩展到更真实的背景序列和来自多种生物体的调控序列。1b)设计和研究新的统计数据,用于基于来自多种生物体的Chip-Seq数据检测富集模式。在目标2中,我们将开发无对齐统计来研究生物体之间的关系。2a)。扩展我们最近的工作比对自由序列比较统计更一般的进化模型,并设计新的统计水平基因转移。2b)。基于NGS数据的短序列读数,设计和研究新的用于基因组比较的无比对统计。拟议的项目将生成一套与功效分析相关的计算机算法,用于基于NGS的全基因组数据或序列片段数据检测富集对和无比对基因组比较。算法将通过网络传播,R代码将存放在R图书馆。本研究的结果对于检测基因组序列中的基序和顺式调节模块的研究以及进化研究具有重要意义。 公共卫生关系:用于检测一个序列中的富集模式和用于无干扰序列比较的模式计数方法的统计功效还没有得到很好的理解。将开发新的统计数据、有效的算法和用户友好的软件,用于基于下一代测序(NGS)数据检测富集模式和基因组比较。这些工具将用于分析几个NGS数据集。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Fengzhu Sun其他文献

Fengzhu Sun的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Fengzhu Sun', 18)}}的其他基金

Molecular Sequence Analysis Using Word Counts: Statistics Power and Applications
使用字数统计的分子序列分析:统计能力和应用
  • 批准号:
    8305462
  • 财政年份:
    2011
  • 资助金额:
    $ 20.38万
  • 项目类别:
Computational and Statistical Studies for Multiple Molecular Networks
多分子网络的计算和统计研究
  • 批准号:
    7532746
  • 财政年份:
    2008
  • 资助金额:
    $ 20.38万
  • 项目类别:
Computational and Statistical Studies for Multiple Molecular Networks
多分子网络的计算和统计研究
  • 批准号:
    7662378
  • 财政年份:
    2008
  • 资助金额:
    $ 20.38万
  • 项目类别:
Implications of haplotype structure in the human genome
人类基因组中单倍型结构的意义
  • 批准号:
    7285280
  • 财政年份:
    2003
  • 资助金额:
    $ 20.38万
  • 项目类别:
STATISTICAL STUDIES OF MTDNA INVOLVEMENT IN DISEASES
MTDNA 参与疾病的统计研究
  • 批准号:
    6138068
  • 财政年份:
    1998
  • 资助金额:
    $ 20.38万
  • 项目类别:
STATISTICAL STUDIES OF MTDNA INVOLVEMENT IN DISEASES
MTDNA 参与疾病的统计研究
  • 批准号:
    2856831
  • 财政年份:
    1998
  • 资助金额:
    $ 20.38万
  • 项目类别:
STATISTICAL STUDIES OF MTDNA INVOLVEMENT IN DISEASES
MTDNA 参与疾病的统计研究
  • 批准号:
    2451881
  • 财政年份:
    1998
  • 资助金额:
    $ 20.38万
  • 项目类别:
STATISTICAL STUDIES OF MTDNA INVOLVEMENT IN DISEASES
MTDNA 参与疾病的统计研究
  • 批准号:
    6489701
  • 财政年份:
    1998
  • 资助金额:
    $ 20.38万
  • 项目类别:
STATISTICAL STUDIES OF MTDNA INVOLVEMENT IN DISEASES
MTDNA 参与疾病的统计研究
  • 批准号:
    6342509
  • 财政年份:
    1998
  • 资助金额:
    $ 20.38万
  • 项目类别:

相似国自然基金

帽结合蛋白(cap binding protein)调控乙烯信号转导的分子机制
  • 批准号:
    32170319
  • 批准年份:
    2021
  • 资助金额:
    58.00 万元
  • 项目类别:
    面上项目
帽结合蛋白(cap binding protein)调控乙烯信号转导的分子机制
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    58 万元
  • 项目类别:
ID1 (Inhibitor of DNA binding 1) 在口蹄疫病毒感染中作用机制的研究
  • 批准号:
    31672538
  • 批准年份:
    2016
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目
番茄EIN3-binding F-box蛋白2超表达诱导单性结实和果实成熟异常的机制研究
  • 批准号:
    31372080
  • 批准年份:
    2013
  • 资助金额:
    80.0 万元
  • 项目类别:
    面上项目
P53 binding protein 1 调控乳腺癌进展转移及化疗敏感性的机制研究
  • 批准号:
    81172529
  • 批准年份:
    2011
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
DBP(Vitamin D Binding Protein)在多发性硬化中的作用和相关机制的蛋白质组学研究
  • 批准号:
    81070952
  • 批准年份:
    2010
  • 资助金额:
    35.0 万元
  • 项目类别:
    面上项目
研究EB1(End-Binding protein 1)的癌基因特性及作用机制
  • 批准号:
    30672361
  • 批准年份:
    2006
  • 资助金额:
    24.0 万元
  • 项目类别:
    面上项目

相似海外基金

Bridging the Gap: Next-Gen Tools for Accurate Prediction of Disordered Protein Binding Sites
弥合差距:准确预测无序蛋白质结合位点的下一代工具
  • 批准号:
    24K15172
  • 财政年份:
    2024
  • 资助金额:
    $ 20.38万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Design of protein crystal templates with multiple binding sites for tracking metal complex reactions.
设计具有多个结合位点的蛋白质晶体模板,用于跟踪金属络合物反应。
  • 批准号:
    23K04928
  • 财政年份:
    2023
  • 资助金额:
    $ 20.38万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Dynamic changes in PIP2 binding sites and their impact on axonal targeting and function of epilepsy-associated KCNQ/Kv7 channels
PIP2 结合位点的动态变化及其对癫痫相关 KCNQ/Kv7 通道的轴突靶向和功能的影响
  • 批准号:
    10744934
  • 财政年份:
    2023
  • 资助金额:
    $ 20.38万
  • 项目类别:
Computational methods to identify small molecule RNA binding sites
识别小分子 RNA 结合位点的计算方法
  • 批准号:
    573688-2022
  • 财政年份:
    2022
  • 资助金额:
    $ 20.38万
  • 项目类别:
    University Undergraduate Student Research Awards
Identification of potential drug binding sites within allosteric networks in cyclic nucleotide modulated channels
环核苷酸调节通道变构网络内潜在药物结合位点的鉴定
  • 批准号:
    10704557
  • 财政年份:
    2022
  • 资助金额:
    $ 20.38万
  • 项目类别:
Identification of potential drug binding sites within allosteric networks in cyclic nucleotide modulated channels
环核苷酸调节通道变构网络内潜在药物结合位点的鉴定
  • 批准号:
    10537846
  • 财政年份:
    2022
  • 资助金额:
    $ 20.38万
  • 项目类别:
Identifying new types of inhibitors in quinone binding sites in photosynthetic enzymes
鉴定光合酶醌结合位点的新型抑制剂
  • 批准号:
    2753921
  • 财政年份:
    2022
  • 资助金额:
    $ 20.38万
  • 项目类别:
    Studentship
Development of broad nanovaccines targeting diverse coronavirus receptor-binding sites
开发针对不同冠状病毒受体结合位点的广泛纳米疫苗
  • 批准号:
    10328140
  • 财政年份:
    2022
  • 资助金额:
    $ 20.38万
  • 项目类别:
Exploiting Water Network Perturbations in Protein Binding Sites
利用蛋白质结合位点的水网络扰动
  • 批准号:
    10621368
  • 财政年份:
    2021
  • 资助金额:
    $ 20.38万
  • 项目类别:
SBIR Phase I: Nonlinear optical method for identifying protein-ligand binding sites
SBIR 第一阶段:识别蛋白质-配体结合位点的非线性光学方法
  • 批准号:
    2111821
  • 财政年份:
    2021
  • 资助金额:
    $ 20.38万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了