Phylogenetic Binning of Metagenomic Sequence Data

宏基因组序列数据的系统发育分箱

基本信息

项目摘要

DESCRIPTION (provided by applicant): Culture-independent metagenomic studies are essential for understanding our relationship with the organisms comprising the human microbiome, defining optimal microbial composition to maintain health, and devising selective treatment strategies to eliminate pathogens without harming beneficial species. To use metagenomic data effectively, raw DNA sequence data (reads) must be processed computationally (assembled) to obtain longer sequences (contigs). Existing software packages for this purpose are quite inefficient when presented with large, taxonomically diverse samples, resulting in considerable wastage of reads that cannot be assembled. Efforts to maximize assembly efficiency by relaxing stringency can lead to inappropriate joining of sequences from unrelated organisms (chimeric artifacts), compromising data accuracy and usefulness. Taxonomic binning of raw reads as a pre-filtering step is expected to improve metagenomic sequence assembly efficiency, reducing statistical noise due to sample complexity and allowing incorporation of raw reads into longer, more informative contigs without incurring chimeric artifacts. Benefits should be especially significant for less abundant species in complex mixtures. We have developed methods to quantify taxonomic binning program performance and assembly improvements in real metagenomic data sets, including reproducible calibration standards, to enable efficient parameter optimization for existing software and provide reliable benchmarks for future software development. Our specific aims are to 1) develop new computational methods for large-scale taxonomic classification of metagenomic sequence data, applicable to raw reads as well as assembled contigs; 2) develop software and protocols to use taxonomic data binning as a pre-treatment to increase efficiency of existing sequence assembly software; 3) benchmark performance enhancement for different assembly software programs using quantitative, statistical tests with both artificially created models and real-life metagenomic data sets of varying size and complexity; 4) make new computational methods and performance evaluation tools available to the general scientific community.
描述(由申请人提供):与文化无关的宏基因组研究对于理解我们与包括人类微生物组的生物的关系至关重要,定义了保持健康的最佳微生物组成,并制定选择性治疗策略以消除病原体而不损害有益物种。为了有效地使用宏基因组数据,必须对原始DNA序列数据(读取)进行计算处理(组装)以获得更长的序列(重叠群)。出于此目的的现有软件包效率很大,当时有大型的分类学样本,从而大大浪费了无法组装的读数。通过放松严格性来最大程度地提高组装效率的努力会导致不适当地连接来自无关的生物(嵌合伪影)的序列,从而损害了数据的准确性和实用性。原始读取作为预滤波步骤的分类学构造有望提高宏基因组序列组装效率,从而降低了由于样品复杂性而引起的统计噪声,并允许将原始读取纳入较长,更有信息的重叠群中,而不会引起嵌合式伪影。对于复杂混合物中的丰富物种,收益应特别重要。我们已经开发了量化分类学分类计划性能和实际元基因组数据集的组装改进的方法,包括可再现的校准标准,以实现现有软件的有效参数优化,并为未来的软件开发提供可靠的基准。我们的具体目的是1)开发新的计算方法,用于用于元基因组序列数据的大规模分类分类,适用于原始读取和组装重叠群; 2)开发软件和协议,以使用分类学数据将其作为预处理,以提高现有序列组装软件的效率; 3)使用人工创建的模型和现实生活中的元基因组数据集的不同大小和复杂性的实数统计测试对不同的组装软件程序进行基准性能增强; 4)制作新的计算方法和绩效评估工具可供一般科学界使用。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Eric Ellsworth Allen其他文献

Eric Ellsworth Allen的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Eric Ellsworth Allen', 18)}}的其他基金

Natural Sources and Microbial Transformation of Marine Halogenated Pollutants
海洋卤化污染物的天然来源和微生物转化
  • 批准号:
    10307709
  • 财政年份:
    2021
  • 资助金额:
    $ 19.31万
  • 项目类别:
Natural Sources and Microbial Transformation of Marine Halogenated Pollutants
海洋卤化污染物的天然来源和微生物转化
  • 批准号:
    10443787
  • 财政年份:
    2018
  • 资助金额:
    $ 19.31万
  • 项目类别:
Natural Sources and Microbial Transformation of Marine Halogenated Pollutants
海洋卤化污染物的天然来源和微生物转化
  • 批准号:
    10207635
  • 财政年份:
    2018
  • 资助金额:
    $ 19.31万
  • 项目类别:
Phylogenetic Binning of Metagenomic Sequence Data
宏基因组序列数据的系统发育分箱
  • 批准号:
    7708544
  • 财政年份:
    2009
  • 资助金额:
    $ 19.31万
  • 项目类别:

相似国自然基金

分布式非凸非光滑优化问题的凸松弛及高低阶加速算法研究
  • 批准号:
    12371308
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
资源受限下集成学习算法设计与硬件实现研究
  • 批准号:
    62372198
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于物理信息神经网络的电磁场快速算法研究
  • 批准号:
    52377005
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
考虑桩-土-水耦合效应的饱和砂土变形与流动问题的SPH模型与高效算法研究
  • 批准号:
    12302257
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向高维不平衡数据的分类集成算法研究
  • 批准号:
    62306119
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Multi-modal Tracking of In Vivo Skeletal Structures and Implants
体内骨骼结构和植入物的多模式跟踪
  • 批准号:
    10839518
  • 财政年份:
    2023
  • 资助金额:
    $ 19.31万
  • 项目类别:
Point of care diagnostic for sickle cell disease
镰状细胞病的护理点诊断
  • 批准号:
    10739074
  • 财政年份:
    2023
  • 资助金额:
    $ 19.31万
  • 项目类别:
Towards an inclusive genomic risk classification for acute myeloid leukemia (AML)
迈向急性髓系白血病 (AML) 的包容性基因组风险分类
  • 批准号:
    10752188
  • 财政年份:
    2023
  • 资助金额:
    $ 19.31万
  • 项目类别:
Using Informatics to Evaluate and Predict Cataract Surgery Impact on Alzheimer's Disease and Related Dementias and Mild Cognitive Impairment Outcomes
利用信息学评估和预测白内障手术对阿尔茨海默病和相关痴呆症以及轻度认知障碍结果的影响
  • 批准号:
    10688255
  • 财政年份:
    2022
  • 资助金额:
    $ 19.31万
  • 项目类别:
Rapid quantitative renal fibrosis evaluation with dual-mode microscopy
使用双模式显微镜快速定量评估肾纤维化
  • 批准号:
    10345257
  • 财政年份:
    2022
  • 资助金额:
    $ 19.31万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了