Inference of Markovian Properties of Molecular Sequences Using Shotgun Reads and Applications

使用鸟枪读取和应用推断分子序列的马尔可夫性质

基本信息

  • 批准号:
    1518001
  • 负责人:
  • 金额:
    $ 60万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2015
  • 资助国家:
    美国
  • 起止时间:
    2015-09-01 至 2019-08-31
  • 项目状态:
    已结题

项目摘要

High throughput next generation sequencing (NGS) technologies generate enormous amounts of fragmented genome sequences, revolutionizing genetic and genomics research. Thousands of individual genomes and metagenomes consisting of natural mixtures of individual organisms from various environments have been sequenced using NGS. These developments play essential roles in understanding the genetic basis of complex diseases, the effects of environment on public health, the impacts of environmental changes such as global warming and pollution on the environments, and the detection of pathogens including viruses. Development of analytical methods to make full use of NGS data is essential in advancing public health, improving the environment, and strengthening national security. Although significant progress has been made in the analysis of NGS data, there are still wide gaps between the current available analytical tools and the full potential that can be achieved through the analysis of NGS data. This research project aims to further advance recently-developed statistical and computational methods for the comparison of genomes and metagenomes using NGS reads, without the need for assembly into genomes, avoiding many pitfalls that make assembly problematic. The research will make the computational tools more efficient and powerful and will employ them to analyze metagenomic data to study the effects of environmental factors on marine microbial communities. Both the algorithms and results will be disseminated through the web. The results from this study will be important for both genomics and metagenomics studies under a variety of environments.In more detail, statistical and computational methods for the inference of Markovian properties of molecular sequences based on NGS short reads will be developed and the methods will then be used to study the relationships among individual genomes and metagenomic samples. Firstly, methods to estimate the order and the transition probability matrix and their asymptotic distributions will be developed. Methods to infer variable length Markov chains (VLMC) will also be developed. Secondly, new alignment-free statistics taking into account the Markov chain (MC) properties of the sequences will be developed to study the relationships among genome sequences. Iterative approaches for choosing the word length will be developed. Thirdly, Markov chain models derived from NGS reads will be used to identify species or strains in metagenomic communities and to compare metagenomic samples based on the MC models. Finally, a suite of computer algorithms related to the inference of MCs based on NGS reads and applications to genome and metagenomic data analysis will be developed. The broad impacts of the project include computational tools for genome and metagenome comparison based on NGS data together with software packages for public usage, graduate and undergraduate training across multiple disciplines of statistics and biology, and outreach lectures for K-12 teachers and students.
高通量下一代测序(NGS)技术产生了大量的片段化基因组序列,彻底改变了遗传学和基因组学研究。已经使用NGS对数千个个体基因组和宏基因组进行了测序,所述个体基因组和宏基因组由来自各种环境的个体生物体的天然混合物组成。这些发展在理解复杂疾病的遗传基础、环境对公共健康的影响、环境变化(如全球变暖和污染)对环境的影响以及包括病毒在内的病原体的检测方面发挥了重要作用。开发充分利用NGS数据的分析方法对于促进公共卫生、改善环境和加强国家安全至关重要。虽然在分析国家一般统计数据方面取得了重大进展,但在现有分析工具与通过分析国家一般统计数据可以实现的全部潜力之间仍存在很大差距。该研究项目旨在进一步推进最近开发的统计和计算方法,用于使用NGS读数比较基因组和宏基因组,而不需要组装成基因组,避免许多使组装成为问题的陷阱。这项研究将使计算工具更加有效和强大,并将利用它们来分析宏基因组数据,以研究环境因素对海洋微生物群落的影响。算法和结果都将通过网络传播。本研究的结果将对不同环境下的基因组学和宏基因组学研究具有重要意义。更详细地说,将开发基于NGS短读段的分子序列马尔可夫性质推断的统计和计算方法,然后将该方法用于研究个体基因组和宏基因组样本之间的关系。首先,将发展估计阶和转移概率矩阵及其渐近分布的方法。还将开发推断可变长度马尔可夫链(VLMC)的方法。第二,考虑到序列的马尔可夫链(MC)特性,新的无约束统计量将被开发用于研究基因组序列之间的关系。将开发用于选择单词长度的迭代方法。第三,从NGS读取衍生的马尔可夫链模型将用于识别宏基因组群落中的物种或菌株,并基于MC模型比较宏基因组样品。最后,将开发一套与基于NGS读数的MC推断以及基因组和宏基因组数据分析的应用相关的计算机算法。该项目的广泛影响包括基于NGS数据的基因组和宏基因组比较的计算工具,以及供公众使用的软件包,跨统计学和生物学多个学科的研究生和本科生培训,以及K-12教师和学生的外联讲座。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Fengzhu Sun其他文献

HiCzin: Normalizing metagenomic Hi-C data and detecting spurious contacts using zero-inflated negative binomial regression
HiCzin:使用零膨胀负二项式回归标准化宏基因组 Hi-C 数据并检测虚假接触
  • DOI:
    10.1101/2021.03.01.433489
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yuxuan Du;S. Laperriere;J. Fuhrman;Fengzhu Sun
  • 通讯作者:
    Fengzhu Sun
On the use of population-based registries in the clinical validation of genetic tests for disease susceptibility
基于人群的登记在疾病易感性基因检测临床验证中的应用
  • DOI:
    10.1097/00125817-200005000-00005
  • 发表时间:
    1999
  • 期刊:
  • 影响因子:
    8.8
  • 作者:
    Quanhe Yang;M. Khoury;S. Coughlin;Fengzhu Sun;Dana Flanders
  • 通讯作者:
    Dana Flanders
Bidirectional subsethood of shared marker profiles enables accurate virus classification
  • DOI:
    10.1186/s40168-025-02159-x
  • 发表时间:
    2025-07-24
  • 期刊:
  • 影响因子:
    12.700
  • 作者:
    Christopher Riccardi;Yuqiu Wang;Shibu Yooseph;Fengzhu Sun
  • 通讯作者:
    Fengzhu Sun
Comparison of the effectiveness of different normalization methods for metagenomic cross-study phenotype prediction under heterogeneity
异质性下宏基因组交叉研究表型预测不同归一化方法的有效性比较
  • DOI:
    10.1038/s41598-024-57670-2
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    4.6
  • 作者:
    Beibei Wang;Fengzhu Sun;Y. Luan
  • 通讯作者:
    Y. Luan
Microsatellite mutations during the polymerase chain reaction: mean field approximations and their applications.
聚合酶链式反应过程中的微卫星突变:平均场近似及其应用。
  • DOI:
    10.1016/s0022-5193(03)00155-3
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    2
  • 作者:
    Yinglei Lai;Fengzhu Sun
  • 通讯作者:
    Fengzhu Sun

Fengzhu Sun的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Fengzhu Sun', 18)}}的其他基金

MIM: Machine Learning, Systems Modeling, and Experimental Approaches to Understand the Universal Rules of Life of Microbiota Using Marine Time Series Data
MIM:利用海洋时间序列数据了解微生物群生命普遍规则的机器学习、系统建模和实验方法
  • 批准号:
    2125142
  • 财政年份:
    2022
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Computational and Mathematical Study in Protein Interactions and Functions
蛋白质相互作用和功能的计算和数学研究
  • 批准号:
    0241102
  • 财政年份:
    2003
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant

相似国自然基金

信息网络环境下Markovian跳变系统安全运行控制方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
Semi-Markovian切换系统的动态滑模控制及逗留时间和模式依赖滑模控制器研究
  • 批准号:
    61973075
  • 批准年份:
    2019
  • 资助金额:
    59.0 万元
  • 项目类别:
    面上项目
几类广义Markovian跳变系统的控制方法研究
  • 批准号:
    61603055
  • 批准年份:
    2016
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
中立型Markovian跳变随机微分方程系统稳定与控制
  • 批准号:
    61573007
  • 批准年份:
    2015
  • 资助金额:
    51.0 万元
  • 项目类别:
    面上项目
Semi-Markovian跳跃系统的分析、控制综合与状态估计研究
  • 批准号:
    61503091
  • 批准年份:
    2015
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
Markovian 跳变广义随机切换系统的稳定性及滑模控制与应用研究
  • 批准号:
    61473097
  • 批准年份:
    2014
  • 资助金额:
    78.0 万元
  • 项目类别:
    面上项目
广义Markovian跳跃系统的故障诊断及容错控制研究
  • 批准号:
    61203041
  • 批准年份:
    2012
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
网络环境下Markovian跳跃系统的建模与控制综合
  • 批准号:
    61104101
  • 批准年份:
    2011
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
特殊Non-Markovian系统中多能级原子的动力学特性研究
  • 批准号:
    10674037
  • 批准年份:
    2006
  • 资助金额:
    24.0 万元
  • 项目类别:
    面上项目

相似海外基金

Hypoelliptic and Non-Markovian stochastic dynamical systems in machine learning and mathematical finance: from theory to application
机器学习和数学金融中的亚椭圆和非马尔可夫随机动力系统:从理论到应用
  • 批准号:
    2420029
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Thermodynamics of non-Markovian open quantum systems
非马尔可夫开放量子系统的热力学
  • 批准号:
    23KF0293
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ExpandQISE: Track 1: Analog quantum simulation of non-Markovian dynamics of multi-qubit systems
ExpandQISE:轨道 1:多量子位系统非马尔可夫动力学的模拟量子模拟
  • 批准号:
    2328948
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Finite Temperature Simulation of Non-Markovian Quantum Dynamics in Condensed Phase using Quantum Computers
使用量子计算机对凝聚相非马尔可夫量子动力学进行有限温度模拟
  • 批准号:
    2320328
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
Hypoelliptic and Non-Markovian stochastic dynamical systems in machine learning and mathematical finance: from theory to application
机器学习和数学金融中的亚椭圆和非马尔可夫随机动力系统:从理论到应用
  • 批准号:
    2306769
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CAREER: Model-based compression and probabilistic analysis of non-Markovian sequences
职业:非马尔可夫序列的基于模型的压缩和概率分析
  • 批准号:
    2144974
  • 财政年份:
    2022
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
Memory matters: Beyond Markovian models of rare event kinetics
记忆很重要:超越罕见事件动力学的马尔可夫模型
  • 批准号:
    2729830
  • 财政年份:
    2022
  • 资助金额:
    $ 60万
  • 项目类别:
    Studentship
Variational structures, convergence to equilibrium and multiscale analysis for non-Markovian systems
非马尔可夫系统的变分结构、均衡收敛和多尺度分析
  • 批准号:
    EP/V038516/1
  • 财政年份:
    2022
  • 资助金额:
    $ 60万
  • 项目类别:
    Research Grant
Analysing Non-Markovian Open Quantum Systems to Understand the Role of the External Environment in Cryptochrome-Based Magnetoreception
分析非马尔可夫开放量子系统以了解外部环境在基于隐花色素的磁接收中的作用
  • 批准号:
    2693369
  • 财政年份:
    2022
  • 资助金额:
    $ 60万
  • 项目类别:
    Studentship
Inferring the Past on Markovian Models of Networks
根据马尔可夫网络模型推断过去
  • 批准号:
    2113671
  • 财政年份:
    2021
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了