病毒基因空间几何算法研究和对新病毒威胁快速探测及预警
结题报告
批准号:
31271408
项目类别:
面上项目
资助金额:
60.0 万元
负责人:
丘成栋
依托单位:
学科分类:
C0608.生物数据资源与分析方法
结题年份:
2016
批准年份:
2012
项目状态:
已结题
项目参与者:
杨杰、于成龙、袁北彗
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
本项目计划构建基于自然向量的病毒基因组数据库, 并用它快速检测来自新病毒的威胁。.1.确定病毒的自然向量表示和基因组空间。考虑病毒基因组序列中的核甘酸的数量以及分布情况,将每个序列表示成一个数值向量(自然向量)。可以证明,序列和自然向量之间是一一对应。两个病毒之间的生物距离可以用它们所对应的自然向量的几何距离来刻画。自然向量所构成的空间可以看成是一个多维欧式空间的子空间,即基因组空间。.2.建立病毒基因组数据库。存储所有已知病毒基因组序列的自然向量。与现有的数据库不同,本数据库将支持对所有已知的病毒进行同时的比较分析。现有方法中,只有自然向量法可以完成这个任务。.3.新病毒威胁预警。在获得新病毒序列信息基础上,快速计算出其相应的自然向量并与我们数据库中的自然向量作对比。距离相近的自然向量所对应的病毒可能具有类似性质特点。通过分析与新病毒相近的已知病毒的毒性和传播方式,对新病毒作出预警报告。
英文摘要
In this proposal, we construct the natural vectors for DNA/genome sequences. The parameters used here are based on the numbers and distributions of nucleotides in the sequence, which is a natural way to describe these sequences. To each DNA sequence we associate a natural sequence of parameters, called a natural vector, describing the numbers and distributions of nucleotides in the sequence. We show that the correspondence between a natural vector and a DNA sequence is one-to-one. A natural distance between two DNA sequences is the distance between their corresponding natural vectors. This creates a genome space with biological distance, which allows us to do phylogenetic analysis in the most natural and easiest manner. . The classification model based on permanent process is proposed to do clustering and classification of the natural vectors. Unlike many research works in the literature of classification problems, this classification model assumes only exchangeability instead of independence on observations. It has a mathematical framework allowing the existence of previously unobserved classes. Regardless of the number of classes or the dimension of the feature variables, the proposed model may require only 2-3 parameters for fitting the covariance structure within clusters. Due to the flexibility of the underlying permanent process, the model works well even if the class occupies non-convex, disjoint regions, or regions overlapped with other classes in the feature space. It is ideal for the classification and clustering problems in the natural vector genome space. . The first goal of this project is to construct and maintain a database of "natural vector bank" to store all natural vectors of virus genome sequences. Then we need to do clustering on those natural vectors. The HRV example in this proposal shows the clustering results based on natural vectors are biologically meaningful. Considering the exponentially increasing size of known genome database, the natural vector method is the only feasible approach so far to cluster the genome space. In a pilot study of 27,643 genome sequences, it takes only a couple of hours using natural vector method to compute all the pairwise distances, while it will take four years using the classical multiple alignment methods.. The ultimate goal of this project is to detect threats from new viruses. Having obtained the natural vector corresponding to the new virus, we can locate the new virus in the genome space. The closer distance from a virus to a known cluster represents the more similarities between them. The similarities indicate that the new virus and other viruses in the closest cluster have the similar functions or behavior patterns.
病毒是一种个体微小、结构简单的非细胞型生物,在自然界分布极为广泛,能够对人类活动产生巨大的影响。对病毒进行分类是开始理解和研究病毒十分关键的一步。分析病毒的进化关系,从分子水平上重构病毒系统发育树,成为病毒分类的一种十分有效的方式。然而基于病毒个体微小,在生物学中通过实验难以实现对其正确、细致的分类。. 本项目的研究内容是构建基于自然向量的病毒基因组数据库, 并用它快速检测来自新病毒的威胁。在获得新病毒序列信息基础上,快速计算出其相应的自然向量并与我们数据库中的自然向量作对比。距离相近的自然向量所对应的病毒可能具有类似的功能和传播方式。通过分析与新病毒相近的已知病毒的性质,对新病毒作出预警报告。. 整个项目中,我们在高影响因子杂志上共发表了18篇学术论文。通过对病毒数据库中所有单片段病毒基因组的分析,我们发现采用12维自然向量能够很好地表示病毒基因组,可以获得准确的分类结果。我们建立了病毒基因组的12维自然向量数据库,存储所有已知病毒基因组序列的自然向量。该数据库能够对所有病毒进行任何分类等级上的比较。现有方法中,只有自然向量法可以完成这个艰巨任务。对于多片段病毒,我们将它的每一个片断都转化为12维自然向量,然后采用Hausdorff距离来衡量自然向量的集合之间的距离,实现对多片段病毒的比较和分类。这种方法可以统一对单片段和多片段病毒做序列比较和进化分析,克服了上述进化树不一致的主要困难。我们提出了一种新的数学上严格证明的Yau-Hausdorff距离。该距离可以衡量二维曲线的相似程度,并在曲线旋转和平移情况下,保持不变。利用基因和蛋白质的二维图形表示,该距离可以有效地运用于不同物种的进化分析。此外,我们还首次提出,利用凸包方法分析所有蛋白质序列。我们发现由蛋白质的序列的自然向量组成的60维凸包中,非蛋白质的任意氨基酸序列不包含在这个凸包中。这项成果在病毒蛋白质序列分析上的意义重大,可以有效地用于发现病毒蛋白质。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Protein space: A natural method for realizing the nature of protein universe
蛋白质空间:认识蛋白质宇宙本质的自然方法
DOI:10.1016/j.jtbi.2012.11.005
发表时间:2013-02-07
期刊:JOURNAL OF THEORETICAL BIOLOGY
影响因子:2
作者:Yu, Chenglong;Deng, Mo;Yau, Stephen S. -T.
通讯作者:Yau, Stephen S. -T.
Protein sequence comparison based on K-string dictionary
基于K字符串字典的蛋白质序列比对
DOI:10.1016/j.gene.2013.07.092
发表时间:2013-10-01
期刊:GENE
影响因子:3.5
作者:Yu, Chenglong;He, Rong L.;Yau, Stephen S. -T.
通讯作者:Yau, Stephen S. -T.
Ebolavirus Classification Based on Natural Vectors
基于自然载体的埃博拉病毒分类
DOI:10.1089/dna.2014.2678
发表时间:2015-06-01
期刊:DNA AND CELL BIOLOGY
影响因子:3.1
作者:Zheng, Hui;Yin, Changchuan;Yau, Stephen S. -T.
通讯作者:Yau, Stephen S. -T.
Virus classification in 60-dimension protein space
60维蛋白质空间中的病毒分类
DOI:--
发表时间:2016
期刊:Molecular Phylogenetics and Evolution
影响因子:4.1
作者:Kun Tian;Changchuan Yin;Rong Lucy He;丘成栋
通讯作者:丘成栋
A New Method for Studying the Evolutionary Origin of the SAR11 Clade Marine Bacteria
研究 SAR11 进化枝海洋细菌进化起源的新方法
DOI:--
发表时间:2016
期刊:Molecular Phylogenetics and Evolution
影响因子:4.1
作者:Xin Zhao;Xiaogeng Wan;Rong L. He;丘成栋
通讯作者:丘成栋
病毒基因组的几何空间及其在病毒特别是新冠病毒中的应用
  • 批准号:
    12171275
  • 项目类别:
    面上项目
  • 资助金额:
    50万元
  • 批准年份:
    2021
  • 负责人:
    丘成栋
  • 依托单位:
奇点,李代数,非线性滤波中的几何应用
  • 批准号:
    11961141005
  • 项目类别:
    国际(地区)合作与交流项目
  • 资助金额:
    175万元
  • 批准年份:
    2019
  • 负责人:
    丘成栋
  • 依托单位:
预测未知的潜在病毒基因序列的研究与传染病预测平台
  • 批准号:
    91746119
  • 项目类别:
    重大研究计划
  • 资助金额:
    60.0万元
  • 批准年份:
    2017
  • 负责人:
    丘成栋
  • 依托单位:
复解析簇的局部和整体问题研究
  • 批准号:
    11531007
  • 项目类别:
    重点项目
  • 资助金额:
    230.0万元
  • 批准年份:
    2015
  • 负责人:
    丘成栋
  • 依托单位:
关于有限维非线性滤波分类和多项式滤波问题的研究
  • 批准号:
    11471184
  • 项目类别:
    面上项目
  • 资助金额:
    80.0万元
  • 批准年份:
    2014
  • 负责人:
    丘成栋
  • 依托单位:
国内基金
海外基金