高通量测序下微生物群落的比较、分析与理解

批准号:
61673324
项目类别:
面上项目
资助金额:
57.0 万元
负责人:
王颖
依托单位:
学科分类:
F0304.系统工程理论与技术
结题年份:
2020
批准年份:
2016
项目状态:
已结题
项目参与者:
杨帆、曾丰、肖传兴、任洁、王刻奇、王鲲、廖伟楠、楼端君、刘琳静
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
微生物群落是地球上生物多样性最丰富的资源,揭秘微生物群落对人类健康、自然环境及农业等领域意义重大。高通量测序为探寻微生物群落提供准确到核酸层面的有力数据。现有的研究主要基于微生物物种的基因组或16S rRNA参考序列,分析结果较为粗糙或不完整。基于序列特征的方法不依赖参考序列,但在高通量测序数据上的应用刚起步,其模型准确性、信息细致性和实际操作性有待完善。..本研究将构建高通量测序数据下微生物群落的高性能计算平台,基于不同的信息粒度逐步深入进行不同层面的生物分析。①不依赖参考序列,建立自适应统计模型衡量微生物群落的Beta多样性;②通过长特征序列识别不同类别微生物群落的特异物种/基因;③基于序列分布统计特性分析群落的物种结构组分;④在以上研究基础上,构建微生物群落比较、分析方法体系,设计后续的生物注释,建立开源、并行的计算平台,帮助研究同行全面理解人体及自然环境中的各类微生物群落。
英文摘要
Microbial communities have the richest biological diversity on the Earth. It is significant to reveal the microbial communities for the human healthy, environment and agriculture. High throughput sequencing technique offers accurate nucleotide sequences to explore the microbial communities. Most of the previous studies were alignment-based on reference sequences, which lead to the roughness and incompleteness of the analysis. The alignment-free methods on sequence signatures for high throughput sequencing data were initially developed , and their accuracy and feasibility are far from satisfactory. .. This proposal is going to build an efficient computational platform for analyzing microbial communities on high throughput sequencing data. Biological analysis of different levels are designed on different granularity. (1)Free from reference sequences, the adaptive statistical model to measure the Beta diversity of communities will be developed. (2)The specific species and genes will be identified based on the feature selection and classification on high-dimension sequence signatures. (3)The community profiling will be analyzed with semi-supervised clustering on statistical characteristics. (4)In the proposal, the methodology for comparison, analysis and understanding of microbial communities will be constructed, and the further biological annotations will be designed. The computational platform is going to give a comprehensive exploration and understanding of microbial communities.
本项目基于高通量测序数据,对微生物群落的比较、分析与理解展开研究工作。项目进行的四年中,我们建立比较不同群落、识别不同类别群落差异标记物的模型,构建群落内部物种结构的估计算法,并代码实现提出的模型和算法,建立高性能工作流计算平台,实现不依赖于参考序列的微生物群落的比较、分析和理解。.首先,项目组提出基于高通量测序数据的变阶次马尔科夫模型和模型中参数的最优选择策略,解决不同微生物群落相异度计算的定阶次马尔科夫模型的最优阶次没有先验知识确定、实际应用困难的问题;该模型运用于鲍鱼新老品种肠道菌群的比较中,得到显著的结果和有意义的生物解释。.其次,项目组给出宏基因组测序数据的聚类改善模型,明显提高了现有的五个长序列无监督聚类工具的聚类效果;同时建立基因组碱基序列的压缩表示算法,并通过高效快速的比对算法实现未知序列的快速精准数据库比对。.再次,项目组提出以长k-tuple(>30bp)为特征,基于宏基因组测序数据寻找两组不同类别(例如病人和健康人)的特异性长k-tuple特征,进而拼装出长序列标记物;该模型被开发为友好高效的代码和图形化的运行软件。同时,基于微生物群落的丰度和序列相似性所构建的物种相互作用关系图,项目组提出基于图嵌入模型的微生物功能估计模型,为未知生物的功能预测提供有益的参考。.在基金资助下,本项目顺利开展,完成预期目标。项目组从微生物群落间的比较、群落内的分析和比较层面,系统地对微生物群落的相异度计算模型、统计模型和比较模型与方法进行研究,取得一系列进展,共发表论文12篇,获批发明专利2项,软件著作权1项,申请发明专利3项。本项目从计算的角度为微生物群落的比较提供有益的工具和视角,为运用信息科学的理论与方法解决生命科学的关键问题提供新模型、新方法和计算平台。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:10.3389/fgene.2020.608512
发表时间:2020
期刊:Frontiers in genetics
影响因子:3.7
作者:Hou Y;Zhang X;Zhou Q;Hong W;Wang Y
通讯作者:Wang Y
KmerGO: A Tool to Identify Group-Specific Sequences With k-mers
KmerGO:使用 k-mers 识别特定组序列的工具
DOI:10.3389/fmicb.2020.02067
发表时间:2020-08-25
期刊:FRONTIERS IN MICROBIOLOGY
影响因子:5.2
作者:Wang, Ying;Chen, Qi;Sun, Fengzhu
通讯作者:Sun, Fengzhu
Alignment-free Transcriptomic and Metatranscriptomic Comparison Using Sequencing Signatures with Variable Length Markov Chains.
使用可变长度马尔可夫链的测序特征进行无比对转录组和元转录组比较
DOI:10.1038/srep37243
发表时间:2016-11-23
期刊:Scientific reports
影响因子:4.6
作者:Liao W;Ren J;Wang K;Wang S;Zeng F;Wang Y;Sun F
通讯作者:Sun F
An Adaptive Robust Semi-Supervised Clustering Framework Using Weighted Consensus of Random k-Means Ensemble
使用随机 k 均值集成的加权一致性的自适应鲁棒半监督聚类框架
DOI:10.1109/tkde.2019.2952596
发表时间:2021-05-01
期刊:IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
影响因子:8.9
作者:Lai, Yongxuan;He, Songyao;Zhou, Xiaofang
通讯作者:Zhou, Xiaofang
Identifying Group-Specific Sequences for Microbial Communities Using Long k-mer Sequence Signatures.
使用长 k 聚体序列特征识别微生物群落的组特异性序列
DOI:10.3389/fmicb.2018.00872
发表时间:2018
期刊:Frontiers in microbiology
影响因子:5.2
作者:Wang Y;Fu L;Ren J;Yu Z;Chen T;Sun F
通讯作者:Sun F
宏基因组数据的多尺度度量与多态相关性分析
- 批准号:62173282
- 项目类别:面上项目
- 资助金额:58万元
- 批准年份:2021
- 负责人:王颖
- 依托单位:
高通量RNA-Seq数据的偏差建模和差异表达基因识别
- 批准号:61203282
- 项目类别:青年科学基金项目
- 资助金额:24.0万元
- 批准年份:2012
- 负责人:王颖
- 依托单位:
国内基金
海外基金
