基于统计特征和双端读数的scaffolding方法研究
结题报告
批准号:
61602156
项目类别:
青年科学基金项目
资助金额:
20.0 万元
负责人:
罗军伟
依托单位:
学科分类:
F0213.生物信息计算与数字健康
结题年份:
2019
批准年份:
2016
项目状态:
已结题
项目参与者:
薛霄、刘志中、王俊峰、张霄宏、刘东华、孙浩、扣彦敏、施曼
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
通过从头序列组装方法获得基因组序列是基因组学研究的基础。Scaffolding是从头序列组装中的关键步骤,它推断contigs之间的方向和顺序关系,能够使组装结果更加连续和完整,因此如何设计高效准确的scaffolding方法是需要解决的重要问题。本项目将通过挖掘和分析双端读数的统计特征对scaffolding方法展开研究。首先,基于同一contig相邻子区域中双端读数的多种特征变化,识别是否发生连接错误以及错误类型。其次,基于两个contigs之间相关双端读数的分布特征,提出一种更准确的contigs关联图构建方法。最后,通过对contigs关联图进行划分以减少后续的运算规模,并设计优化模型和算法确定contigs之间的方向和顺序关系。本项目的研究将为获取完整和准确的基因组序列,以及理解生命活动的内在组织和过程提供帮助。
英文摘要
Acquiring genome sequence by de novo sequence assembly tool is the foundation of genomics research. Scaffolding is the key step of de novo sequence assembly which infers the orientations and order of contigs, scaffolding is capable of producing more continuous and complete assembly results, how to develop efficient and correct scaffolding method is an important issue to be resolved. This project will be implemented based on mining and analyzing statistical characters of paired reads. Firstly, this project identifies the linking errors and categories based on the difference about characteristics of paired reads between two adjacent sub-regions in one contig. Secondly, based on the distribution of paired reads between two contigs, this project presents a more precise method to construct correlation graph of contigs. Finally, this project introduces one algorithm for partitioning correlation graph of contigs to reduce computing cost in the following steps, and designs optimization model and algorithm to determine the orientations and order of all contigs. This research is useful to get more complete and correct genome sequence, and will be helpful to understand the organization and process of life activities.
获取完整的基因组序列是基因组学研究的基础。现有的基因组测序技术不能直接获得完整的基因组序列,而是得到一些序列片段,即读数(read)。从头序列组装(de novo assembly)是在没有参考信息的情况下,研究如何利用读数恢复出完整的基因组序列。Scaffolding是序列组装中的一个重要步骤,它可以使序列组装结果更加连续和完整,这有助于后续基因识别,基因组比对,结构变异检测等研究,是从头序列组装研究中的热点之一。本项目重点研究如何利用读数和contigs之间的比对特征设计高效准确的scaffolding方法。本项目首先通过分析同一contig 中相邻子区域上双端读数insert size和GC含量特征的变化,利用统计学方法研究设计了一种新的contigs错误检测和纠错方法。其次,本项目基于两个contigs之间能够比对上的双端读数insert size分布变化,确定scaffold图中一条边是否添加以及权重大小,并利用迭代策略和线性规划的方法进一步消除scaffold图中的冲突,进而提出了一种基于scaffold图优化的scaffolding方法。然后,本项目研究分析长读数和contigs之间的比对特征,设计了一种识别重复区contigs的方法,并提出了一种基于长读数和contigs分类的scaffolding方法。最后,本项目充分分析长短读数的各自优势和劣势,研究设计了一种基于长短读数结合的scaffolding方法。总之,该项目针对序列组装中的scaffolding方法进行了深入的研究,在理论与方法上取得了较好的研究成果,提出了scaffolding研究的新思路与新方法。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:10.1109/tcbb.2018.2789909
发表时间:2020-05
期刊:IEEE/ACM Transactions on Computational Biology and Bioinformatics
影响因子:--
作者:Junwei Luo;Jianxin Wang;Juan Shang;Huimin Luo;Min Li;Fangxiang Wu;Yi Pan
通讯作者:Junwei Luo;Jianxin Wang;Juan Shang;Huimin Luo;Min Li;Fangxiang Wu;Yi Pan
SLR: a scaffolding algorithm based on long reads and contig classification
SLR:一种基于长读长和重叠群分类的支架算法
DOI:10.1186/s12859-019-3114-9
发表时间:2019-10-30
期刊:BMC BIOINFORMATICS
影响因子:3
作者:Luo, Junwei;Lyu, Mengna;Yan, Chaokun
通讯作者:Yan, Chaokun
Deletion Detection Method Using the Distribution of Insert Size and a Precise Alignment Strategy
利用插入片段大小分布和精确比对策略的缺失检测方法
DOI:10.1109/tcbb.2019.2934407
发表时间:2019-08
期刊:IEEE/ACM Transactions on Computational Biology and Bioinformatics
影响因子:--
作者:Zhen Zhang;Junwei Luo;Juan Shang;Mi Li;Fang-xiang Wu;Yi Pan;Jianxin Wang
通讯作者:Jianxin Wang
BOSS: a novel scaffolding algorithm based on an optimized scaffold graph
BOSS:一种基于优化脚手架图的新型脚手架算法
DOI:10.1093/bioinformatics/btw597
发表时间:2017-01-15
期刊:BIOINFORMATICS
影响因子:5.8
作者:Luo, Junwei;Wang, Jianxin;Wu, Fang-Xiang
通讯作者:Wu, Fang-Xiang
DOI:10.1159/000501652
发表时间:2019-09-01
期刊:HUMAN HEREDITY
影响因子:1.8
作者:Yan, Chaokun;Ma, Jingjing;Luo, Junwei
通讯作者:Luo, Junwei
基于高阶读数的拓扑关联结构域识别和比对方法研究
  • 批准号:
    62372156
  • 项目类别:
    面上项目
  • 资助金额:
    50万元
  • 批准年份:
    2023
  • 负责人:
    罗军伟
  • 依托单位:
基于长短读数结合的结构变异检测方法研究
  • 批准号:
    61972134
  • 项目类别:
    面上项目
  • 资助金额:
    59.0万元
  • 批准年份:
    2019
  • 负责人:
    罗军伟
  • 依托单位:
国内基金
海外基金