ChIP-Seq数据的从头模体发现与RNA-Seq短序的从头组装算法研究

批准号:
61572358
项目类别:
面上项目
资助金额:
63.0 万元
负责人:
张少强
依托单位:
学科分类:
F0213.生物信息计算与数字健康
结题年份:
2019
批准年份:
2015
项目状态:
已结题
项目参与者:
杨炳儒、王振英、张桂芸、王浩丽、周曦国、李静、张莹
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
近几年,高通量的新一代测序技术彻底改变了遗传学研究,特别是 ChIP-Seq技术对DNA与蛋白质交互作用和RNA-Seq测序技术对转录组的分析的研究。在真核生物中多个蛋白质调节因子共同与其对应的顺式调控元件相互作用介导一个基因的转录调控。而ChIP-Seq实验提供了大量的转录因子结合位置数据。这些越来越多的新数据为识别真核生物顺式调控元件提供了前所未有的机遇,但挑战是我们如何高效使用这些 ChIP-Seq数据来识别基因组范围所有转录因子及其合作的辅调节因子的顺式调控元件。另外RNA-Seq实验提供了大量的转录组短序列,其拼接成的转录组被广泛用于比较样品基因水平表达差异。但现在迫切的问题是至今仍缺少令生物学家满意的短序列从头组装算法。因此本项目将整合ChIP-Seq数据进行大规模转录因子及辅因子的顺式调控元件模体预测的算法设计,及基于RNA-Seq的转录组短序列从头组装算法设计。
英文摘要
In recent years, the high-throughput next-generation sequencing (NGS) has revolutionized the study of genetics. Especially the ChIP-Seq and RNA-Seq technologies have been widely utilized in the study of DNA-protein interactions and the analysis of transcriptomes, respectively. In eukaryotes, the transcriptional regulation of a gene is usually mediated by the interactions of multiple collaborative protein regulators with their respective specific cis-regulatory elements (CRE). And the large number of transcription factor binding location data produced by ChIP-Seq technologies has provided an unprecedented opportunity to identify CREs in genomes. Nonetheless, how to effectively utilize the large volumes of ChIP-Seq data to identify the CREs of the transcription factors and co-factors in a whole genome is a challenging job. Besides, the RNA-Seq technologies produced a large number of short reads, which can be spliced into transcriptomes that are widely used to detect differential expressions of gene samples. The lack of algorithms satisfied by biologists for do novo assembling short reads is another urgent problem. Therefore, in this project, the novel algorithms will be proposed for prediction of CRE motifs of transcription factors and their cofactors by integrating large-scale ChIP-Seq datasets, and do novo assembly of RNA-Seq short reads, respectively.
基于新一代测序的高通量技术的开发使用,很大程度上改变了生物学家全基因组范围对大规模真核基因组表征顺式调控元件和通过转录组研究基因水平表达差异的方式。特别是为转录因子的顺式调控元件定位的染色质免疫共沉淀的高通量测序技术ChIP-Seq, 以及高通量的 RNA 测序技术RNA-Seq。本项目主要研究内容包括:(1)对某真核生物一个转录因子的 ChIP-Seq 数据集, 设计一个高效精确的模体发现算法工具,来预测该转录因子的顺式调控元件和模块;(2)针对不同生物体的 RNA-Seq 原始数据,尝试设计一套更加具有鲁棒性的从头转录组组装算法工具。针对第一项研究内容,项目组开发了一款超快的计算工具,命名为FisherMP,。该工具能够在一个大规模的ChIP-seq数据集中快速识别对应的转录因子及其辅调节因子的顺式调控元件。该算法:(1)能够在大量相对较长(长度大约与顺式调控模块的长度相当,约3000个碱基)的结合峰序列集合快速运行;(2)既能够识别出ChIP的转录因子的占大多数的顺式调控元件,也能够识别协同合作转录因子的其它顺式调控元件;(3)能够自动决定所识别的模体长度;(4)该算法是并行算法,运行速度是目前已知工具中最快的。为了整合所有预测的模体,项目组开发了模体聚类算法CLIMP,它是一种新的基于极大团的模体聚类算法,通过OpenMP并行化程序设计来提高计算速度,能够将FisherMP发现的模体进行聚类分析,找出真实的模体。通过不同ChIP-Seq数据集的比对发现该算法在性能和效率上优于其他聚类算法。针对第二项研究内容,项目组开发了一个转录组从头组装算法StepLink,该算法摒弃了传统的构建 De Bruijn 图的方法,运用双重哈希表进行快速检索,精度和速度都优于现有的算法。并且尝试运用布隆过滤器降低内存消耗。StepLink算法目前尚在继续完善。将加入新的特征,以便能够快速对单次测序10T左右的RNA-Seq数据进行快速拼接。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Investigating Evolutionary Dynamics of RHA1 Operons.
研究 RHA1 操纵子的进化动力学
DOI:10.4137/ebo.s39753
发表时间:2016
期刊:Evolutionary bioinformatics online
影响因子:--
作者:Chen Y;Geng D;Ehrhardt K;Zhang S
通讯作者:Zhang S
ProSampler: an ultrafast and accurate motif finder in large ChIP-seq datasets for combinatory motif discovery
ProSampler:大型 ChIP-seq 数据集中的超快且准确的基序查找器,用于发现组合基序
DOI:10.1093/bioinformatics/btz290
发表时间:2019-11-15
期刊:BIOINFORMATICS
影响因子:5.8
作者:Li, Yang;Ni, Pengyu;Su, Zhengchang
通讯作者:Su, Zhengchang
CLIMP: Clustering Motifs via Maximal Cliques with Parallel Computing Design.
CLIMP:通过并行计算设计的最大派系对主题进行聚类
DOI:10.1371/journal.pone.0160435
发表时间:2016
期刊:PloS one
影响因子:3.7
作者:Zhang S;Chen Y
通讯作者:Chen Y
DOI:--
发表时间:2018
期刊:计算机应用
影响因子:--
作者:冯艳霞;张志红;张少强
通讯作者:张少强
DOI:--
发表时间:2018
期刊:计算机科学
影响因子:--
作者:武思文;李静;张少强
通讯作者:张少强
真菌顺式调控模体与模块的全基因组范围计算预测
- 批准号:61103073
- 项目类别:青年科学基金项目
- 资助金额:22.0万元
- 批准年份:2011
- 负责人:张少强
- 依托单位:
国内基金
海外基金
