多核系统下调控模式识别的MapReduce模型及算法研究

批准号:
61173025
项目类别:
面上项目
资助金额:
55.0 万元
负责人:
霍红卫
依托单位:
学科分类:
F0214.新型计算及其应用基础
结题年份:
2015
批准年份:
2011
项目状态:
已结题
项目参与者:
霍秋艳、罗雪梅、于强、张懿璞、郭海涛、欧阳雄、陈昆、高培、黄宁
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
调控模式识别是生物信息学研究领域中的一个基本问题。研究表明,现有方法对保守模式预测的准确程度,无论在碱基水平还是在结合位点水平都较低。在本项目中,我们以改善调控模式的识别算法的准确度和性能为基本目标,充分利用当前多核系统的处理器所提供的高效的计算性能以及多线程和多进程的并行处理技术,提出一种基于多核系统的MapReduce模型;其次,引入位点之间的局部构象信息,建立TFBS与转录起始位点之间距离的分布特征及约束关系,从而建立调控模式的模体模型。提出一种调控模式识别的MapReduce算法,降低算法的时间复杂度,提高对于长序列和特征微弱模式识别的准确程度;最后,通过对JASPAR、TRANSFAC等数据库的统计特征分析,研究调控模式位点的分布特征,设计有效和精确的P-value计算方法。在此基础上,建立多核系统上有效解决数据密集型和计算密集型问题的一种新的计算模型。
英文摘要
(1) 项目的背景.转录因子结合位点 (Transcription Factor Binding Site,TFBS)又被称为顺式调控元件 (Cis-regulatory Element)。在生物信息学中也称为模式或模体 (motif)。识别这些控制基因表达的顺式调控元件,以及表征它们与各自转录因子的相互作用,不仅对于构建转录调控网络,而且对于解释有机物复杂的起源和进化有着重要的意义。.(2) 主要研究内容.本项目以改善调控模式识别算法的准确性和性能为基本目标,研究调控模式识别的高效精确算法;建立MapReduce框架下调控模式识别的模型,提高对于长序列、大字符集和特征微弱模式识别的准确程度;研究转录因子结合位点分布的统计特征,建立调控模式识别的统计方法;实现一个调控模式识别的软件系统原型。.(3) 重要结果.在模体发现的精确算法和近似算法方面做出了较好的工作。主要包括:提出了MapReduce框架下大数据集(ChIP-seq数据集)上子串挖掘方法和模体发现算法MCES;提出了MapReduce框架下精确模体识别的数据划分方法PMSPMR,PMSPMR算法具有良好的可扩展性,加速比接近于线性;建立了模体stem首个正则表达式表示方式,提出了大字符集(蛋白质序列)上高效的stem搜索算法(StemFinder);提出了结合概率分析的模体发现的近似算法PairMotif+。建立了高阶熵压缩的参考基因组序列的自索引结构,并基于此结构进行空间高效的短读序列比对。.(4) 关键数据及科学意义.我们在本领域重要刊物IEEE/ACM Transactions on Computational Biology and Bioinformatics (JCR = 2)等和重要会议IEEE International Conference on Bioinformatics and Biomedicine (CCF B类会议)和IEEE Data Compression Conference (CCF B类会议) 等发表了15篇论文(其中8篇论文为刊物论文,7篇为会议论文),SCI检索6篇,EI检索9篇。开发了可在Google和GitHub上访问的软件。这些研究成果为进一步研究高通量测序数据集的结构模体发现,在基因组水平上探索基因的表达调控机制奠定了较好的基础。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2013
期刊:中国科技论文
影响因子:--
作者:霍红卫;于强;牛伟
通讯作者:牛伟
DOI:10.1142/s0219720013500091
发表时间:2013-07
期刊:Journal of bioinformatics and computational biology
影响因子:1
作者:Yipu Zhang;Hongwei Huo;Qiang Yu
通讯作者:Yipu Zhang;Hongwei Huo;Qiang Yu
DOI:--
发表时间:2012
期刊:计算机学报
影响因子:--
作者:郭丹丹;于强;张懿璞;牛伟
通讯作者:牛伟
An Efficient Algorithm for Discovering Motifs in Large DNA Data Sets
一种在大型 DNA 数据集中发现基序的有效算法
DOI:10.1109/tnb.2015.2421340
发表时间:2015-07-01
期刊:IEEE TRANSACTIONS ON NANOBIOSCIENCE
影响因子:3.9
作者:Yu, Qiang;Huo, Hongwei;Huan, Jun
通讯作者:Huan, Jun
PairMotif: A new pattern-driven algorithm for planted (l, d) DNA motif search.
PairMotif:一种新的模式驱动算法,用于植入 (l, d) DNA 基序搜索。
DOI:10.1371/journal.pone.0048442
发表时间:2012
期刊:PloS one
影响因子:3.7
作者:Yu Q;Huo H;Zhang Y;Guo H
通讯作者:Guo H
泛基因组的高阶熵压缩索引与检索
- 批准号:--
- 项目类别:面上项目
- 资助金额:54万元
- 批准年份:2022
- 负责人:霍红卫
- 依托单位:
大规模序列数据集的压缩索引与搜索算法研究
- 批准号:61373044
- 项目类别:面上项目
- 资助金额:75.0万元
- 批准年份:2013
- 负责人:霍红卫
- 依托单位:
国内基金
海外基金
