集成学习框架下的DNA启动子分类及其甲基化预测研究
结题报告
批准号:
31860312
项目类别:
地区科学基金项目
资助金额:
39.0 万元
负责人:
肖绚
依托单位:
学科分类:
C0608.生物数据资源与分析方法
结题年份:
2022
批准年份:
2018
项目状态:
已结题
项目参与者:
程翔、许召春、王普、李芳、陈致敏、颜青玲、陈韦捷
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
启动子是基因表达调控的重要元件,深入研究启动子的结构和功能,是理解基因转录调控机制和表达模式的关键。DNA启动子分类和DNA甲基化已成为当前生物学和药理学研究热点问题,但通过生物实验方法确定这些信息存在很多问题,如成本高、周期长。随着生物技术和信息技术的发展,高通量测序数据的出现使得获取不同尺度、不同层面的多源生物信息成为可能。本项目将融合不同位置碱基的相互影响、碱基对的物理化学属性关系、序列遗传进化信息以及抽取高通量测序数据在基因转录起始位点附近的分布信息,利用基于序列本身的非平衡采样技术、特征选择策略,基于DNA离散灰色模型、模糊K近邻、支持向量机等模式识别算法所提供的有一定差异性和准确度集成学习所需的个体互补信息进一步提高融合决策的精度,建立在线启动子模式识别和其甲基化预测软件系统及数据库。项目的研究有助于推进不平衡生物数据挖掘技术的发展和为更好地构建基因调控网络奠定基础。
英文摘要
Promoters are important elements in regulation of the expression. To study the structure and function of a promoter deeply, it is the key to know the gene regulates its transcription and starts its expression. How to predict promoter classes and the DNA methylation site have become the focus of current biological and pharmacological, but there are many problems to determine these information through biological experimental methods, such as high cost, long cycle. With the fast development of biological and information technology, it is possible to make access to different scales and different levels of multi-source biological information based on high-throughput data. The project coordinate utilization of the information reflecting the interaction of the different positions of nucleotide, reflecting the physical and chemical properties of dinucleotides, reflecting the DNA sequence phylogenetic information and the high-throughput sequencing data, combining with the imbalance resample technique based on sequence and feature selection strategy, based on the complementary information provided by the DNA discrete gray model, fuzzy K-nearest neighbor, support vector machine and other pattern recognition algorithms generated the diverse and accurate component learners to further improve the accuracy of the integration of decision-making. We will develop online software system to identify promoter modes and DNA promoter methylation sites then create a database of complete genome annotation of promoters. These researches might promote the development of pattern recognition techniques on imbalanced datasets in bioinformatics and lay the foundation for the construction of a better regulatory network.
启动子是基因表达调控的重要元件,深入研究启动子的结构和功能,是理解基因转录调控机制和表达模式的关键。DNA启动子分类和DNA甲基化已成为当前生物学和药理学研究热点问题,但通过生物实验方法确定这些信息存在很多问题,如成本高、周期长。本项目提出了新的基于频率的one-hot编码和基于主成分分析的特征编码方法PCA_PseKNC,这些方法比现有序列特征提取方法相比能更好的提取序列特征,结合独热编码(Onehot)和基于核苷酸的性质和频率方法对启动子样本进行编码,基于堆叠的集成深度学习模型,融合了卷积神经网络、支持向量机、XGBoost 、LightGBM 模型等模式识别算法所提供的有一定差异性和准确度集成学习所需的个体互补信息进一步提高融合决策的精度,建立在线启动子模式识别和其甲基化预测软件系统及数据库。由于TATA-box启动子和强启动子在基因转录过程中发挥重要作用,项目设计了启动子TATA-box类型及强弱启动子类型分类预测器。人类癌症基因组的低甲基化和特定肿瘤抑制基因启动子的高甲基化是癌细胞快速增殖的重要原因,获得5甲基胞嘧啶(5mC)在启动子片段中的分布是进一步了解启动子甲基化与mRNA基因表达调控之间关系的关键步骤,项目设计了融合深度学习算法的启动子甲基化预测器,预测成功率处于国际先进水平。.项目还设计基于DNA甲基化的识别癌症及其类型、多种翻译后修饰位点预测器,提出了CNN-BiLSTM-SVM框架用于抗菌肽多标签功能类型预测等,设计了多种药物-蛋白质结合、药物副作用预测器,这些工作对药物设计都有辅助作用。项目共发表23篇SCI期刊论文,其中中科院SCI二区期刊5篇,授权三项发明专利,2020项目负责人入选美国斯坦福大学颁布的全球前2%顶尖科学奖榜单,2022年“生物序列信息挖掘研究”获得江西省自然科学奖二等奖。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
iAl-DSAE: A Computational Method for Adenosine to Inosine Editing Site Prediction
iAl-DSAE:腺苷到肌苷编辑位点预测的计算方法
DOI:10.2174/1570178615666181016112546
发表时间:2019
期刊:Letters in Organic Chemistry
影响因子:0.8
作者:Xu Zhao Chun;Xiao Xuan;Qiu Wang Ren;Wang Peng;Fang Xin Zhu
通讯作者:Fang Xin Zhu
iPSW(2L)-PseKNC: A two-layer predictor for identifying promoters and their strength by hybrid features via pseudo K-tuple nucleotide composition
iPSW(2L)-PseKNC:一种两层预测器,用于通过伪 K 元组核苷酸组成的杂交特征来识别启动子及其强度
DOI:10.1016/j.ygeno.2018.12.001
发表时间:2019
期刊:Genomics
影响因子:4.4
作者:Xiao Xuan;Xu Zhao Chun;Qiu Wang Ren;Wang Peng;Ge Hui Ting;Chou Kuo Chen
通讯作者:Chou Kuo Chen
Identifying Acetylation Protein by fusing its PseAAC and Functional Domain Annotation
通过融合 PseAAC 和功能域注释来识别乙酰化蛋白
DOI:10.3389/fbioe.2019.00311
发表时间:2019
期刊:Front. Bioeng. Biotechnol.
影响因子:--
作者:邱望仁;徐奥;许召春;张春花;肖绚
通讯作者:肖绚
Identifying GPCR-drug interaction based on wordbook learning from sequences
基于从序列中学习的单词书识别 GPCR-药物相互作用
DOI:10.1186/s12859-020-3488-8
发表时间:2020-04
期刊:BMC Bioinformatics
影响因子:3
作者:Wang Pu;Huang Xiaotong;Qiu Wangren;Xiao Xuan
通讯作者:Xiao Xuan
iPTT(2 L)-CNN: A Two-Layer Predictor for Identifying Promoters and Their Types in Plant Genomes by Convolutional Neural Network.
iPTT(2 L)-CNN:通过卷积神经网络识别植物基因组启动子及其类型的两层预测器
DOI:10.1155/2021/6636350
发表时间:2021
期刊:Computational and mathematical methods in medicine
影响因子:--
作者:Sun A;Xiao X;Xu Z
通讯作者:Xu Z
基于异构数据源与集成深度学习的药物副作用预测研究
  • 批准号:
    32260154
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    33万元
  • 批准年份:
    2022
  • 负责人:
    肖绚
  • 依托单位:
基于智能计算的蛋白质进化研究
  • 批准号:
    31560316
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    40.0万元
  • 批准年份:
    2015
  • 负责人:
    肖绚
  • 依托单位:
基于多源信息融合的受体和抗菌肽分层多标签分类预测模型研究
  • 批准号:
    31260273
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    50.0万元
  • 批准年份:
    2012
  • 负责人:
    肖绚
  • 依托单位:
基于符号学的景德镇陶瓷文化景观研究
  • 批准号:
    41061020
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    26.0万元
  • 批准年份:
    2010
  • 负责人:
    肖绚
  • 依托单位:
基于元胞自动机图的蛋白质序列离散灰色模型及其在药物设计中的应用研究
  • 批准号:
    60961003
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    18.0万元
  • 批准年份:
    2009
  • 负责人:
    肖绚
  • 依托单位:
基于粗粒化元胞自动机的生物序列可视化分析与病毒动力学模型研究
  • 批准号:
    60661003
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    24.0万元
  • 批准年份:
    2006
  • 负责人:
    肖绚
  • 依托单位:
国内基金
海外基金