基于标准样品的Microarray与RNA-seq噪声分析与消除

批准号:
31601085
项目类别:
青年科学基金项目
资助金额:
18.0 万元
负责人:
郁颖
依托单位:
学科分类:
C0608.生物数据资源与分析方法
结题年份:
2019
批准年份:
2016
项目状态:
已结题
项目参与者:
郑媛婷、陈庚、侯湾湾、宋云杰、李冰樱、王晓林
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
表达谱芯片(Microarray)和转录组测序(RNA-seq)技术是基因表达检测的重要手段,但在实验设计、生物样品采集、RNA提取、文库构建方案、高通量测序平台、数据分析、实验室等方面容易引入误差,在数据中形成噪声和偏移,掩盖真实的生物学结果,影响结果可靠性,甚至导致错误的结论。申请人团队从2004年至今,使用相同的RNA标准样品,用不同的方法,在不同平台、实验室进行检查,已积累超过3千例表达谱数据,为研究系统噪声提供了独特的数据资源。申请人拟利用RNA标准样品,量化噪声来源,从差异基因检测和预测模型角度评估噪声特征和现有噪声消除方法对结果的影响,提出一套从实验设计到数据分析的有效控制噪声的指南,在此基础上建立参比数据库,为新的高通量技术和算法开发提供数据参考平台。本项目可提高结果的重复性和可靠性,对组学数据的有效应用和融合分析产生积极的影响,并最终为可靠的临床应用奠定基础。
英文摘要
Microarray and transcriptome sequencing (RNA-seq) technologies are powerful tools for measuring gene expression profiles. However, noises and biases are likely to be introduced into data due to inappropriate experimental design, biological sample acquisition, RNA extraction, library construction protocol, sequencing platform, data analysis pipeline, laboratory conditions, and so on. This becomes an important issue that may mask real biological signals of interest and may even lead to incorrect conclusions. Since 2004, we, by using the identical reference RNA samples, have accumulated large collections of expression data more than 3,000 runs, ranging from multiple protocols, platforms, and laboratory sites, providing a unique data resource for understanding the nature of measured noises. Using reference RNA samples, we propose to quantify the noises which have been introduced from design to data analysis, assess the effects of noises on the identification of differentially expressed genes and development of prediction model, evaluate the existing noise correction methods, put forward a set of guidelines from experimental design to data analysis for the purpose of effectively minimize noises and biases, and build a user-friendly database to benefit the new high-throughput techniques and algorithms. This project is expected to improve the repeatability and reliability of the genomic results, help data fusion, and build a solid foundation for proper application of gene expression profiles in precision medicine.
表达谱芯片(Microarray)和转录组测序(RNA-seq)技术是基因表达检测的重要手段,但在实验设计、生物样品采集、RNA提取、文库构建方案、高通量测序平台、数据分析、实验室等方面引入误差,在数据中形成噪声,影响数据结果,掩盖真实的生物学结果,甚至导致错误的结论。. 本研究利用四个标准RNA样品A、B、C和D,系统评估了不同测序平台、文库构建方法、测序仪器型号、批次、数据分析流程等对从基因表达定量、差异基因检测和预测模型3个不同角度评估对数据结果的影响,并比较了分位数校正、样本水平标准分数、基因水平标准分数、相对丰度和ComBat共5种不同校正方法对消除不同来源数据间差异的有效性。. 研究发现,上述的技术差异均会影响整体基因表达水平,甚至掩盖生物学差异。基因表达水平方面,不同平台、文库构建方法的基因表达水平存在的差异大于样本生物学差异,测序仪器型号、批次等对数据基因表达亦存在影响,可利用基因水平标准分数,相对丰度和ComBat校正能有效降低平台间基因表达水平的差异,满足数据整合分析的基本要求;在基因差异表达方面,采用相对丰度与ComBat校正方法既有效消除了平台间差异,又保证了数据分析结果的可靠性;在预测模型方面,样本水平标准分数和相对丰度的数据校正方法能增加基因芯片预测模型的跨平台可转化性,但对RNA-seq预测模型的可转化性影响较小;不同模型预测方法KNN、SVM或随机数森林三种分类算法之间差异并不明显。. 根据对标准物质RNA-seq数据分析和噪声消除的研究结果,提出一套从实验设计到数据分析的有效控制噪声指南,撰写RNA-seq实验与数据分析白皮书,从实验设计、样品收集、数据产生、处理和解读等全流程规范化操作的技术标准初稿,并在此基础上建立参比数据,为新的高通量技术和算法开发提供数据参考,为保证转录组实验和分析的可靠性提供实现路径。本项目提高结果的重复性和可靠性,对数据的有效应用和融合分析产生积极的影响,并最终为可靠的临床应用奠定基础。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
A Comprehensive Analysis of Gene Expression of Xenobiotic and Endogenous Metabolizing Enzymes and Transporters in Rat Multiple Organs
大鼠多器官外源性和内源性代谢酶和转运蛋白基因表达的综合分析
DOI:10.2174/1389201019666180525113727
发表时间:2018
期刊:Current Pharmaceutical Biotechnology
影响因子:2.8
作者:Hou Wanwan;Zhu Sibo;Shang Jun;Li Bin;Zheng Yuanting;Yu Ying;Shi Leming
通讯作者:Shi Leming
PreMedKB: an integrated precision medicine knowledgebase for interpreting relationships between diseases, genes, variants and drugs.
PreMedKB:一个综合的精准医学知识库,用于解释疾病、基因、变异和药物之间的关系
DOI:10.1093/nar/gky1042
发表时间:2019-01-08
期刊:Nucleic acids research
影响因子:14.9
作者:Yu Y;Wang Y;Xia Z;Zhang X;Jin K;Yang J;Ren L;Zhou Z;Yu D;Qing T;Zhang C;Jin L;Zheng Y;Guo L;Shi L
通讯作者:Shi L
A Comprehensive Mouse Transcriptomic BodyMap across 17 Tissues by RNA-seq.
通过 RNA-seq 绘制 17 个组织的全面小鼠转录体图谱。
DOI:10.1038/s41598-017-04520-z
发表时间:2017-06-23
期刊:Scientific reports
影响因子:4.6
作者:Li B;Qing T;Zhu J;Wen Z;Yu Y;Fukumura R;Zheng Y;Gondo Y;Shi L
通讯作者:Shi L
国内基金
海外基金
