基于新一代测序数据的标准化,FDR控制及分类问题的统计方法研究
结题报告
批准号:
11701385
项目类别:
青年科学基金项目
资助金额:
24.0 万元
负责人:
周彦
依托单位:
学科分类:
A0402.统计推断与统计计算
结题年份:
2020
批准年份:
2017
项目状态:
已结题
项目参与者:
张博、朱家嫡、周南光、刘逸萌
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
新一代测序技术比基因芯片技术更高通量和更精确,已经逐渐成为基因遗传和疾病分析的重要手段。对新一代测序数据统计分析的难点在于样本量少,但数据量十分巨大且观测信号离散。目前,对新型数据分析中出现的标准化,错误发现率控制及分类判别等难点问题几乎没有相应的统计解决方法。本项目将重点研究如下迄今还没有得到解决的问题:(1)不同物种的RNA-seq数据测序深度的标准化问题;(2)离散的多组p-value如何统一估计到q-value的问题;(3)RNA-seq数据中出现过多零的分类判别问题;(4)利用CpG信息来考虑MeDIP-seq数据的分类判别问题。为解决上述难题,本项目将利用离散分布等来拟合新数据,提出符合离散分布的模型并构建标准化和分类判别等问题的统计框架。进一步,本项目也将研究新的估计方法所得估计量的大样本性质,并分析最新的食管癌数据。上述问题的解决将为新数据分析提供可靠的统计方法和理论依据。
英文摘要
Next-generation sequencing techniques, which are higher throughput and more accurate than the Gene Chip technique, have gradually become an important means of genetics and diseases analysis. It is hard to analyze the new data because of small sample size, huge amount of a sample and discrete observation signals. So far, difficult problems appeared in the processing of next generation sequencing data analysis, such as normalization, false discovery rate controlling and classification, is almost no corresponding statistical methods. The project will mainly study the follow problems which remains a controversial issue until now, that is, (1) the statistical method of the sequencing depth normalization for different species; (2) how to estimate q-value with several different discrete p-value groups; (3) the study of classification for RNA-seq data with zero inflated; (4) considering the classification method of MeDIP-seq data with CpG information. To solve these problems, the project will consider mixed discrete distribution to fit new data, propose the discrete distribution model and structure statistical framework for normalization and classification problems. Furthermore, the projector will study the large sample theory of the estimations and apply it to analyze the newest real esophagus cancer data. The solution of these problems will provide reliable statistical methods and theoretical basis to analyze new data.
本项目主要研究了围绕新一代测序技术产生的测序序列数据在生物信息或其他应用中的统计问题。然后,研究了不同物种之间新一代测序数据的表达水平差异性检验中的标准化问题。在不同物种的标准化问题上,考虑不同物种的对应基因的特殊性,提出符合不同物种标准化的模型,并取得了非常好的效果,提供了SCBN软件包。对零过多的RNA-seq数据的分类判别方法,研究利用零分布和泊松分布的混合分布来拟合这种数据,结合贝叶斯分类方法提出了ZIPLDA等统计方法,极大地降低了错误率。提出了EM算法来估计CpG位点的甲基化水平,观测数据有效地估计出了每个位点的甲基化水平,为MeDIP-seq数据的分类提供了基础。另外,在纵向数据的ATF模型数据和测量误差方面也有相应的统计方法和理论研究并发表数篇SCI论文。本项目研究历时三年,总共以第一作者或通讯作者身份在国际SCI期刊上发表相关学术论文十一篇(第一标注的8篇),培养研究生8名,毕业两名。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Classifying next-generation sequencing data using a zero-inflated Poisson model
使用零膨胀泊松模型对下一代测序数据进行分类
DOI:10.1093/bioinformatics/btx768
发表时间:2018-04-15
期刊:BIOINFORMATICS
影响因子:5.8
作者:Zhou, Yan;Wan, Xiang;Tong, Tiejun
通讯作者:Tong, Tiejun
Multiplicative regression models with distortion measurement errors
具有失真测量误差的乘法回归模型
DOI:10.1007/s00362-018-1020-2
发表时间:2020-10-01
期刊:STATISTICAL PAPERS
影响因子:1.3
作者:Zhang,Jun;Zhu,Junpeng;Lu,Tao
通讯作者:Lu,Tao
DOI:10.1214/17-bjps357
发表时间:2018-08
期刊:Brazilian Journal of Probability and Statistics
影响因子:1
作者:Jun Zhang;Yan Zhou;Xia Cui;Wang-li Xu
通讯作者:Jun Zhang;Yan Zhou;Xia Cui;Wang-li Xu
Generalized estimating equations for analyzing multivariate survival data
用于分析多变量生存数据的广义估计方程
DOI:10.1080/03610918.2019.1619763
发表时间:2021
期刊:Communications in Statistics-Simulation and Computation
影响因子:0.9
作者:Fu Liya;Yang Zhuoran;Zhang Jun;Long Anle;Zhou Yan
通讯作者:Zhou Yan
New test statistics for hypothesis testing of parameters in conditional moment restriction models
用于条件矩限制模型中参数假设检验的新检验统计量
DOI:10.1080/03610926.2018.1472775
发表时间:2019-03
期刊:Communications in Statistics - Theory and Methods
影响因子:--
作者:Chen Ziqi;Zhou Yan
通讯作者:Zhou Yan
基于单细胞Hi-C数据的标准化,分类及荟萃分析
  • 批准号:
    --
  • 项目类别:
    省市级项目
  • 资助金额:
    15.0万元
  • 批准年份:
    2024
  • 负责人:
    周彦
  • 依托单位:
基于深度学习对单细胞测序数据的统计分析
  • 批准号:
    n/a
  • 项目类别:
    省市级项目
  • 资助金额:
    10.0万元
  • 批准年份:
    2023
  • 负责人:
    周彦
  • 依托单位:
基于单细胞测序的超高维数据的统计方法研究
  • 批准号:
    --
  • 项目类别:
    面上项目
  • 资助金额:
    52万元
  • 批准年份:
    2020
  • 负责人:
    周彦
  • 依托单位:
基于Medip-seq 和MRE-seq数据的甲基化水平的估计及差异性检验
  • 批准号:
    11526143
  • 项目类别:
    数学天元基金项目
  • 资助金额:
    3.0万元
  • 批准年份:
    2015
  • 负责人:
    周彦
  • 依托单位:
国内基金
海外基金