课题基金基金详情
基于人群的生物医学多层面数据整合方法及肿瘤风险预测研究
结题报告
批准号:
81530088
项目类别:
重点项目
资助金额:
274.0 万元
负责人:
陈峰
依托单位:
学科分类:
H3011.流行病学方法与卫生统计
结题年份:
2020
批准年份:
2015
项目状态:
已结题
项目参与者:
赵杨、余灿清、马红霞、张汝阳、戴俊程、郭丽、段巍巍、杨晟
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
生物医学数据来源广泛,涉及个体、群体环境暴露、遗传变异、DNA甲基化、基因表达等多个层面。常规研究往往仅利用某一层面单个完全数据集进行分析,忽视了多层面数据间的关系。本课题拟采用“初步筛选→再次筛选→精细建模→人群验证”的分析思路,利用大数据思维,对基于人群的生物医学多层面数据进行整合分析,探索肺癌、胃癌等常见肿瘤的复杂关联因素,建立风险预测模型,提高预测精度。拟充分考虑各层面间的结构、调控关系等生物先验信息,提出加权信息熵法,快速富集具有主效应或层面内、跨层面基因-基因、基因-环境交互作用信息的基因;提出Bayes序贯分析法,逐层整合数据,更高效地筛选预测因素;改进因果中介分析模型,探索多层面因素的作用方式及强度;将所建方法尝试应用于肺癌、胃癌的关联分析及风险预测模型的建立,并基于大规模人群队列进行验证。
英文摘要
The biomedical big data (BBD), generated from a variety of sources and multiple layers, include personal-level exposure data, population-level environmental exposure information, high-resolution medical images, electronic health records, as well as data from high-throughput genomic platforms such as DNA sequencing, DNA methylation, gene expression, et al.. Most of previous studies only focused on the dataset from a single layer, ignoring the association among the multiple layers in BBD. In this study, we aim to develop more effective statistical methods for BBD integration to improve understanding of and provide insights into biomedical big data. Following strategy will be applied in the study: a) Preliminary fast screening of the risk factors; b) Fine evaluation of the risk factors; c) Building risk prediction model; d) Validation in independent populations. To further understand the sophisticated association among factors and risk of cancers, we will propose entropy based weighted information gain (WIG) method to efficiently enrich the genes carrying main effects, interactions within a single layer, interactions among multiple layers, as well as interactions with environment. Majority advantage of WIG method is utilizing the prior biological information into subsequencing analysis, such as molecular processes and regulatory relationships. Further, we will propose a Bayesian sequential method to integrate data from multi-layers to provide a better prediction of cancer risk. Furthermore, we will use the improved causal mediation analysis to explore the potential causal pathways. The proposed methods will be applied to lung cancer and gastric cancer. Risk factors and prediction models will also be explored and validated in large-scale cohorts.
复杂疾病由外环境暴露和内环境失衡共同作用所致。从外到内多个维度探寻疾病发生、发展的原因,是疾病预防、诊断、治疗的关键,对实现“健康中国”具有重要科学意义。多组学数据整合分析可以系统地、深入地鉴定疾病相关生物标志物;识别驱动疾病的复杂关联模式,包括:疾病因果链,基因与环境之间、之内的交互作用,疾病风险及预后预测模型。然而,多组学数据的“块缺失结构缺陷”、“高维灾难”、“复杂关联模式”等特点对数据挖掘提出了巨大的技术挑战。为此,我们从5个方面开展多组学数据的理论方法与临床研究:.i. 缺失处理。现实研究中,多组学数据有典型的“块缺失”结构缺陷。我们提出“填补”和“架桥”两种解决方案。与传统方法相比,我们构建的TOBMI填补算法具备填补精度高,有效维持原数据结构的特点。此外,两种“架桥”算法:全信息极大似然法和配对删除法,估计精度也优于传统方法。.ii. 降维策略。高维度的多组学数据具有信噪比低,分析耗时长的问题。我们提出ERB降维策略:基于信息熵(Entropy),提取特征值;基于随机森林(Random forest),按重要性筛选生物标志物;基于贝叶斯(Bayes),利用先验信息,大规模并行筛选重要靶点。模拟实验与实例研究表明:上述降维策略可有效降低数据维度,聚焦重要标志物。.iii. 精细挖掘。复杂疾病由因素间复杂的关联模式所驱动。一方面,从因果推断角度,发展并运用孟德尔随机化、中介分析的方法,控制未知混杂因素,估计真实关联效应;探索因果关系,识别致病因子。另一方面,从交互作用角度,探索基因与环境之间、之内的复杂关联模式。.iv. 预测模型。复杂疾病由宏观、微观多个层面因素所决定。我们整合多维度指标,基于“初步筛选→再次筛选→精细建模→人群验证”的分析策略,构建了多个高精度的肿瘤预后预测模型。.v. 平台开发。获批国家版权局软件著作权5件,开发了2个交互式可视化平台,使得复杂的整合分析策略及方法变得操作便捷、易于实现。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2019
期刊:中国卫生统计
影响因子:--
作者:张铭智;尤东方;何文静;张汝阳;陈峰;胡志斌;赵杨
通讯作者:赵杨
DOI:10.3892/or.2017.6057
发表时间:2017-12
期刊:Oncology reports
影响因子:4.2
作者:Shen S;Bai J;Wei Y;Wang G;Li Q;Zhang R;Duan W;Yang S;Du M;Zhao Y;Christiani DC;Chen F
通讯作者:Chen F
DOI:--
发表时间:2018
期刊:中国卫生统计
影响因子:--
作者:李清雅;魏永越;施倩雯;段巍巍;陈峰
通讯作者:陈峰
Association between aspirin use and lung cancer incidence depends on high-frequency use, bodyweight, and age in U.S. adults.
阿司匹林使用与肺癌发病率之间的关联取决于美国成年人的使用频率、体重和年龄
DOI:10.21037/tlcr-20-414
发表时间:2021-01
期刊:Translational lung cancer research
影响因子:4
作者:Dong X;He J;Lin L;Zhu Y;Chen C;Su L;Zhao Y;Zhang R;Wei Y;Chen F;Christiani DC
通讯作者:Christiani DC
DOI:--
发表时间:2017
期刊:中国卫生统计
影响因子:--
作者:林丽娟;董学思;赵杨;魏永越;戴俊程;陈峰
通讯作者:陈峰
基于贝叶斯因果网络的中欧肺癌风险预测模型构建与大型前瞻性人群队列评估研究
  • 批准号:
    82220108002
  • 项目类别:
    国际(地区)合作与交流项目
  • 资助金额:
    252万元
  • 批准年份:
    2022
  • 负责人:
    陈峰
  • 依托单位:
基于微纳探针与材料的胶质瘤早期诊断及相关检测研究
  • 批准号:
    62001239
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    24.0万元
  • 批准年份:
    2020
  • 负责人:
    陈峰
  • 依托单位:
新型冠状病毒感染流行趋势研究:基于大数据的跨地域开放系统随机动力学模型
  • 批准号:
    --
  • 项目类别:
    --
  • 资助金额:
    150万元
  • 批准年份:
    2020
  • 负责人:
    陈峰
  • 依托单位:
法医学
  • 批准号:
    81922041
  • 项目类别:
    优秀青年科学基金项目
  • 资助金额:
    130万元
  • 批准年份:
    2019
  • 负责人:
    陈峰
  • 依托单位:
Cav-1/Nox1/STIM1信号通路参与百草枯心肺损害机理研究及中毒标志物筛选
  • 批准号:
    81772020
  • 项目类别:
    面上项目
  • 资助金额:
    55.0万元
  • 批准年份:
    2017
  • 负责人:
    陈峰
  • 依托单位:
PAH血管重塑新靶点半乳凝素-3在肺血管平滑肌细胞中的功能及其作用机制研究
  • 批准号:
    81570378
  • 项目类别:
    面上项目
  • 资助金额:
    60.0万元
  • 批准年份:
    2015
  • 负责人:
    陈峰
  • 依托单位:
全基因组关联研究中基因-基因、基因-环境交互作用统计分析方法研究
  • 批准号:
    81473070
  • 项目类别:
    面上项目
  • 资助金额:
    80.0万元
  • 批准年份:
    2014
  • 负责人:
    陈峰
  • 依托单位:
血管外膜氧应激参与PAH血管重塑的表观遗传学机制
  • 批准号:
    81400033
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    23.0万元
  • 批准年份:
    2014
  • 负责人:
    陈峰
  • 依托单位:
全基因组关联研究中的降维策略和统计分析方法研究
  • 批准号:
    81072389
  • 项目类别:
    面上项目
  • 资助金额:
    32.0万元
  • 批准年份:
    2010
  • 负责人:
    陈峰
  • 依托单位:
非传统病例-对照设计的统计分析方法研究与评价
  • 批准号:
    30571619
  • 项目类别:
    面上项目
  • 资助金额:
    23.0万元
  • 批准年份:
    2005
  • 负责人:
    陈峰
  • 依托单位:
国内基金
海外基金