Developing methods for curating multi-omics data
开发管理多组学数据的方法
基本信息
- 批准号:9268841
- 负责人:
- 金额:$ 28.23万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2015
- 资助国家:美国
- 起止时间:2015-06-01 至 2018-05-31
- 项目状态:已结题
- 来源:
- 关键词:AddressAgeAreaBig Data to KnowledgeBiologicalBiomedical ResearchCancer PatientClinicalClinical DataComputing MethodologiesCopy Number PolymorphismDataData AnalysesData FilesData QualityData SetDatabasesDepositionDiseaseEpigenetic ProcessGene ExpressionGenerationsGenesGeneticGenomeGenomicsGenotypeHealthHumanIndividualLabelLeadLungMapsMeasuresMetadataMethodsMethylationMolecularProceduresProteomicsQuality ControlRegulationResearchResourcesSamplingSampling ErrorsStatistical Data InterpretationThe Cancer Genome Atlasbasebiological systemsblood lipidcomplex biological systemsdata managementdata miningdata sharingdata wranglingdisease phenotypehigh throughput technologymetabolomicsmultiple omicspredictive modelingstatisticstranscriptomicswasting
项目摘要
DESCRIPTION (provided by applicant): Biological systems employ multiple levels of regulation that enable them to respond to genetic, epigenetic, genomic, and environmental perturbations. Advances in high throughput technologies over the past several years have enabled the generation of comprehensive data sets measuring multiple aspects of biological regulation (such as genetics, epigenetics, transcriptomics, metabolomics, glycomics, proteomics, etc.). Many databases, such as TCGA (The Cancer Genome Atlas) database and the LGRC (Lung Genome Research Consortium) database, have been created for depositing diverse types of omics data and for sharing data for public dissemination. However, data errors, including sample swapping, mis-labeling, and improper data entry, during large-scale data generation and data management are inevitable. Our preliminary results indicate that sample labeling errors frequently occur in every database we examined. Data quality control (QC) is critical for all public databases. Data errors need to be identified and corrected before data is released for data analysis and data mining. Analyzing error infested data wastes public resources. Importantly, wrong data could lead to wrong scientific conclusions. And, sample errors could have a large impact on statistic power. To maximally utilize genetic, genomic, and other omics data in public databases, it is critical to properly match different types of data pertaining to the same sample or individual before applying integrative analyses. There is an urgent need for developing methods that can identify data labeling errors in large databases and properly connect diverse types of omics data pertaining to the same individual. In respond to the Big Data to Knowledge (BD2K) initiative, we will develop computational methods to address the topic area "Data Wrangling". Here we propose to develop a sample mapping procedure called MODMatcher (Multi- Omics Data matcher) to simultaneously QC multiple types of omics data (Aim 1), and to develop a suite of predictive models based on multi omics data to identify inconsistency between clinical data and omics data (Aim 2). Our proposed methods will be used to clean data, identify and correct data annotation and metadata attribute errors in large databases, which are all within the scope of the "Data Wangling".
描述(由适用提供):生物系统员工多个级别的调节,使他们能够对遗传,表观遗传学,基因组和环境扰动做出反应。在过去的几年中,高通量技术的进步使得能够生成综合数据集,这些数据集测量了生物学调节的多个方面(例如遗传学,表观遗传学,转录组学,代谢组学,糖基因组学,蛋白质组学等)。已经创建了许多数据库,例如TCGA(癌症基因组图集)数据库和LGRC(肺基因组研究联盟)数据库,用于存放潜水员类型的OMICS数据和共享数据以进行公共传播。但是,在大规模数据生成和数据管理期间,数据错误,包括样本交换,错误标记和数据输入不当。我们的初步结果表明,在我们检查的每个数据库中,样本标记错误经常发生。数据质量控制(QC)对于所有公共数据库至关重要。在发布数据以进行数据分析和数据挖掘之前,需要识别和纠正数据错误。分析错误感染的数据浪费了公共资源。重要的是,错误的数据可能导致错误的科学结论。而且,样本错误可能会对统计能力产生很大的影响。为了最大化公共数据库中的遗传,基因组和其他OMICS数据,在应用集成分析之前正确匹配与同一样本或个人有关的不同类型的数据至关重要。迫切需要开发可以识别大型数据库中数据标记错误的方法,并正确连接潜水员类型的OMICS数据与同一个人有关。为了回应知识的大数据(BD2K)倡议,我们将开发计算方法来解决主题领域“数据争吵”。在这里,我们建议开发一个称为ModMatcher(多摩变数据匹配器)的样本映射程序,以简单地简单地使用QC多种类型的OMIC数据(AIM 1),并基于多OMICS数据开发一套预测模型,以识别临床数据和OMICS数据之间的不一致性(AIM 2)。我们提出的方法将用于清洁数据,识别和纠正大数据库中的数据注释和元数据属性错误,这些数据库都属于“数据wangling”的范围。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
JUN ZHU其他文献
JUN ZHU的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('JUN ZHU', 18)}}的其他基金
Developing methods for curating multi-omics data
开发管理多组学数据的方法
- 批准号:
9277512 - 财政年份:2015
- 资助金额:
$ 28.23万 - 项目类别:
相似国自然基金
无线供能边缘网络中基于信息年龄的能量与数据协同调度算法研究
- 批准号:62372118
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
CHCHD2在年龄相关肝脏胆固醇代谢紊乱中的作用及机制
- 批准号:82300679
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
颗粒细胞棕榈酰化蛋白FXR1靶向CX43mRNA在年龄相关卵母细胞质量下降中的机制研究
- 批准号:82301784
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
年龄相关性黄斑变性治疗中双靶向药物递释策略及其机制研究
- 批准号:82301217
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
多氯联苯与机体交互作用对生物学年龄的影响及在衰老中的作用机制
- 批准号:82373667
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
相似海外基金
Executive functions in urban Hispanic/Latino youth: exposure to mixture of arsenic and pesticides during childhood
城市西班牙裔/拉丁裔青年的执行功能:童年时期接触砷和农药的混合物
- 批准号:
10751106 - 财政年份:2024
- 资助金额:
$ 28.23万 - 项目类别:
The Proactive and Reactive Neuromechanics of Instability in Aging and Dementia with Lewy Bodies
衰老和路易体痴呆中不稳定的主动和反应神经力学
- 批准号:
10749539 - 财政年份:2024
- 资助金额:
$ 28.23万 - 项目类别:
Fluency from Flesh to Filament: Collation, Representation, and Analysis of Multi-Scale Neuroimaging data to Characterize and Diagnose Alzheimer's Disease
从肉体到细丝的流畅性:多尺度神经影像数据的整理、表示和分析,以表征和诊断阿尔茨海默病
- 批准号:
10462257 - 财政年份:2023
- 资助金额:
$ 28.23万 - 项目类别:
PREVENT - Practice-based Approaches to Promote HPV Vaccination
预防 - 基于实践的方法促进 HPV 疫苗接种
- 批准号:
10638515 - 财政年份:2023
- 资助金额:
$ 28.23万 - 项目类别:
The contribution of air pollution to racial and ethnic disparities in Alzheimer’s disease and related dementias: An application of causal inference methods
空气污染对阿尔茨海默病和相关痴呆症的种族和民族差异的影响:因果推理方法的应用
- 批准号:
10642607 - 财政年份:2023
- 资助金额:
$ 28.23万 - 项目类别: