BIGDATA: Mid-Scale: DA: ESCE: Collaborative Research: Scalable Statistical Computing for Emerging Omics Data Streams
BIGDATA:中型:DA:ESCE:协作研究:新兴组学数据流的可扩展统计计算
基本信息
- 批准号:1247813
- 负责人:
- 金额:$ 100万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2013
- 资助国家:美国
- 起止时间:2013-08-01 至 2015-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Bioinformatic data sets are large and complicated. Marshalling and managing necessary resources (e.g., hardware; computer and programmer time) requires significant skill. Effective analysis and comprehension involves sophisticated statistical understanding. Domains of application and available data types change rapidly, requiring flexible and familiar programming environments. Collaborations involve diverse research groups of heterogeneous size and expertise. This project develops and disseminates new and efficient approaches to solving present and emerging problems in statistical analysis and interpretation of very large data. The project combines the strengths of two very widely used and complementary bioinformatics projects, Bioconductor and Galaxy.The project has three components. The first, providing scalable access, develops R programming paradigms appropriate for scalable analysis. R/Bioconductor software will be developed for efficient reduction of large data to statistical descriptions by iterating data through transformation kernels. Bioconductor will be deployed for use in an accessible cloud-based environment, and will be integrated into the Galaxy deployment scheme. The second component is to provide statistical methods for big genomic data bydeveloping high performance statistical methodologies for analysis of large bioinformatics data. This applies the initial technical achievements to specific requirements of statistical analysis in genomics. Domains of application include: quality assessment and normalization of very large raw data; data reduction and uncertainty measure calculation for downstream interrogation; and discovery, reporting and auditing of novel biological findings. Developments require novel computational approaches that avoid all-data-in-memory computational models (prevalent in current algorithm implementations), and that re-express monolithic algorithms as concurrently executable independent components. This emphasizes extensible and composable elements to yield a richer toolkit for statistical genomics. The aim leverages R?s strength as a language for rapid development of statistical methodologies, and emphasizes areas of proven strength in the Bioconductor project. The third component addresses decision making. This aspect provides integration of R / Bioconductor work flows into Galaxy. We will deploy key results from Aim 2 as Galaxy work flows. New real-time feedback for streaming analytics will be introduced to Galaxy, and leveraged by Bioconductor.The project includes very significant capacity building. The Bioconductor project successfully solicits, tests, and disseminates over 600 R packages for the statistical analysis and comprehension of high-throughput genomic data. All packages include extensive documentation, including vignettes describing intent, function, and interoperability. Packages reflect contributions from a broad scientific community, and enable national and international graduate, post-graduate, and commercial research activities in statistical, bioinformatic, and computational domains. This project furthers the capacity building impact of Bioconductor by addressing memory and performance limitations to statistical analysis of large and complicated bioinformatic data. Galaxy enables broad access to computational resources for data intensive biomedical research. This project enhances the capacity building impacts of Galaxy by providing scalable processing of big bioinformatic data, and enabling exploratory analysis by a broad bioinformatic community. The coupling of Bioconductor and Galaxy provides significant synergy, facilitating rapid translation of statistical and bioinformatic research developed in R to broad use through Galaxy.
生物信息学数据集既庞大又复杂。编组和管理必要的资源(例如,硬件、计算机和程序员的时间)需要相当高的技能。有效的分析和理解涉及复杂的统计理解。应用程序领域和可用的数据类型快速变化,需要灵活而熟悉的编程环境。合作涉及不同规模和不同专业知识的不同研究小组。该项目开发和传播新的有效办法,以解决目前和正在出现的大量数据统计分析和解释方面的问题。该项目结合了两个非常广泛使用和互补的生物信息学项目--BioConductor和Galaxy的优势。该项目由三个部分组成。第一,提供可伸缩访问,开发适用于可伸缩分析的R编程范例。将开发R/BioConductor软件,通过变换核迭代数据,有效地将大量数据简化为统计描述。BioConductor将部署在可访问的基于云的环境中使用,并将整合到Galaxy部署方案中。第二个组成部分是通过开发用于分析大型生物信息学数据的高性能统计方法,为大型基因组数据提供统计方法。这将最初的技术成果应用于基因组学中统计分析的具体要求。应用领域包括:超大原始数据的质量评估和标准化;下游询问的数据简化和不确定性测量计算;以及新生物学发现的发现、报告和审计。开发需要新的计算方法,避免所有数据在内存中的计算模型(在当前的算法实现中很普遍),并将单一算法重新表达为可并发执行的独立组件。这强调可扩展和可组合的元素,以产生更丰富的统计基因组学工具包。其目的是利用R?S的优势作为快速开发统计方法的语言,并强调在BioConductor项目中已被证明具有优势的领域。第三部分涉及决策制定。这一相位提供了R/生物导体工作流程到银河的整合。我们将在Galaxy工作流程中部署AIM 2的关键成果。流分析的新实时反馈将引入Galaxy,并由BioConductor利用。该项目包括非常重要的能力建设。BioConductor项目成功地征集、测试和传播了600多个R包,用于统计分析和理解高通量基因组数据。所有包都包含大量文档,包括描述意图、功能和互操作性的小插曲。一揽子计划反映了来自广泛科学界的贡献,并使国家和国际研究生、研究生和商业研究活动在统计、生物信息学和计算领域得以开展。该项目通过解决对大型和复杂生物信息数据的统计分析的内存和性能限制,进一步加强了BioConductor的能力建设影响。Galaxy为数据密集型生物医学研究提供了对计算资源的广泛访问。该项目通过提供对大型生物信息数据的可扩展处理,并使广泛的生物信息社区能够进行探索性分析,加强了银河系统的能力建设影响。BioConductor和Galaxy的结合提供了显著的协同作用,促进了在R开发的统计和生物信息学研究通过Galaxy迅速转化为广泛使用。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Martin Morgan其他文献
An Introduction to Rsamtools
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Martin Morgan - 通讯作者:
Martin Morgan
Cache
缓存
- DOI:
10.1007/978-1-4842-5896-5_4 - 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
Martin Morgan;Seth Falcon - 通讯作者:
Seth Falcon
AnVILWorkflow: A runnable workflow package for Cloud-implemented bioinformatics analysis pipelines
AnVILWorkflow:用于云实施的生物信息学分析管道的可运行工作流程包
- DOI:
10.21203/rs.3.rs-4370115/v1 - 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Sehyun Oh;Kai Gravel;Marcel Ramos;Sean Davis;Vince Carey;Martin Morgan;Levi Waldron - 通讯作者:
Levi Waldron
Pre-Processing
- DOI:
10.1007/978-0-387-73003-5_565 - 发表时间:
2009 - 期刊:
- 影响因子:0
- 作者:
Martin Morgan - 通讯作者:
Martin Morgan
Genome-wide deleterious mutation favors dispersal and species integrity
全基因组有害突变有利于扩散和物种完整性
- DOI:
10.1038/sj.hdy.6800143 - 发表时间:
2002 - 期刊:
- 影响因子:3.8
- 作者:
Martin Morgan - 通讯作者:
Martin Morgan
Martin Morgan的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Martin Morgan', 18)}}的其他基金
Evolutionary Economics of Plant-Pollinator Interaction
植物-传粉者相互作用的进化经济学
- 批准号:
0128896 - 财政年份:2002
- 资助金额:
$ 100万 - 项目类别:
Standard Grant
Dissertation Research: Consequences of Habitat Fragmentation for Plant-Pollinator Interactions
论文研究:栖息地破碎化对植物与传粉者相互作用的影响
- 批准号:
0206747 - 财政年份:2002
- 资助金额:
$ 100万 - 项目类别:
Standard Grant
Perennial Plant Inbreeding Depression: Models and Estimation Procedures
多年生植物近交衰退:模型和估计程序
- 批准号:
9974017 - 财政年份:1999
- 资助金额:
$ 100万 - 项目类别:
Standard Grant
相似国自然基金
肝细胞Mid 1活化加重脓毒症病理进程的分子机制研究及干预策略优化
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
MID1调控肿瘤相关巨噬细胞细胞中IRF8-STING通路在胶质瘤微环境中的作用机制研究
- 批准号:2025JJ70385
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
E3泛素连接酶Mid1调控Treg细胞影响GVHD 的作用及机制研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
线粒体动力蛋白MiD51在IL-27诱导类风湿关节炎DN2-B细胞分化扩增中的作用及机制研究
- 批准号:82302047
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
MID1调控糖稳态的分子机制
- 批准号:32000815
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
MID1基因缺陷对颅神经嵴细胞的影响及唇腭裂形成的分子病理
- 批准号:2020A151501160
- 批准年份:2020
- 资助金额:10.0 万元
- 项目类别:省市级项目
水稻MID1和赤霉素互作调控缺水条件下花粉发育的机制研究
- 批准号:31770352
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于最小重要差异值(MID)的冠心病病证结合疗效评价量表中医临床疗效判定阈值研究
- 批准号:81603504
- 批准年份:2016
- 资助金额:17.0 万元
- 项目类别:青年科学基金项目
层级稀疏化的Mid-Level特征空间下高分辨率遥感影像检索方法研究
- 批准号:41401376
- 批准年份:2014
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
MID器件机电集成数字化设计关键问题的研究
- 批准号:50975241
- 批准年份:2009
- 资助金额:20.0 万元
- 项目类别:面上项目
相似海外基金
BIGDATA: Mid-Scale: ESCE: DCM: Collaborative Research: DataBridge - A Sociometric System for Long-Tail Science Data Collections
BIGDATA:中型:ESCE:DCM:协作研究:DataBridge - 长尾科学数据收集的社会计量系统
- 批准号:
1560625 - 财政年份:2015
- 资助金额:
$ 100万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale: ESCE: Collaborative Research: Discovery and Social Analytics for Large-Scale Scientific Literature
大数据:中等规模:ESCE:协作研究:大规模科学文献的发现和社会分析
- 批准号:
1502780 - 财政年份:2014
- 资助金额:
$ 100万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale DCM: DA: ESCE: Discovering Molecular Processes
BIGDATA:中型 DCM:DA:ESCE:发现分子过程
- 批准号:
8840914 - 财政年份:2013
- 资助金额:
$ 100万 - 项目类别:
BIGDATA: Mid-Scale: DCM: A Formal Foundation for Big Data Management
BIGDATA:中型:DCM:大数据管理的正式基础
- 批准号:
1247469 - 财政年份:2013
- 资助金额:
$ 100万 - 项目类别:
Continuing Grant
BIGDATA: Mid-Scale: DCM: Collaborative Research: Eliminating the Data Ingestion Bottleneck in Big Data Applications
BIGDATA:中型:DCM:协作研究:消除大数据应用中的数据摄取瓶颈
- 批准号:
1247726 - 财政年份:2013
- 资助金额:
$ 100万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale: DA: Collaborative Research: Genomes Galore - Core Techniques, Libraries, and Domain Specific Languages for High-Throughput DNA Sequencing
大数据:中规模:DA:协作研究:基因组丰富 - 高通量 DNA 测序的核心技术、库和领域特定语言
- 批准号:
1416259 - 财政年份:2013
- 资助金额:
$ 100万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale: DA : Collaborative Research Big Tensor Mining Theory
BIGDATA:中型:DA:协作研究大张量挖掘理论
- 批准号:
8599832 - 财政年份:2013
- 资助金额:
$ 100万 - 项目类别:
BIGDATA: Mid-Scale DCM: DA: ESCE: Discovering Molecular Processes
BIGDATA:中型 DCM:DA:ESCE:发现分子过程
- 批准号:
8599838 - 财政年份:2013
- 资助金额:
$ 100万 - 项目类别:
BIGDATA: Mid-Scale: DA: Distribution-based machine learning for high dimensional datasets
BIGDATA:中规模:DA:针对高维数据集的基于分布的机器学习
- 批准号:
1247658 - 财政年份:2013
- 资助金额:
$ 100万 - 项目类别:
Continuing Grant
BIGDATA: Mid-Scale: ESCE: Collaborative Research: Discovery and Social Analytics for Large-Scale Scientific Literature.
大数据:中等规模:ESCE:协作研究:大规模科学文献的发现和社会分析。
- 批准号:
1247696 - 财政年份:2013
- 资助金额:
$ 100万 - 项目类别:
Standard Grant