Implementing the Genomic Data Science Analysis, Visualization, and Informatics Lab-space (AnVIL)

实施基因组数据科学分析、可视化和信息学实验室空间 (AnVIL)

基本信息

  • 批准号:
    10405959
  • 负责人:
  • 金额:
    $ 64.5万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-09-21 至 2023-06-30
  • 项目状态:
    已结题

项目摘要

Project Summary NIH-sponsored biomedical research is increasingly moving to cloud-based data storage and analysis systems. The NHGRI Genomic Data Science Analysis, Visualization, and Informatics Lab-space (AnVIL) powers the next generation of computational genomics research across the NHGRI using cloud-scale data and compute resources. The platform provides multiple entry points for data access and analysis, including data search with Gen3, workflows with Terra and Dockstore, notebook environments including Jupyter and RStudio, Bioconductor packages for analysis leveraging AnVIL APIs and services, and Galaxy instances for interactive analysis. By providing a unified environment for data management and compute, AnVIL eliminates the need for data movement, allows for controlled access to sensitive data, and provides elastic computing resources that can be acquired by researchers as needed. The NIH Cloud Platform Interoperability (NCPI) effort aims to address interoperability issues across NIH cloud systems, including AnVIL, by implementing key technologies and standards. We will work with NCPI working groups to define use cases and lead outreach as well as implement several major technologies within the AnVIL. First, we will enhance support for the NIH Researcher Auth Service (RAS) to enable researchers to establish their identity and access data they are authorized to use across Terra and Galaxy. Second, we will enhance support for the Global Alliance for Genomics and Health (GA4GH) Data Repository Service (DRS) so that data consumers can access data objects in a single, standard way. Third, we will enhance support in AnVIL for the Fast Healthcare Interoperability Resources (FHIR) standard. This will facilitate access to eMERGE and related projects by users in AnVIL and other NCPI platforms. Next, we will develop new resources and guides for budgeting for cloud computing. For this, we will identify the most commonly used tools and workflows run within Galaxy, and model the cost of these tools by varying data sets (e.g., sequencing coverage or number of genomes) and computational resources (e.g., number of CPUs, peak RAM). Statistical analysis of results will be published and serve as a tool to decrease cost as a barrier to cloud research and cloud interoperabily. Finally, interoperability of workflow generation is hampered by the fact that not all cloud platforms support the same sets of workflow languages. To address this, we will develop a Kubernetes- based computational engine to link workflows from multiple workflow languages. This work will initially focus on usage of Snakemake workflows, followed by extending development to support the workflow languages WDL, CWL and Galaxy workflows using their respective execution engines. This will simplify the transition from institutional HPC to the cloud and make it possible for researchers to seamlessly execute workflows across NCPI platforms.
项目摘要 NIH赞助的生物医学研究越来越多地转向基于云的数据存储和分析系统。 NHGRI基因组数据科学分析,可视化和信息学实验室空间(AnVIL)为 下一代计算基因组学研究在NHGRI使用云规模的数据和计算 资源该平台为数据访问和分析提供了多个入口点,包括使用 第三代,Terra和Dockstore的工作流,笔记本环境,包括RStudio, 用于分析的Bioconductor包利用AnVIL API和服务,以及用于交互式分析的Galaxy实例。 分析.通过为数据管理和计算提供统一的环境,AnVIL消除了 用于数据移动,允许对敏感数据进行受控访问,并提供弹性计算资源 研究人员可以根据需要获得。 NIH云平台互操作性(NCPI)工作旨在解决NIH之间的互操作性问题 云系统,包括AnVIL,通过实施关键技术和标准。我们将与NCPI合作 工作组定义用例,领导推广,并在内部实施几项主要技术 Anvil。首先,我们将加强对NIH研究人员认证服务(RAS)的支持,使研究人员能够 建立他们的身份并访问他们被授权在Terra和Galaxy上使用的数据。二是 加强对全球基因组学与健康联盟(GA 4GH)数据存储库服务(DRS)的支持, 数据使用者可以以单一的标准方式访问数据对象。第三,我们会加强支援, 快速医疗保健互操作性资源(FHIR)标准的AnVIL。这将有助于访问 AnVIL和其他NCPI平台用户的eMERGE和相关项目。接下来,我们将开发新的 云计算预算的资源和指南。为此,我们将确定最常用的 工具和工作流程在Galaxy中运行,并通过不同的数据集(例如, 测序覆盖率或基因组数目)和计算资源(例如,CPU数量、峰值RAM)。 结果的统计分析将被公布,并作为一种工具,以降低成本,这是云研究的障碍 和云的互操作性。最后,工作流生成的互操作性受到以下事实的阻碍: 云平台支持相同的工作流语言集。为了解决这个问题,我们将开发一个Kubernetes- 基于计算引擎的工作流链接来自多种工作流语言。这项工作将首先 重点介绍Snakemake工作流的使用,然后扩展开发以支持工作流 语言WDL、CWL和Galaxy工作流使用各自的执行引擎。这将简化 从机构HPC过渡到云,使研究人员能够无缝执行 跨NCPI平台的工作流。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Jeremy Goecks其他文献

Jeremy Goecks的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Jeremy Goecks', 18)}}的其他基金

Data Processing, Analysis and Modeling Unit
数据处理、分析和建模单元
  • 批准号:
    10902925
  • 财政年份:
    2023
  • 资助金额:
    $ 64.5万
  • 项目类别:
Scalable multi-mode education to increase use of ITCR tools by diverse analysts
可扩展的多模式教育,以增加不同分析师对 ITCR 工具的使用
  • 批准号:
    10669864
  • 财政年份:
    2020
  • 资助金额:
    $ 64.5万
  • 项目类别:
Scalable multi-mode education to increase use of ITCR tools by diverse analysts
可扩展的多模式教育,以增加不同分析师对 ITCR 工具的使用
  • 批准号:
    10250548
  • 财政年份:
    2020
  • 资助金额:
    $ 64.5万
  • 项目类别:
Scalable multi-mode education to increase use of ITCR tools by diverse analysts
可扩展的多模式教育,以增加不同分析师对 ITCR 工具的使用
  • 批准号:
    10075552
  • 财政年份:
    2020
  • 资助金额:
    $ 64.5万
  • 项目类别:
A Federated Galaxy for user-friendly large-scale cancer genomics research
用于用户友好的大规模癌症基因组学研究的联邦星系
  • 批准号:
    10245142
  • 财政年份:
    2018
  • 资助金额:
    $ 64.5万
  • 项目类别:
Data Processing, Analysis and Modeling Unit
数据处理、分析和建模单元
  • 批准号:
    10005918
  • 财政年份:
    2018
  • 资助金额:
    $ 64.5万
  • 项目类别:
A Federated Galaxy for user-friendly large-scale cancer genomics research
用于用户友好的大规模癌症基因组学研究的联邦星系
  • 批准号:
    10908030
  • 财政年份:
    2018
  • 资助金额:
    $ 64.5万
  • 项目类别:
Data Processing, Analysis and Modeling Unit
数据处理、分析和建模单元
  • 批准号:
    10246897
  • 财政年份:
    2018
  • 资助金额:
    $ 64.5万
  • 项目类别:
Implementing the Genomic Data Science Analysis, Visualization, and Informatics Lab-space (AnVIL)
实施基因组数据科学分析、可视化和信息学实验室空间 (AnVIL)
  • 批准号:
    10220581
  • 财政年份:
    2018
  • 资助金额:
    $ 64.5万
  • 项目类别:
A Federated Galaxy for user-friendly large-scale cancer genomics research
用于用户友好的大规模癌症基因组学研究的联邦星系
  • 批准号:
    10461143
  • 财政年份:
    2018
  • 资助金额:
    $ 64.5万
  • 项目类别:

相似海外基金

Supplement: Enhancing Community Contributions to Bioconductor With Build System Containerization and a GPU for Testing
补充:通过构建系统容器化和用于测试的 GPU 增强社区对 Bioconductor 的贡献
  • 批准号:
    10838736
  • 财政年份:
    2023
  • 资助金额:
    $ 64.5万
  • 项目类别:
Data infrastructure for single-cell multiplex imaging in Bioconductor
Bioconductor 中单细胞多重成像的数据基础设施
  • 批准号:
    10831240
  • 财政年份:
    2022
  • 资助金额:
    $ 64.5万
  • 项目类别:
Cancer Genomics: Integrative and Scalable Solutions in R/Bioconductor
癌症基因组学:R/Bioconductor 中的集成且可扩展的解决方案
  • 批准号:
    10703230
  • 财政年份:
    2021
  • 资助金额:
    $ 64.5万
  • 项目类别:
Durable Common Fund Data Interfaces and Tutorials with Bioconductor
持久的共同基金数据接口和 Bioconductor 教程
  • 批准号:
    10356362
  • 财政年份:
    2021
  • 资助金额:
    $ 64.5万
  • 项目类别:
Cancer Genomics: Integrative and Scalable Solutions in R/Bioconductor
癌症基因组学:R/Bioconductor 中的集成且可扩展的解决方案
  • 批准号:
    10594231
  • 财政年份:
    2021
  • 资助金额:
    $ 64.5万
  • 项目类别:
Cancer Genomics: Integrative and Scalable Solutions in R/Bioconductor
癌症基因组学:R/Bioconductor 中的集成且可扩展的解决方案
  • 批准号:
    10449603
  • 财政年份:
    2021
  • 资助金额:
    $ 64.5万
  • 项目类别:
Cancer Genomics: Integrative and Scalable Solutions in R/Bioconductor
癌症基因组学:R/Bioconductor 中的集成且可扩展的解决方案
  • 批准号:
    10478123
  • 财政年份:
    2021
  • 资助金额:
    $ 64.5万
  • 项目类别:
Accelerating Cancer Genomics with Cloud-scale Bioconductor
利用云规模 Bioconductor 加速癌症基因组学
  • 批准号:
    9478159
  • 财政年份:
    2017
  • 资助金额:
    $ 64.5万
  • 项目类别:
Cancer Genomics:Integrative and Scalable Solutions in R / Bioconductor
癌症基因组学:R / Bioconductor 中的集成且可扩展的解决方案
  • 批准号:
    9186264
  • 财政年份:
    2014
  • 资助金额:
    $ 64.5万
  • 项目类别:
Cancer Genomics:Integrative and Scalable Solutions in R / Bioconductor
癌症基因组学:R / Bioconductor 中的集成且可扩展的解决方案
  • 批准号:
    9334747
  • 财政年份:
    2014
  • 资助金额:
    $ 64.5万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了