Making Big and Complex Data Easier to Assemble and Analyze in Distributed CI Environments: Expanding on Metagenomics Challenges Defined by CAMERA

使大而复杂的数据在分布式 CI 环境中更容易组装和分析:扩展 CAMERA 定义的宏基因组挑战

基本信息

  • 批准号:
    1419196
  • 负责人:
  • 金额:
    $ 25万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-02-15 至 2016-01-31
  • 项目状态:
    已结题

项目摘要

The Community Cyberinfrastructure for Advanced Microbial Ecology Research and Analysis (CAMERA, http://camera.calit2.net/) is a semantically enabled database and distributed computational infrastructure that provides a single system for depositing, locating, analyzing, visualizing, and sharing microbial biology data. With the rapid advance of newer DNA sequencing methods, so called Next Generation Sequencing (NGS) technologies, such as Illumina HiSeq and MiSeq, it is becoming increasingly difficult for researchers using sequencing data to meet the computing requirements for large-scale NGS datasets with existing methods. In response to these aspects of the BIG DATA challenge, the CAMERA team is developing new bioinformatics algorithms, high performance computing solutions, visualization interfaces, and data resources to specifically address the NGS data analysis challenges. Here, the group proposes a crosscutting methodology for analyzing NGS data that marries innovative bioinformatics algorithms and workflows with leading edge computational methods for managing large scale distributed computing. The integration of XSEDE resources for BIG DATA analysis will provide the scale and specification necessary to drive the development of this system. This project will be conducted over two years. Year one will be focused on the refinement of core CAMERA CI (e.g. Panfish) and the continued development of core NGS workflows/algorithms. Specifically, CAMERA CI will be extended to take full advantage of two new NSF XSEDE resources to be commissioned in early 2015 (Wrangler at TACC & Comet at SDSC). Year 2 will be focused on the production integration of Wrangler and Comet and the subsequent deployment of the NGS workflows (via CAMERA CI) to the entire CAMERA community. These new software tools and pipelined processes facilitate the processing and analyze very large-scale metagenomic data on the scale of tens of GB per sample and provide comprehensive and unique functions such as 16S analysis[7], taxonomy binning[8], assembly, rRNA finding, clustering, filtering, function and pathway annotation, and visualization]. These next generation tools enable orders of magnitude faster computational process, more comprehensive analysis, integrated data output, and novel ways to investigate complex data, once made to operate in extensible HPC cloud environments. The Broader Impact is viewed as that currently, manual operations are necessary to complete analysis with these tools due to the complexity of the process and the large number of software tools involved. The goal of this project is to develop a series of fully integrated and easy-to-use analysis workflows encapsulating these tools. These new workflows of software tools will significantly improve NGS data analysis for researchers who use metagenomics as an investigative tool, researchers who are now impeded by challenges with regard to managing and analyzing BIG DATA.
高级微生物生态学研究和分析社区网络基础设施(CAMERA,http://camera.calit2.net/)是一个语义数据库和分布式计算基础设施,提供用于存储、定位、分析、可视化和共享微生物生物学数据的单一系统。随着新型DNA测序方法,即所谓的下一代测序(NGS)技术(例如Illumina HiSeq和MiSeq)的快速发展,研究人员使用测序数据通过现有方法满足大规模NGS数据集的计算要求变得越来越困难。为了应对大数据挑战的这些方面,CAMERA 团队正在开发新的生物信息学算法、高性能计算解决方案、可视化界面和数据资源,以专门解决 NGS 数据分析挑战。在此,该小组提出了一种用于分析 NGS 数据的横切方法,该方法将创新的生物信息学算法和工作流程与用于管理大规模分布式计算的前沿计算方法相结合。用于大数据分析的 XSEDE 资源的集成将提供推动该系统开发所需的规模和规范。该项目将持续两年。第一年将重点关注核心 CAMERA CI(例如 Panfish)的完善以及核心 NGS 工作流程/算法的持续开发。具体来说,CAMERA CI 将进行扩展,以充分利用将于 2015 年初投入使用的两个新的 NSF XSEDE 资源(TACC 的 Wrangler 和 SDSC 的 Comet)。 第 2 年将重点关注 Wrangler 和 Comet 的生产集成,以及随后将 NGS 工作流程(通过 CAMERA CI)部署到整个 CAMERA 社区。 这些新的软件工具和流水线流程有助于处理和分析每个样本数十GB规模的超大规模宏基因组数据,并提供全面且独特的功能,例如16S分析[7]、分类分箱[8]、组装、rRNA查找、聚类、过滤、功能和通路注释以及可视化]。这些下一代工具一旦在可扩展的 HPC 云环境中运行,就能实现计算过程速度加快几个数量级、更全面的分析、集成的数据输出以及研究复杂数据的新颖方法。更广泛的影响是,由于过程复杂且涉及大量软件工具,目前需要手动操作才能使用这些工具完成分析。该项目的目标是开发一系列完全集成且易于使用的封装这些工具的分析工作流程。这些新的软件工具工作流程将显着改善使用宏基因组学作为研究工具的研究人员的 NGS 数据分析,以及现在因管理和分析大数据方面的挑战而受到阻碍的研究人员。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Mark Ellisman其他文献

Failure to make normal α ryanodine receptor is an early event associated with the Crooked Neck Dwarf (cn) mutation in chicken
无法产生正常的 α 兰尼碱受体是与鸡弯颈侏儒 (cn) 突变相关的早期事件
  • DOI:
  • 发表时间:
    1993
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    J. Airey;M. Baring;C. Beck;Y. Chelliah;T. Deerinck;Mark Ellisman;L. Houenou;D. McKemy;J. Sutko;J. Talvenheimo
  • 通讯作者:
    J. Talvenheimo
Changes in synaptic morphology associated with presynaptic and postsynaptic activity: An in vitro study of the electrosensory organ of the thornback ray
与突触前和突触后活动相关的突触形态变化:刺背鳐电感觉器官的体外研究
  • DOI:
    10.1002/syn.890010407
  • 发表时间:
    1987
  • 期刊:
  • 影响因子:
    2.3
  • 作者:
    R. Fields;Mark Ellisman;S. Waxman
  • 通讯作者:
    S. Waxman
Differences in chloroplast ultrastructure of Phaeocystis antarctica in low and high light
弱光和强光下南极棕囊藻叶绿体超微结构的差异
  • DOI:
    10.1007/s00227-006-0321-5
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    2.4
  • 作者:
    T. Moisan;Mark Ellisman;Casey Buitenhuys;G. Sosinsky
  • 通讯作者:
    G. Sosinsky
The Telescience Project : Transparent Grid Access for Scientific Communities
远程科学项目:科学界的透明网格访问
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Lin;S. Peltier;Mark Ellisman
  • 通讯作者:
    Mark Ellisman
Molecular specializations of the axon membrane at nodes of Ranvier are not dependent upon myelination
朗飞节点轴突膜的分子特化不依赖于髓鞘形成
  • DOI:
    10.1007/bf01206672
  • 发表时间:
    1979
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Mark Ellisman
  • 通讯作者:
    Mark Ellisman

Mark Ellisman的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Mark Ellisman', 18)}}的其他基金

EAGER: An Interoperable Information Infrastructure for Biodiversity Research (I3BR)
EAGER:生物多样性研究的可互操作信息基础设施 (I3BR)
  • 批准号:
    1255035
  • 财政年份:
    2012
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
EAGER: Multi-Domain, Workflow Driven Computation System for Microbial Ecology Research and Analysis
EAGER:用于微生物生态学研究和分析的多领域、工作流驱动的计算系统
  • 批准号:
    1250265
  • 财政年份:
    2012
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
EAGER: An Exploration in Enabling Community-Driven Collaboration
EAGER:实现社区驱动协作的探索
  • 批准号:
    1153617
  • 财政年份:
    2011
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
RCN for Genomic and Metagenomic Standards
基因组和宏基因组标准的 RCN
  • 批准号:
    0840989
  • 财政年份:
    2009
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant
The Fourth International Congress on Electron Tomography to be held in San Diego, CA Nov 5-8, 2006.
第四届国际电子断层扫描大会将于 2006 年 11 月 5 日至 8 日在加利福尼亚州圣地亚哥举行。
  • 批准号:
    0602497
  • 财政年份:
    2006
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
Collaboratory For Microscopic Digital Anatomy
显微数字解剖学合作实验室
  • 批准号:
    9318180
  • 财政年份:
    1994
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant
COLLABORATIVE RESEARCH: Development of the Triad Junction inSkeletal Muscle
合作研究:骨骼肌三联结的发展
  • 批准号:
    9206879
  • 财政年份:
    1992
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
Jeol Jem-1200EX Bio Transmission Electron Microscope
Jeol Jem-1200EX 生物透射电子显微镜
  • 批准号:
    8914696
  • 财政年份:
    1990
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
3-D Computer Graphics and Analysis of Microscopic Images of Biological Structures
生物结构显微图像的 3D 计算机图形学和分析
  • 批准号:
    8822633
  • 财政年份:
    1989
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
Collaborative Project: Development of the Triad Junction in Skeletal Muscle
合作项目:骨骼肌三联结的开发
  • 批准号:
    8819423
  • 财政年份:
    1988
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
ARF鸟苷酸交换因子BIG1介导ACSL4依赖性铁死亡在非酒精性脂肪性肝炎中的作用及机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于Big Code深度背景增强的Android应用代码反混淆研究
  • 批准号:
    61972290
  • 批准年份:
    2019
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
BIG1介导STING囊泡转运在抗肺癌免疫反应中的作用及分子机制
  • 批准号:
    81903639
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
水稻Big Grain3 通过调控细胞分裂素转运调节籽粒大小
  • 批准号:
    2019JJ50243
  • 批准年份:
    2019
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
ARF鸟苷酸交换因子BIG1调控巨噬细胞重编程在脓毒症免疫抑制形成中的作用及机制研究
  • 批准号:
    81971488
  • 批准年份:
    2019
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
控制豆科作物器官大小关键基因BIG SEEDS1的功能与应用研究
  • 批准号:
    31771345
  • 批准年份:
    2017
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
生长素转运调控基因BIG介导高浓度CO2下气孔关闭的分子机制
  • 批准号:
    31171356
  • 批准年份:
    2011
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
ARF鸟苷酸交换因子BIG1定向调控ABCA1功能的分子机制
  • 批准号:
    81173056
  • 批准年份:
    2011
  • 资助金额:
    69.0 万元
  • 项目类别:
    面上项目
BIG2介导的GABAA型受体转运模式及信号调控机制
  • 批准号:
    31070924
  • 批准年份:
    2010
  • 资助金额:
    35.0 万元
  • 项目类别:
    面上项目

相似海外基金

Complex Big Data Processing Framework for Pervasice Traceability
用于普及可追溯性的复杂大数据处理框架
  • 批准号:
    23H03399
  • 财政年份:
    2023
  • 资助金额:
    $ 25万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Big Data for Complex Disease
复杂疾病的大数据
  • 批准号:
    HDR-23012
  • 财政年份:
    2023
  • 资助金额:
    $ 25万
  • 项目类别:
    Intramural
PFI-TT: A tool to automatically generate and optimize programs to operate on complex big data
PFI-TT:自动生成和优化程序以处理复杂大数据的工具
  • 批准号:
    2044424
  • 财政年份:
    2021
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
REU Site: Scientific computing for structure in big or complex datasets
REU 站点:大型或复杂数据集中结构的科学计算
  • 批准号:
    1949972
  • 财政年份:
    2020
  • 资助金额:
    $ 25万
  • 项目类别:
    Standard Grant
Deep Interaction Learning in Unlabelled Big Data and Complex Systems
无标签大数据和复杂系统中的深度交互学习
  • 批准号:
    FT190100734
  • 财政年份:
    2020
  • 资助金额:
    $ 25万
  • 项目类别:
    ARC Future Fellowships
In situ formulation of molecular complex during a pharmaceutical manufacturing process based on big-data analysis
基于大数据分析的药物制造过程中分子复合物的原位配制
  • 批准号:
    19J15135
  • 财政年份:
    2019
  • 资助金额:
    $ 25万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
CAREER: Advancing Latent Variable Statistical Modeling for the Analysis of Big and Complex Longitudinal Data to Promote Personalized Learning
职业:推进潜变量统计模型分析大而复杂的纵向数据以促进个性化学习
  • 批准号:
    1848451
  • 财政年份:
    2019
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant
CAREER: SPARK: A Theoretical Framework for Discovering Complex Patterns in Big Attributed Networks
职业:SPARK:发现大属性网络中复杂模式的理论框架
  • 批准号:
    1954376
  • 财政年份:
    2019
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant
Design and implementation of big complex semantic data management system
复杂大语义数据管理系统的设计与实现
  • 批准号:
    RGPIN-2014-05796
  • 财政年份:
    2018
  • 资助金额:
    $ 25万
  • 项目类别:
    Discovery Grants Program - Individual
CAREER: SPARK: A Theoretical Framework for Discovering Complex Patterns in Big Attributed Networks
职业:SPARK:发现大属性网络中复杂模式的理论框架
  • 批准号:
    1750911
  • 财政年份:
    2018
  • 资助金额:
    $ 25万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了