An interactive tool for in-depth and reproducible analysis of RNA-seq data
用于对 RNA-seq 数据进行深入且可重复分析的交互式工具
基本信息
- 批准号:10432078
- 负责人:
- 金额:$ 18.2万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2020
- 资助国家:美国
- 起止时间:2020-09-02 至 2024-06-30
- 项目状态:已结题
- 来源:
- 关键词:AdoptedArabidopsisArchitectureAreaBioconductorBioinformaticsBiologicalBiologyClassificationCodeCollaborationsCommunitiesCommunity IntegrationComputer softwareCountryDNA Microarray ChipDataData AnalysesData SetDatabasesDevelopmentDisadvantagedDiseaseDocumentationEncapsulatedFeedbackFloodsGene set enrichment analysisGenerationsGenesGenomeGoalsGuanine + Cytosine CompositionHumanInstitutionLengthLettersMeta-AnalysisMethodsMicroRNAsModelingMolecularMusOntologyOrganismPaperPathway AnalysisPathway interactionsProcessRNA analysisReportingReproducibilityResearchResearch PersonnelResourcesRetrievalSamplingSideStatistical Data InterpretationSupervisionSurveysTechniquesTestingTimeTissue-Specific Gene ExpressionTissuesTranslatingUpdateVisitVisualizationWorkWritingapplication programming interfacebasedata visualizationdesigndifferential expressionexperiencegenomic datagraphical user interfacehigh throughput technologyimprovedinnovationinsightinteractive toolknowledge baseknowledgebaselarge datasetsprogramsprotein protein interactionprototypesingle-cell RNA sequencingtooltranscription factortranscriptome sequencingtranscriptomicsuser-friendlyweb appweb site
项目摘要
PROJECT SUMMARY
Bioinformatic analysis of large genomic datasets is a critical barrier for many biologists, especially
those at smaller research institutions. Leveraging our team's bioinformatics experience, our goal is to
develop an interactive web application that can be used to easily translate RNA sequencing data
into biological insights. We hypothesized that an integrated tool for reproducible, in-depth analysis of
expression data will democratize access to high-throughput technologies and help biologists pinpoint
molecular pathways from large data. Our goal is to develop a carefully-designed user-friendly pipeline
with rich data visualization capacity. As a proof of concept, the team developed a prototype called iDEP
(integrated Differential Expression and Pathway analysis) for the analysis of summarized expression
matrices. It's unique features include (1) comprehensive analytic functionality based on 63 R and
Bioconductor packages, covering exploratory data analysis, clustering, differential gene expression and
pathway analysis; (2) a massive knowledgebase for automatic gene ID conversion, annotation, and
pathway analysis for over 2000 archaeal, bacterial and eukaryotic species; (3) reproducibility of some
core steps by generating R and R Markdown notebooks; (4) application programming interfaces (APIs)
for retrieval of protein-protein interaction networks and KEGG pathway diagrams, and (5) easy access
to about 13000 processed public RNA-seq data in 9 species. Compared with existing tools, the key
innovation is the emphasis on deep integration (tools, annotation, pathways, and public datasets), user-
friendliness, and reproducibility. Even with limited features, iDEP is beginning to be adopted by
researchers from diverse fields.
In this proposal, the team plans to complete the development of iDEP. The goal of Specific Aim 1 is
to (a) re-write iDEP in a modular, object-oriented fashion, (b) make an R package for generating fully
reproducible R Markdown notebooks, and (c) add essential functionalities such as bias correction (batch
effect, GC content, gene length, expression level), time-course analysis, supervised classification, and
additional methods for existing functional modules. We will also enable gene ontology enrichment
analysis for unannotated species using Blast2GO. Specific Aim 2 focuses on (a) substantially
expanding the pathway database for frequently studied species and (b) collecting more uniformly
processed RNA-seq and DNA microarray datasets to facilitate the re-analysis and meta-analysis of
public expression data. In Specific Aim 3, the team will conduct hardware upgrade, rigorous testing,
code review, documentation, and community integration. The development of iDEP can help make
standard RNA-seq analysis accessible for a very broad community of researchers.
项目摘要
大型基因组数据集的生物信息学分析是许多生物学家的关键障碍,尤其是
较小的研究机构的人。利用我们团队的生物信息学经验,我们的目标是
开发一个可以用来轻松翻译RNA测序数据的交互式Web应用程序
进入生物学见解。我们假设是一种用于重复,深入分析的集成工具
表达数据将民主化对高通量技术的访问,并帮助生物学家确定
大数据的分子途径。我们的目标是开发精心设计的用户友好管道
具有丰富的数据可视化能力。作为概念证明,团队开发了一个名为IDEP的原型
(综合差分表达和途径分析)用于分析汇总表达
矩阵。它的独特功能包括(1)基于63 R和的综合分析功能
生物导管包,涵盖探索性数据分析,聚类,差异基因表达和
途径分析; (2)自动基因ID转换,注释和
超过2000年古细菌,细菌和真核物种的途径分析; (3)某些人的可重复性
通过生成R和R Markdown笔记本电脑的核心步骤; (4)应用程序编程接口(API)
用于检索蛋白质 - 蛋白质相互作用网络和KEGG途径图,以及(5)轻松访问
在9种中约有13000个处理的公共RNA-seq数据。与现有工具相比,关键
创新是强调深度集成(工具,注释,途径和公共数据集),用户 -
友善和可重复性。即使功能有限,IDEP也开始被
来自不同领域的研究人员。
在此提案中,团队计划完成IDEP的发展。特定目标的目的1是
到(a)以模块化的,面向对象的方式重写IDEP,(b)制作一个r包装,以完全生成
可重复的R Markdown笔记本电脑,(c)添加基本功能,例如偏差校正(批次
效应,GC含量,基因长度,表达水平),时间表分析,监督分类和
现有功能模块的其他方法。我们还将启用基因本体论的丰富
使用BLAST2GO分析未注释的物种。特定的目标2重点是(a)
扩展经常研究的物种的途径数据库,(b)更均匀地收集
处理的RNA-SEQ和DNA微阵列数据集,以促进重新分析和荟萃分析
公共表达数据。在特定的AIM 3中,团队将进行硬件升级,严格的测试,
代码审查,文档和社区集成。 IDEP的开发可以帮助
标准RNA-seq分析可用于非常广泛的研究人员社区。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Xijin Ge其他文献
Xijin Ge的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Xijin Ge', 18)}}的其他基金
An interactive tool for in-depth and reproducible analysis of RNA-seq data
用于对 RNA-seq 数据进行深入且可重复分析的交互式工具
- 批准号:
10657551 - 财政年份:2020
- 资助金额:
$ 18.2万 - 项目类别:
An interactive tool for in-depth and reproducible analysis of RNA-seq data
用于对 RNA-seq 数据进行深入且可重复分析的交互式工具
- 批准号:
10252004 - 财政年份:2020
- 资助金额:
$ 18.2万 - 项目类别:
An interactive tool for in-depth and reproducible analysis of RNA-seq data
用于对 RNA-seq 数据进行深入且可重复分析的交互式工具
- 批准号:
9978200 - 财政年份:2020
- 资助金额:
$ 18.2万 - 项目类别:
Large-scale expression analysis of natural antisense transcripts
天然反义转录本的大规模表达分析
- 批准号:
8054875 - 财政年份:2009
- 资助金额:
$ 18.2万 - 项目类别:
Large-scale expression analysis of natural antisense transcripts
天然反义转录本的大规模表达分析
- 批准号:
8248786 - 财政年份:2009
- 资助金额:
$ 18.2万 - 项目类别:
Large-scale expression analysis of natural antisense transcripts
天然反义转录本的大规模表达分析
- 批准号:
7791283 - 财政年份:2009
- 资助金额:
$ 18.2万 - 项目类别:
相似国自然基金
拟南芥转录因子ERF012调控ABA信号和种子萌发的分子机制
- 批准号:32300281
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
二价染色质调控拟南芥响应发育与环境信号的分子与表观遗传机理研究
- 批准号:32330007
- 批准年份:2023
- 资助金额:219 万元
- 项目类别:重点项目
拟南芥TTM3在网格蛋白介导的内吞作用和极性生长素运输中功能的研究
- 批准号:32370325
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
拟南芥SICKLE调控应激颗粒和耐热性的分子机制
- 批准号:32370324
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
拟南芥PSY1多肽与其受体PSY1R协同抑制叶片衰老的机理研究
- 批准号:32370374
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
相似海外基金
An interactive tool for in-depth and reproducible analysis of RNA-seq data
用于对 RNA-seq 数据进行深入且可重复分析的交互式工具
- 批准号:
10657551 - 财政年份:2020
- 资助金额:
$ 18.2万 - 项目类别:
An interactive tool for in-depth and reproducible analysis of RNA-seq data
用于对 RNA-seq 数据进行深入且可重复分析的交互式工具
- 批准号:
10252004 - 财政年份:2020
- 资助金额:
$ 18.2万 - 项目类别:
An interactive tool for in-depth and reproducible analysis of RNA-seq data
用于对 RNA-seq 数据进行深入且可重复分析的交互式工具
- 批准号:
9978200 - 财政年份:2020
- 资助金额:
$ 18.2万 - 项目类别:
Amyloid elimination by Hsp104 and substrate-optimized variants
Hsp104 和底物优化变体消除淀粉样蛋白
- 批准号:
7429951 - 财政年份:2007
- 资助金额:
$ 18.2万 - 项目类别:
Gene Expression in Cancer by Microarray Hybridization
通过微阵列杂交在癌症中进行基因表达
- 批准号:
7417757 - 财政年份:1997
- 资助金额:
$ 18.2万 - 项目类别: