Improving accuracy, coverage, and sustainability of functional protein annotation in InterPro, Pfam and FunFam using Deep Learning methods

使用深度学习方法提高 InterPro、Pfam 和 FunFam 中功能蛋白注释的准确性、覆盖范围和可持续性

基本信息

  • 批准号:
    BB/X018660/1
  • 负责人:
  • 金额:
    $ 95.75万
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Research Grant
  • 财政年份:
    2024
  • 资助国家:
    英国
  • 起止时间:
    2024 至 无数据
  • 项目状态:
    未结题

项目摘要

Proteins are macromolecules responsible for biological processes in the cell. At their most basic level, they consist of a sequence of amino acids, determined by the sequence of nucleotides (the ATGC building blocks of life) in a gene. Proteins usually fold into three-dimensional structures, allowing them to interact with other molecules and perform their functions. Recent advances in sequencing technologies have led to a substantial accumulation of protein data, and our capacity of generating new protein sequences has surpassed our ability to fully understand their functions. Therefore, it is crucial to develop computational methods that identify sequence or structural similarities between characterised and uncharacterised proteins to transfer functional information from the former to the latter.InterPro, Pfam and FunFam are world-leading, UK-based resources that group similar protein sequences together, forming protein families. Pfam is a collection of protein domain families containing functional annotations. FunFam focuses on protein structural domains that share a common function. InterPro merges information from 13 expert protein databases, including Pfam and FunFam, into a single searchable resource, and further annotates protein families.In the past few years, Artificial Intelligence methods have been successfully applied to several biological applications. For instance, DeepMind's AlphaFold has revolutionised the prediction of how protein sequences fold into three-dimensional structures. Several promising tools are being developed by our collaborators to better identify protein families using Deep Learning (DL). These methods outperform current state-of-the-art approaches in terms of accuracy, coverage and computing efficiency, thus making them more environmentally sustainable.In this ambitious project, we will improve the efficiency, accuracy, and sustainability of InterPro, Pfam and FunFam. This will be accomplished by reducing the technical debt of Pfam, established almost three decades ago, adopting DL approaches to enhance the classification of protein sequences into families, and significantly reducing the carbon footprint of sequence annotation. Finally, we will improve the annotation of agriculturally important plant pathogens, resulting in the creation of hundreds of additional InterPro and Pfam entries.
蛋白质是负责细胞生物过程的大分子。在最基本的水平上,它们由一系列氨基酸组成,该氨基酸由基因中的核苷酸序列(ATGC构建块)确定。蛋白质通常折叠成三维结构,使其与其他分子相互作用并执行其功能。测序技术的最新进展导致了蛋白质数据的大量积累,我们产生新蛋白质序列的能力超过了我们完全理解其功能的能力。因此,开发计算方法至关重要,以识别特征性和未表征蛋白质之间的序列或结构相似性,以将功能信息从前者传递到后者。InterPro,PFAM和Funfam是基于世界领先的英国资源,这些资源是将相似的蛋白质序列组合在一起的,形成蛋白质家族。 PFAM是包含功能注释的蛋白质结构域家族的集合。 Funfam专注于具有共同功能的蛋白质结构域。 Interpro将包括PFAM和Funfam在内的13个专家蛋白质数据库中的信息合并为一个可搜索的资源,并进一步注释蛋白质家族。在过去的几年中,人工智能方法已成功地应用于几种生物应用。例如,DeepMind的Alphafold彻底改变了蛋白质序列如何折叠成三维结构的预测。我们的合作者正在开发几种有希望的工具,以更好地使用深度学习(DL)识别蛋白质家族。这些方法在准确性,覆盖效率和计算效率方面的表现优于当前最新方法,从而使它们在环境方面更可持续。在这个雄心勃勃的项目中,我们将提高Interpro,PFAM和Funfam的效率,准确性和可持续性。这将通过减少近三十年前建立的PFAM的技术债务来实现,并采用DL方法来增强蛋白质序列分类为家族,并大大减少序列注释的碳足迹。最后,我们将改善农业重要的植物病原体的注释,从而产生数百个额外的Interpro和PFAM条目。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Alex Bateman其他文献

Bioinformatics Advance Access published May 31, 2007
生物信息学高级访问发表于 2007 年 5 月 31 日
  • DOI:
    10.1007/s10015-009-0735-5
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0.9
  • 作者:
    Alex Bateman
  • 通讯作者:
    Alex Bateman
Bioinformatics Applications Note Databases and Ontologies Codex: Exploration of Semantic Changes between Ontology Versions
生物信息学应用笔记数据库和本体法典:本体版本之间语义变化的探索
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Michael Hartung;Anika Groß;E. Rahm;Alex Bateman
  • 通讯作者:
    Alex Bateman

Alex Bateman的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Alex Bateman', 18)}}的其他基金

UKRI/BBSRC-NSF/BIO: Unifying Pfam protein sequence and ECOD structural classifications with structure models
UKRI/BBSRC-NSF/BIO:通过结构模型统一 Pfam 蛋白质序列和 ECOD 结构分类
  • 批准号:
    BB/X012492/1
  • 财政年份:
    2023
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
Exploiting data driven computational approaches for understanding protein structure and function in InterPro and Pfam
利用数据驱动的计算方法来理解 InterPro 和 Pfam 中的蛋白质结构和功能
  • 批准号:
    BB/S020381/1
  • 财政年份:
    2019
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
Rfam: The community resource for RNA families
Rfam:RNA 家族的社区资源
  • 批准号:
    BB/S020462/1
  • 财政年份:
    2019
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
RNAcentral, the RNA sequence database
RNAcentral,RNA 序列数据库
  • 批准号:
    BB/N019199/1
  • 财政年份:
    2017
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
Rfam: Towards a sustainable resource for understanding the genomic functional ncRNA repertoire
Rfam:寻找了解基因组功能 ncRNA 库的可持续资源
  • 批准号:
    BB/M011690/1
  • 财政年份:
    2015
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
Keeping pace with protein sequence annotation; consolidating and enhancing Pfam and InterPro's methodologies for functional prediction
与蛋白质序列注释保持同步;
  • 批准号:
    BB/L024136/1
  • 财政年份:
    2014
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
The RNAcentral database of non-coding RNAs
非编码RNA的RNA中央数据库
  • 批准号:
    BB/J019232/1
  • 财政年份:
    2012
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
Embracing new technologies to streamline improve and sustain InterPro and its contributing databases
采用新技术来简化、改进和维护 InterPro 及其贡献数据库
  • 批准号:
    BB/F010435/1
  • 财政年份:
    2008
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant

相似国自然基金

非球形粒子对气溶胶微物理特性反演与辐射效应评估准确性的影响研究
  • 批准号:
    42305082
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
信息不完备条件下虚假信息治理研究
  • 批准号:
    72301284
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
面向公平性与准确性统一的推荐方法研究:基于模型偏差消解视角
  • 批准号:
    72301239
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向开放域对话系统信息获取的准确性研究
  • 批准号:
    62376067
  • 批准年份:
    2023
  • 资助金额:
    51 万元
  • 项目类别:
    面上项目
元记忆监测准确性的认知与神经机制:线索的层级作用
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    54 万元
  • 项目类别:
    面上项目

相似海外基金

Improving accuracy, coverage, and sustainability of functional protein annotation in InterPro, Pfam and FunFam using Deep Learning methods PID 7012435
使用深度学习方法提高 InterPro、Pfam 和 FunFam 中功能蛋白注释的准确性、覆盖范围和可持续性 PID 7012435
  • 批准号:
    BB/X018563/1
  • 财政年份:
    2024
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
Alzheimer Diagnosis in older Adults with Chronic Conditions ADACC Network
患有慢性病的老年人的阿尔茨海默病诊断 ADACC 网络
  • 批准号:
    10726511
  • 财政年份:
    2023
  • 资助金额:
    $ 95.75万
  • 项目类别:
Increasing the Coverage and Accuracy of CATH for Comparative Genomics and Variant Interpretation
提高比较基因组学和变异解释的 CATH 的覆盖范围和准确性
  • 批准号:
    BB/R015201/1
  • 财政年份:
    2019
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
Increasing the Coverage and Accuracy of CATH for Comparative Genomics and Variant Interpretation
提高比较基因组学和变异解释的 CATH 的覆盖范围和准确性
  • 批准号:
    BB/R014892/1
  • 财政年份:
    2018
  • 资助金额:
    $ 95.75万
  • 项目类别:
    Research Grant
Effect of the resolution and accuracy of geodata on RF coverage prediction
地理数据分辨率和精度对射频覆盖预测的影响
  • 批准号:
    416087-2011
  • 财政年份:
    2011
  • 资助金额:
    $ 95.75万
  • 项目类别:
    University Undergraduate Student Research Awards
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了