Tuning Large language models to read biological literature

调整大型语言模型以阅读生物文献

基本信息

  • 批准号:
    BB/Y514032/1
  • 负责人:
  • 金额:
    $ 23.78万
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Research Grant
  • 财政年份:
    2024
  • 资助国家:
    英国
  • 起止时间:
    2024 至 无数据
  • 项目状态:
    未结题

项目摘要

In this application, we focus on two related bioinformatics challenges that require interpretation and knowledge extraction from biological and biomedical literature at great scale.First, gene/genome databases store information on gene function, which is ultimately derived from scientific experiments with results reported in publications. It is exceptionally time-consuming and expensive for human curators to read all relevant scientific literature, interpret what has reported about the function or localisation of gene products, and assign specific controlled vocabulary terms (e.g. Gene Ontology terms) or short free text descriptions (gene names or product descriptions.Second, there are enormous volumes of raw data sets accompanying scientific publications, which are deposited in archival databases from expensive omics experiments, including mass spectrometry (MS) proteomics. Our group and others develop and apply pipelines for re-analysing MS data for new purposes, including annotating genomes, discovery of post-translational modifications and building quantitative atlases of species or tissues amongst others. There is a major bottleneck interpreting the original experimental design, sample descriptions and software parameters, which are currently described in blocks of free text submitted to the archival repository or within Materials and Methods sections of accompanying articles. For both challenges, we believe that with the recent extraordinary improvements in large language models (LLMs), they can be retrained and harnessed for these tasks, to remove the bottleneck in knowledge extraction from literature. Our group has significant expertise in bioinformatics and machine learning, but limited expertise in natural language processing (NLP) to date. In this international partnering application, we are collaborating with a leading group in artificial intelligence and NLP from the University of Pennsylvania (UPenn). The UPenn team will help to guide us in the optimal approach for re-training open source LLMs, using training data that our team has amassed over many years. We will produce open source code for the two challenge areas, with a longer term plan to put these into production within the context of major international databases and consortia, within which we have leading roles.
在这个应用程序中,我们专注于两个相关的生物信息学的挑战,需要解释和知识提取的生物和生物医学文献在大规模。首先,基因/基因组数据库存储的基因功能,这是最终从科学实验的结果报告在出版物中的信息。对于人类策展人来说,阅读所有相关的科学文献,解释关于基因产物的功能或定位的报道,并指定特定的受控词汇术语,是非常耗时和昂贵的(例如基因本体术语)或简短的自由文本描述(基因名称或产品描述)。其次,伴随着科学出版物,其从昂贵的组学实验(包括质谱(MS)蛋白质组学)中保存在档案数据库中。我们的团队和其他人开发和应用管道重新分析MS数据用于新的目的,包括注释基因组,发现翻译后修饰和构建物种或组织的定量图谱等。有一个主要的瓶颈解释原始的实验设计,样品描述和软件参数,这是目前描述的自由文本块提交给档案库或随附文章的材料和方法部分。对于这两个挑战,我们相信,随着最近大型语言模型(LLM)的非凡改进,它们可以被重新训练和利用来完成这些任务,以消除从文献中提取知识的瓶颈。我们的团队在生物信息学和机器学习方面拥有丰富的专业知识,但迄今为止在自然语言处理(NLP)方面的专业知识有限。在这个国际合作申请中,我们正在与宾夕法尼亚大学(UPenn)的人工智能和NLP领导小组合作。UPenn团队将帮助指导我们重新训练开源LLM的最佳方法,使用我们团队多年来积累的训练数据。我们将为这两个挑战领域制作开源代码,并制定长期计划,将这些代码投入主要国际数据库和联盟的生产,我们在其中发挥主导作用。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Antony McCabe其他文献

Antony McCabe的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

水稻穗粒数调控关键因子LARGE6的分子遗传网络解析
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
量子自旋液体中拓扑拟粒子的性质:量子蒙特卡罗和新的large-N理论
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    62 万元
  • 项目类别:
    面上项目
甘蓝型油菜Large Grain基因调控粒重的分子机制研究
  • 批准号:
    31972875
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
Large PB/PB小鼠 视网膜新生血管模型的研究
  • 批准号:
    30971650
  • 批准年份:
    2009
  • 资助金额:
    8.0 万元
  • 项目类别:
    面上项目
基因discs large在果蝇卵母细胞的后端定位及其体轴极性形成中的作用机制
  • 批准号:
    30800648
  • 批准年份:
    2008
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
LARGE基因对口腔癌细胞中α-DG糖基化及表达的分子调控
  • 批准号:
    30772435
  • 批准年份:
    2007
  • 资助金额:
    29.0 万元
  • 项目类别:
    面上项目

相似海外基金

Collaborative Research: Conference: Large Language Models for Biological Discoveries (LLMs4Bio)
合作研究:会议:生物发现的大型语言模型 (LLMs4Bio)
  • 批准号:
    2411529
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Standard Grant
Collaborative Research: Conference: Large Language Models for Biological Discoveries (LLMs4Bio)
合作研究:会议:生物发现的大型语言模型 (LLMs4Bio)
  • 批准号:
    2411530
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Standard Grant
Investigating the potential for developing self-regulation in foreign language learners through the use of computer-based large language models and machine learning
通过使用基于计算机的大语言模型和机器学习来调查外语学习者自我调节的潜力
  • 批准号:
    24K04111
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
SMILE - Semantic Modelling of Intent through Large-language Evaluations
SMILE - 通过大语言评估进行意图语义建模
  • 批准号:
    10097766
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Collaborative R&D
Multi-agent Self-improving of Large Language Models (LLMs)
大型语言模型 (LLM) 的多智能体自我改进
  • 批准号:
    2903811
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Studentship
Exploring Hotel Customer Experiences in Japan via Big Data and Large Language Model Analysis
通过大数据和大语言模型分析探索日本酒店客户体验
  • 批准号:
    24K21025
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Integrating Large Language Models for Long Horizon Task Planning in Multi-robot Scenarios
集成大型语言模型以实现多机器人场景中的长期任务规划
  • 批准号:
    24K07399
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Toward Trustworthy Generative AI by Integrating Large Language Model with Knowledge Graph
通过将大型语言模型与知识图相结合,迈向可信赖的生成式人工智能
  • 批准号:
    24K20834
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
CAREER: Efficient Large Language Model Inference Through Codesign: Adaptable Software Partitioning and FPGA-based Distributed Hardware
职业:通过协同设计进行高效的大型语言模型推理:适应性软件分区和基于 FPGA 的分布式硬件
  • 批准号:
    2339084
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Continuing Grant
CAREER: Regularizing Large Language Models for Safe and Reliable Program Generation
职业:规范大型语言模型以安全可靠地生成程序
  • 批准号:
    2340408
  • 财政年份:
    2024
  • 资助金额:
    $ 23.78万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了