Machine learning driven codon optimisation for heterologous protein expression

机器学习驱动的异源蛋白表达密码子优化

基本信息

  • 批准号:
    2599698
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Studentship
  • 财政年份:
    2021
  • 资助国家:
    英国
  • 起止时间:
    2021 至 无数据
  • 项目状态:
    未结题

项目摘要

Project Description for Advert (max 500 words). This will be the text that is advertised to prospective students:BACKGROUND. Expression of proteins requires the transcription of DNA into RNA, followed by its translation into amino acid sequences. Each amino acid is encoded by triplets of nucleotides, called codons, which are universal in Nature. However, an amino acid can be encoded by different codons, a phenomenon known as degeneracy of the genetic code, and the use of a codon instead of another affects downstream protein abundance. Interestingly, despite the synthesis machinery is relatively conserved across species, synonymous codons usage varies across species and even across genes, as a function of a number of factors, including GC content, recombination rates, mRNA stability and codon position [Novoa et al, 2019]. Moreover, it has been shown that once a given codon is used, subsequent codons encoding the same amino acid are not randomly picked but follow complex combinatorial patterns [Cannarozzi et al, 2010].Despite the wealth of knowledge generated by high-throughput sequencing and proteomics experiments, the rules underpinning codon usage are mostly unknown. From an industrial biotechnology perspective, this knowledge gap limits our ability to efficiently express heterologous proteins and to optimise properties for end-user applications, such as solubility [Pellizza et al, 2018]. AIMS AND OBJECTIVES. In collaboration with Fujifilm Diosynth Biotechnologies UK (FDBK), we propose to learn codon usage rules by rephrasing protein synthesis as a language modelling problem. We will then use deep learning in order to capture complex epistatic and evolutionary patterns associated with highly expressed genes and with optimal solubility. Ultimately, these models will be validated in silico and in-vivo.WORKPLAN. The project is structured in 3 work packages. - WP1 - the student will collect transcriptomic data for E. coli from public repositories and generate a dataset of curated transcripts and associated protein sequences. - WP2 - the student will develop a neural language model to convert amino acid sequences into DNA sequences, by taking into account evolutionary information and protein function. - WP3 - experimental validation of models' effectiveness, by synthesizing, building and expressing codon optimised proteins in E. coli and performing downstream comparison against wild-type variants and genes optimised with existing methods.TRAINING PROGRAM. The student will receive training in machine learning, statistical learning and deep learning, and will build a competitive profile in biological sequence modelling and design. The student will be also introduced to the emerging field of synthetic biology and will learn modern DNA cloning and assembly techniques and the use of protein expression systems at scale. We also put a strong emphasis on reproducible research; the student will receive training in advanced research software engineering and in reproducible workflows for data analyses.
广告项目描述(最多500字)。这将是广告给未来的学生的文本:背景。蛋白质的表达需要将DNA转录成RNA,然后将其翻译成氨基酸序列。每个氨基酸都由称为密码子的三联核苷酸编码,密码子在自然界中是通用的。然而,一种氨基酸可以由不同的密码子编码,这种现象称为遗传密码的简并性,并且使用密码子而不是另一个影响下游蛋白质丰度。有趣的是,尽管合成机制在物种间相对保守,但同义密码子的使用在物种间甚至在基因间存在差异,这取决于许多因素,包括GC含量、重组率、mRNA稳定性和密码子位置[Novoa et al,2019]。此外,已经表明,一旦使用给定的密码子,编码相同氨基酸的后续密码子不是随机挑选的,而是遵循复杂的组合模式[Cannarozzi et al,2010]。尽管高通量测序和蛋白质组学实验产生了丰富的知识,但支撑密码子使用的规则大多是未知的。从工业生物技术的角度来看,这种知识差距限制了我们有效表达异源蛋白质和优化最终用户应用特性(如溶解度)的能力[Pellizza et al,2018]。目标和目标。与Fujifilm Diosynth Biotechnologies UK(FDBK)合作,我们建议通过将蛋白质合成重新表述为语言建模问题来学习密码子使用规则。然后,我们将使用深度学习来捕获与高表达基因和最佳溶解度相关的复杂上位性和进化模式。最终,这些模型将通过计算机模拟和体内验证。工作计划。该项目分为三个工作包。- WP 1-学生将收集E.从公共知识库中提取大肠杆菌,并生成策划的转录本和相关蛋白质序列的数据集。- WP 2-学生将开发一个神经语言模型,通过考虑进化信息和蛋白质功能,将氨基酸序列转换为DNA序列。- WP 3-通过在大肠杆菌中合成、构建和表达密码子优化的蛋白质,实验验证模型的有效性。大肠杆菌中进行比较,并与野生型变异体和用现有方法优化的基因进行下游比较。学生将接受机器学习,统计学习和深度学习方面的培训,并将在生物序列建模和设计方面建立有竞争力的形象。学生还将被介绍到合成生物学的新兴领域,并将学习现代DNA克隆和组装技术以及大规模使用蛋白质表达系统。我们还非常重视可重复研究;学生将接受高级研究软件工程和数据分析可重复工作流程的培训。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

其他文献

Internet-administered, low-intensity cognitive behavioral therapy for parents of children treated for cancer: A feasibility trial (ENGAGE).
针对癌症儿童父母的互联网管理、低强度认知行为疗法:可行性试验 (ENGAGE)。
  • DOI:
    10.1002/cam4.5377
  • 发表时间:
    2023-03
  • 期刊:
  • 影响因子:
    4
  • 作者:
  • 通讯作者:
Differences in child and adolescent exposure to unhealthy food and beverage advertising on television in a self-regulatory environment.
在自我监管的环境中,儿童和青少年在电视上接触不健康食品和饮料广告的情况存在差异。
  • DOI:
    10.1186/s12889-023-15027-w
  • 发表时间:
    2023-03-23
  • 期刊:
  • 影响因子:
    4.5
  • 作者:
  • 通讯作者:
The association between rheumatoid arthritis and reduced estimated cardiorespiratory fitness is mediated by physical symptoms and negative emotions: a cross-sectional study.
类风湿性关节炎与估计心肺健康降低之间的关联是由身体症状和负面情绪介导的:一项横断面研究。
  • DOI:
    10.1007/s10067-023-06584-x
  • 发表时间:
    2023-07
  • 期刊:
  • 影响因子:
    3.4
  • 作者:
  • 通讯作者:
ElasticBLAST: accelerating sequence search via cloud computing.
ElasticBLAST:通过云计算加速序列搜索。
  • DOI:
    10.1186/s12859-023-05245-9
  • 发表时间:
    2023-03-26
  • 期刊:
  • 影响因子:
    3
  • 作者:
  • 通讯作者:
Amplified EQCM-D detection of extracellular vesicles using 2D gold nanostructured arrays fabricated by block copolymer self-assembly.
使用通过嵌段共聚物自组装制造的 2D 金纳米结构阵列放大 EQCM-D 检测细胞外囊泡。
  • DOI:
    10.1039/d2nh00424k
  • 发表时间:
    2023-03-27
  • 期刊:
  • 影响因子:
    9.7
  • 作者:
  • 通讯作者:

的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('', 18)}}的其他基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    --
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Understanding structural evolution of galaxies with machine learning
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
  • 批准号:
    62003314
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
  • 批准号:
    61902016
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
儿童音乐能力发展对语言与社会认知能力及脑发育的影响
  • 批准号:
    31971003
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
  • 批准号:
    61806040
  • 批准年份:
    2018
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
多场景网络学习中基于行为-情感-主题联合建模的学习者兴趣挖掘关键技术研究
  • 批准号:
    61702207
  • 批准年份:
    2017
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于异构医学影像数据的深度挖掘技术及中枢神经系统重大疾病的精准预测
  • 批准号:
    61672236
  • 批准年份:
    2016
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目

相似海外基金

Revolutionizing Seamless Precipitation Forecast: Machine Learning-Driven Assimilation of Satellite Precipitation Observations in NICAM-LETKF for Powering Global Diurnal and Heavy Rainfall Predictions
彻底改变无缝降水预报:NICAM-LETKF 中机器学习驱动的卫星降水观测同化,为全球昼夜和强降雨预测提供支持
  • 批准号:
    24K17129
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Automated, Scalable, and Machine Learning-Driven Approach for Generating and Optimizing Scientific Application Codes
用于生成和优化科学应用代码的自动化、可扩展且机器学习驱动的方法
  • 批准号:
    23K24856
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
CAREER: Design of Cellular Mechanical Metamaterials under Uncertainty with Physics-Informed and Data-Driven Machine Learning
职业:利用物理信息和数据驱动的机器学习在不确定性下设计细胞机械超材料
  • 批准号:
    2236947
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Collaborative Research: Advancing the Science of STEM Interest Development through Educational Gameplay with Machine Learning and Data-driven Interviews
合作研究:通过机器学习和数据驱动访谈的教育游戏推进 STEM 兴趣发展科学
  • 批准号:
    2301173
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Collaborative Research: Advancing the Science of STEM Interest Development through Educational Gameplay with Machine Learning and Data-driven Interviews
合作研究:通过机器学习和数据驱动访谈的教育游戏推进 STEM 兴趣发展科学
  • 批准号:
    2301172
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
CAREER: Towards Provenance-Driven Understanding of Machine Learning Robustness
职业:对机器学习鲁棒性的起源驱动理解
  • 批准号:
    2238084
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
CAREER: Data-driven design of graphene oxide for environmental applications enabled by natural language processing and machine learning techniques
职业:通过自然语言处理和机器学习技术实现氧化石墨烯环境应用的数据驱动设计
  • 批准号:
    2238415
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
BRITE-Eye: An integrated discovery engine for CNS therapeutic targets driven by high throughput genetic screens, functional readouts in human neurons, and machine learning
BRITE-Eye:由高通量遗传筛选、人类神经元功能读数和机器学习驱动的中枢神经系统治疗靶点的集成发现引擎
  • 批准号:
    10699137
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Improving data-driven design using physical model-based machine learning
使用基于物理模型的机器学习改进数据驱动设计
  • 批准号:
    23K13239
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Data-Driven Scheduling of Orthopaedic Surgical Services: An End-to-End Framework with Machine Learning and Mathematical Optimization
数据驱动的骨科手术服务调度:具有机器学习和数学优化的端到端框架
  • 批准号:
    490488
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Operating Grants
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了