MFB: Deep-Learning Enabled Structure Prediction and Design of Protein-DNA Assemblies

MFB:深度学习支持蛋白质-DNA 组装的结构预测和设计

基本信息

  • 批准号:
    2226466
  • 负责人:
  • 金额:
    $ 149.85万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-09-01 至 2025-08-31
  • 项目状态:
    未结题

项目摘要

In this Molecular Foundation for Biotechnology (MFB) project, Professors David Baker and Frank DiMaio of the Department of Biochemistry at the University of Washington, and Barry Stoddard of Basic Sciences at the Fred Hutchinson Cancer Center together are developing new ways to model and design protein-DNA complexes using deep-learning (DL) methods. To do this, they will develop three DL-based models: (1) a model for prediction of protein-DNA complex structures from sequence, (2) a model for sequence design of protein-DNA complexes, and (3) a model for quality assessment of protein-DNA complex structure predictions and designs. The DL models developed in this project will be leveraged in a pipeline for design of sequence-specific DNA binding miniproteins capable of targeting specified sequences of dsDNA. The use of the novel DL-based models in this context will be useful for validating model accuracy and will have broad impact as a powerful tool for designing protein-DNA interfaces for biotechnology applications, such as the design of novel transcription factors, nucleic acid modifying enzymes, and gene correction reagents. This project lies at the interface of DL research, computational protein design, biochemistry, and structural biology and will provide multi-disciplinary training for undergraduates, graduate students, and postdocs involved in the project. The primary goals of their outreach and education programs are to attract young people to careers in STEM (science, technology, engineering and mathematics) and improve training in biochemistry and computational protein design. The outreach plan involves a multi-pronged effort focused on engaging undergraduates through individually mentored summer research and a cohort-based undergraduate research program that will run during the academic year. Both efforts will be focused on training undergraduates in contemporary methods in computational protein design and experimental methods for validating protein function, including the novel methods developed in this proposal. This project seeks to develop a suite of machine learning/deep learning (ML/DL) techniques for modeling protein-DNA complexes. New tools capable of inferring protein-DNA complex structures, predicting the nucleotide specificity of DNA-binding proteins (DBPs), and evaluating accuracy of protein-DNA complex models would be invaluable in solving salient technological problems, such as developing novel transcription factors. Current approaches lack accuracy or are computationally intensive, primarily due to the difficulties in modeling indirect readout of DNA conformational flexibility, hydrogen bonding and electrostatic interactions, metal ion cofactors, and the highly solvated interfaces of protein-DNA complexes. The specific goals are to develop DL-based methods for (1) Inference of structure models of DNA and protein-DNA complexes from sequences and sequence alignments, based on the recently developed RoseTTAFold model, an ML framework for predicting protein structures; (2) A sequence prediction neural network for designing sequence specific DBPs and predicting their specificity given protein-DNA complex backbone information, and (3) An accuracy prediction model for evaluating structural models of protein-DNA complexes. The three DL methods developed in this project will be leveraged in the design of DBPs. Designed DBPs will be experimentally validated in a high-throughput pooled format using yeast display, cell sorting, and next-generation sequencing methods to approximate the binding affinity of pooled designs. Designs showing DNA binding activity in yeast display experiments will be further characterized for DNA binding affinity and specificity using in vitro biochemistry techniques and the design models will be confirmed with X-ray co-crystallization. Application of the ML models in this design context will provide validation of model accuracy and result in a powerful tool for designing protein-DNA interfaces for biotechnology applications, such as the design of novel transcription factors, nucleic acid modifying enzymes, and gene correction reagents. This project is jointly supported by the Division of Chemistry (CHE), the Division of Information and Intelligent Systems (IIS), and the Division of Physics (PHY).This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
在这个生物技术分子基金会(MFB)项目中,华盛顿大学生物化学系的大卫贝克教授和弗兰克·迪迈奥教授以及弗雷德哈钦森癌症中心基础科学的巴里斯托达德教授正在共同开发使用深度学习(DL)方法建模和设计蛋白质-DNA复合物的新方法。 为此,他们将开发三个基于DL的模型:(1)从序列预测蛋白质-DNA复合物结构的模型,(2)蛋白质-DNA复合物序列设计的模型,以及(3)蛋白质-DNA复合物结构预测和设计的质量评估模型。在这个项目中开发的DL模型将被利用在管道中,用于设计能够靶向特定dsDNA序列的序列特异性DNA结合小蛋白。 在这种情况下,使用新的DL为基础的模型将是有用的验证模型的准确性,并将具有广泛的影响,作为一个强大的工具,设计蛋白质-DNA接口的生物技术应用,如设计新的转录因子,核酸修饰酶,基因校正试剂。该项目位于DL研究,计算蛋白质设计,生物化学和结构生物学的接口,并将为参与该项目的本科生,研究生和博士后提供多学科培训。 其推广和教育计划的主要目标是吸引年轻人从事STEM(科学,技术,工程和数学)职业,并改善生物化学和计算蛋白质设计的培训。该推广计划涉及多管齐下的努力,重点是通过单独指导的夏季研究和将在学年期间运行的基于队列的本科生研究计划来吸引本科生。这两项工作都将集中在培养本科生在当代方法计算蛋白质设计和实验方法验证蛋白质功能,包括本提案中开发的新方法。该项目旨在开发一套机器学习/深度学习(ML/DL)技术,用于对蛋白质-DNA复合物进行建模。能够推断蛋白质-DNA复合物结构、预测DNA结合蛋白(DBPs)的核苷酸特异性以及评估蛋白质-DNA复合物模型的准确性的新工具将在解决突出的技术问题(例如开发新的转录因子)方面具有非常宝贵的价值。目前的方法缺乏准确性或计算密集型,主要是由于在建模的DNA构象的灵活性,氢键和静电相互作用,金属离子辅因子,和蛋白质-DNA复合物的高度溶剂化的界面的间接读出的困难。具体目标是开发基于DL的方法,用于(1)基于最近开发的RoseTTAFold模型(用于预测蛋白质结构的ML框架),从序列和序列比对推断DNA和蛋白质-DNA复合物的结构模型;(2)序列预测神经网络,用于设计序列特异性DBP并预测它们在给定蛋白质-DNA复合物骨架信息的情况下的特异性,(3)用于评价蛋白质-DNA复合物结构模型的精度预测模型。本项目中开发的三种DL方法将用于设计DBP。设计的DBP将使用酵母展示、细胞分选和下一代测序方法以高通量合并形式进行实验验证,以近似合并设计的结合亲和力。在酵母展示实验中显示DNA结合活性的设计将使用体外生物化学技术进一步表征DNA结合亲和力和特异性,并且将使用X射线共结晶来确认设计模型。ML模型在这种设计背景下的应用将提供模型准确性的验证,并导致生物技术应用中设计蛋白质-DNA界面的强大工具,例如设计新型转录因子,核酸修饰酶和基因校正试剂。该项目由化学部(CHE)、信息与智能系统部(IIS)和物理部(PHY)共同支持。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

David Baker其他文献

Designed repeat protein in complex with Fz7
设计与 Fz7 复合的重复蛋白
  • DOI:
    10.2210/pdb6ne2/pdb
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    16.8
  • 作者:
    Luke T. Dang;Y. Miao;A. Ha;Kanako Yuki;K. Park;C. Y. Janda;K. Jude;K. Mohan;N. Ha;Mario Vallon;Jenny Yuan;J. Vilches;C. Kuo;K. Garcia;David Baker
  • 通讯作者:
    David Baker
Trypanosoma cruzi adenylyl cyclase is encoded by a complex multigene family.
克氏锥虫腺苷酸环化酶由复杂的多基因家族编码。
VaxCelerate II: Rapid development of a self-assembling vaccine VaxCelerate II: Rapid development of a self-assembling vaccine for Lassa fever for Lassa fever
VaxCelerate II:快速开发拉沙热自组装疫苗 VaxCelerate II:快速开发拉沙热自组装疫苗
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Pierre Leblanc;L. Moise;Cybelle Luza;Kanawat Chantaralawan;Lynchy Lezeau;Jianping Yuan;M. Field;Daniel Richer;C. Boyle;William D Martin;Jordan B Fishman;Eric A Berg;David Baker;Brandon Zeigler;Dale E Mais;William Taylor;Russell Coleman;Shaw Warren;Jeffrey A. Gelfand;A. S. D. Groot;Timothy Brauns;M. Poznansky
  • 通讯作者:
    M. Poznansky
Big History’s Big Potential
大历史的大潜力
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    L. Grinin;David Baker;E. Quaedackers;Andrey Korotayev
  • 通讯作者:
    Andrey Korotayev
Engaging a community to focus on upper limb function in people with multiple sclerosis: the ThinkHand campaign case study
让社区关注多发性硬化症患者的上肢功能:ThinkHand 活动案例研究
  • DOI:
    10.1186/s40900-024-00586-y
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Alison Thomson;Rachel Horne;Christine Chapman;Trishna Bharadia;Patrick Burke;Elizabeth Colwell;Mark Harrington;Bonnie Boskovic;Andrea M Stennett;David Baker;Gavin Giovannoni;K. Schmierer
  • 通讯作者:
    K. Schmierer

David Baker的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('David Baker', 18)}}的其他基金

Co-production of a software tool for field-scale species distribution modelling (fs-SDM) and mapping using local biodiversity records
共同开发用于野外规模物种分布建模 (fs-SDM) 和使用当地生物多样性记录进行绘图的软件工具
  • 批准号:
    NE/V007726/1
  • 财政年份:
    2020
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Fellowship
CIBR: Collaborative Research: CIBR Expanding structure coverage of genomes to facilitate macromolecular assembly determination.
CIBR:协作研究:CIBR 扩大基因组的结构覆盖范围,以促进大分子组装测定。
  • 批准号:
    1937533
  • 财政年份:
    2019
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
Generation, functionalization, and distribution of de novo designed protein nanomaterials
从头设计的蛋白质纳米材料的生成、功能化和分布
  • 批准号:
    1629214
  • 财政年份:
    2016
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
RAPID: Empowering the Citizen Scientist in the Fight Against Ebolaviruses
RAPID:赋予公民科学家抗击埃博拉病毒的能力
  • 批准号:
    1523362
  • 财政年份:
    2015
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
I-Corps: Enterprise Rosetta Protein Modelling and Design Software on the Cloud
I-Corps:云端企业 Rosetta 蛋白质建模和设计软件
  • 批准号:
    1507114
  • 财政年份:
    2014
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
ERASynBio: BioMolecular Origami
ERASynBio:生物分子折纸
  • 批准号:
    1445201
  • 财政年份:
    2014
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
DMREF Integrating theory, computation and experiment to robustly design complex protein-based nanomaterials
DMREF 整合理论、计算和实验,稳健地设计复杂的基于蛋白质的纳米材料
  • 批准号:
    1332907
  • 财政年份:
    2013
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
SBIR Phase II: Serious Gaming Platform for Mastering the Physician-Patient Diagnostic Interview
SBIR 第二阶段:掌握医患诊断访谈的严肃游戏平台
  • 批准号:
    1230418
  • 财政年份:
    2012
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
Identical Particles and Statistics in Superselection Theory
超选择理论中的相同粒子和统计
  • 批准号:
    1127260
  • 财政年份:
    2011
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
SBIR Phase I: Serious Gaming Platform for Mastering the Physician-Patient Diagnostic Interview
SBIR 第一阶段:掌握医患诊断访谈的严肃游戏平台
  • 批准号:
    1046589
  • 财政年份:
    2011
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant

相似国自然基金

基于Deep Unrolling的高分辨近红外二区荧光分子断层成像方法研究
  • 批准号:
    12271434
  • 批准年份:
    2022
  • 资助金额:
    46 万元
  • 项目类别:
    面上项目
基于深度森林(Deep Forest)模型的表面增强拉曼光谱分析方法研究
  • 批准号:
    2020A151501709
  • 批准年份:
    2020
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
面向Deep Web的数据整合关键技术研究
  • 批准号:
    61872168
  • 批准年份:
    2018
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
具有时序处理能力的Spiking-Deep Learning(脉冲深度学习)方法研究
  • 批准号:
    61573081
  • 批准年份:
    2015
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
基于语义计算的海量Deep Web知识探索机制研究
  • 批准号:
    61272411
  • 批准年份:
    2012
  • 资助金额:
    80.0 万元
  • 项目类别:
    面上项目
Deep Web数据集成查询结果抽取与整合关键技术研究
  • 批准号:
    61100167
  • 批准年份:
    2011
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
面向Deep Web的大规模知识库自动构建方法研究
  • 批准号:
    61170020
  • 批准年份:
    2011
  • 资助金额:
    57.0 万元
  • 项目类别:
    面上项目
Deep Web敏感聚合信息保护方法研究
  • 批准号:
    61003054
  • 批准年份:
    2010
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于逻辑强化学习的Deep Web模式匹配研究
  • 批准号:
    61070122
  • 批准年份:
    2010
  • 资助金额:
    32.0 万元
  • 项目类别:
    面上项目

相似海外基金

CAREER: Adaptive Deep Learning Systems Towards Edge Intelligence
职业:迈向边缘智能的自适应深度学习系统
  • 批准号:
    2338512
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Continuing Grant
CRII: OAC: A Compressor-Assisted Collective Communication Framework for GPU-Based Large-Scale Deep Learning
CRII:OAC:基于 GPU 的大规模深度学习的压缩器辅助集体通信框架
  • 批准号:
    2348465
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
Deep Learningを活用した超音波ガイドによる安全な静脈穿刺法の開発
利用深度学习的超声引导开发安全静脉穿刺方法
  • 批准号:
    24K13362
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
MFB: Better Homologous Folding using Computational Linguistics and Deep Learning
MFB:使用计算语言学和深度学习更好的同源折叠
  • 批准号:
    2330737
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Standard Grant
深層学習(Deep learning)による骨転移検出AIモデルの開発と臨床応用
深度学习骨转移检测AI模型开发及临床应用
  • 批准号:
    24K18754
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Deep Learningを活用した安静時心電図からの非侵襲的冠動脈疾患予測
使用深度学习通过静息心电图进行无创冠状动脉疾病预测
  • 批准号:
    24K19024
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
DMS-EPSRC: Asymptotic Analysis of Online Training Algorithms in Machine Learning: Recurrent, Graphical, and Deep Neural Networks
DMS-EPSRC:机器学习中在线训练算法的渐近分析:循环、图形和深度神经网络
  • 批准号:
    EP/Y029089/1
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Research Grant
Navigating Chemical Space with Natural Language Processing and Deep Learning
利用自然语言处理和深度学习驾驭化学空间
  • 批准号:
    EP/Y004167/1
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Research Grant
Developing and Visualising a Retrieval-Augmented Deep Learning Model for Population Health Management
开发和可视化用于人口健康管理的检索增强深度学习模型
  • 批准号:
    2905946
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Studentship
Deep Learning with Limited Data for Battery Materials Design
电池材料设计中数据有限的深度学习
  • 批准号:
    EP/Y000552/1
  • 财政年份:
    2024
  • 资助金额:
    $ 149.85万
  • 项目类别:
    Research Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了