Interpreting function of non-coding sequences with synthetic biology and machine learning

用合成生物学和机器学习解释非编码序列的功能

基本信息

  • 批准号:
    10417177
  • 负责人:
  • 金额:
    $ 3.08万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-07-01 至 2023-06-04
  • 项目状态:
    已结题

项目摘要

PROJECT SUMMARY/ABSTRACT Most disease-associated variants lie in non-coding regions of the genome and exert their influence through effects on gene expression. However, we lack a predictive framework to interpret such non-coding variants, limiting how genomic data is used in precision medicine. We may be able to interpret non-coding variants with new machine learning algorithms, but so far the practical applications of machine learning in functional genomics have been limited because of two major challenges. First, the size and diversity of training data sets in functional genomics are orders of magnitude smaller than in applications where machine learning has been successful, such as image recognition and product recommendation. A second challenge is that if training data are not collected in an appropriate in vitro cellular model, then the resulting machine learning models may not generalize to relevant in vivo cell types. To improve the application of machine learning to non-coding variants, I propose to address both the limited size of training data sets and the efficacy of cell culture models. A core principle of machine learning is that model performance improves with more data. In Aim 1, I propose to increase the size and diversity of training data by performing iterative cycles of machine learning and experimental validation with Massively Parallel Reporter Assays (MPRAs). The key aspect of my approach is to algorithmically design each successive MPRA library to contain sequences that are most likely to improve the next round of modeling. I recently trained my first model on data that I collected from MPRA experiments of cis-regulatory sequences that function in mammalian photoreceptors. To avoid any issues with cell lines, I performed these experiments in ex vivo developing retinas, which retain the appropriate tissue architecture. However, unlike photoreceptors, most cell types are not experimentally tractable in their native physiological context. Thus, it will be important to determine how well in vitro cell lines recapitulate in vivo cis-regulation. In Aim 2, I propose to determine whether a tractable cell culture model can recapitulate results from ex vivo retinas. I will use existing MPRA data from ex vivo retinas as a standard to compare against data collected in cell lines engineered to express combinations of photoreceptor transcription factors. I aim to address whether engineering tractable cell lines to express tissue-specific transcription factors might be a general approach for collecting data to train machine learning models that generalize to in vivo systems. Successful completion of these aims will produce a general approach to increase the size and diversity of functional genomic training data, and may result in a general method for producing experimentally tractable systems for machine learning applications, ultimately helping us better apply genomic data to precision medicine.
项目摘要/摘要 大多数与疾病相关的变体位于基因组的非编码区域,并通过 对基因表达的影响。但是,我们缺乏解释此类非编码变体的预测框架, 限制了基因组数据在精确医学中的使用。我们可能能够用 新机器学习算法,但到目前为止,机器学习在功能中的实际应用 由于两个主要挑战,基因组学受到了限制。首先,培训数据集的规模和多样性 在功能基因组中,基因组学的数量级比机器学习的应用小。 成功,例如图像识别和产品建议。第二个挑战是,如果培训数据 未在适当的体外蜂窝模型中收集,那么所得的机器学习模型可能不会 推广到相关的体内细胞类型。为了改善机器学习到非编码变体的应用, 我建议解决训练数据集的有限尺寸和细胞培养模型的功效。 机器学习的核心原则是,模型性能通过更多数据改进。在AIM 1中,我建议 通过执行机器学习的迭代周期和 实验验证,具有大量并联报告基因测定法(MPRA)。我方法的关键方面是 算法将每个连续的MPRA库设计以包含最有可能改善该序列的序列 下一轮建模。我最近训练了我的第一个模型,该模型是从MPRA实验中收集的数据 在哺乳动物感光器中起作用的顺式调节序列。为了避免细胞系问题,我 在开发视网膜的外体内进行了这些实验,该视网膜保留了适当的组织结构。 但是,与感光体不同,大多数细胞类型在其天然生理学中无法实验性处理 语境。因此,确定体外细胞系在体内调节中概括的程度非常重要。在 AIM 2,我建议确定是否可以易于探讨细胞培养模型可以概括离体的结果 视网膜。我将使用来自Vivo视网膜的现有MPRA数据作为与收集的数据进行比较的标准 细胞系设计,以表达光感受器转录因子的组合。我的目的是解决是否 工程可拖动的细胞系以表达组织特异性转录因子可能是一种通用方法 收集数据以训练将体内系统推广的机器学习模型。成功完成 这些目标将产生一种一般方法来增加功能基因组训练的大小和多样性 数据,并可能导致一种通用方法,用于生成用于机器学习的实验可行系统 应用,最终帮助我们更好地将基因组数据应用于精确医学。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Information content differentiates enhancers from silencers in mouse photoreceptors.
  • DOI:
    10.7554/elife.67403
  • 发表时间:
    2021-09-06
  • 期刊:
  • 影响因子:
    7.7
  • 作者:
    Friedman RZ;Granas DM;Myers CA;Corbo JC;Cohen BA;White MA
  • 通讯作者:
    White MA
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Ryan Zachary Friedman其他文献

Ryan Zachary Friedman的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Ryan Zachary Friedman', 18)}}的其他基金

Interpreting function of non-coding sequences with synthetic biology and machine learning
用合成生物学和机器学习解释非编码序列的功能
  • 批准号:
    10177882
  • 财政年份:
    2020
  • 资助金额:
    $ 3.08万
  • 项目类别:
Interpreting function of non-coding sequences with synthetic biology and machine learning
用合成生物学和机器学习解释非编码序列的功能
  • 批准号:
    10065897
  • 财政年份:
    2020
  • 资助金额:
    $ 3.08万
  • 项目类别:

相似国自然基金

海洋缺氧对持久性有机污染物入海后降解行为的影响
  • 批准号:
    42377396
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
氮磷的可获得性对拟柱孢藻水华毒性的影响和调控机制
  • 批准号:
    32371616
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
还原条件下铜基催化剂表面供-受电子作用表征及其对CO2电催化反应的影响
  • 批准号:
    22379027
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
CCT2分泌与内吞的机制及其对毒性蛋白聚集体传递的影响
  • 批准号:
    32300624
  • 批准年份:
    2023
  • 资助金额:
    10 万元
  • 项目类别:
    青年科学基金项目
在轨扰动影响下空间燃料电池系统的流动沸腾传质机理与抗扰控制研究
  • 批准号:
    52377215
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

Genetics of Extreme Phenotypes of OSA and Associated Upper Airway Anatomy
OSA 极端表型的遗传学及相关上呼吸道解剖学
  • 批准号:
    10555809
  • 财政年份:
    2023
  • 资助金额:
    $ 3.08万
  • 项目类别:
Role of serotonin brain circuit in the developmental emergence ofinnate fear
血清素脑回路在先天恐惧的发展中的作用
  • 批准号:
    10664638
  • 财政年份:
    2023
  • 资助金额:
    $ 3.08万
  • 项目类别:
ACTS (AD Clinical Trial Simulation): Developing Advanced Informatics Approaches for an Alzheimer's Disease Clinical Trial Simulation System
ACTS(AD 临床试验模拟):为阿尔茨海默病临床试验模拟系统开发先进的信息学方法
  • 批准号:
    10753675
  • 财政年份:
    2023
  • 资助金额:
    $ 3.08万
  • 项目类别:
HEAR-HEARTFELT (Identifying the risk of Hospitalizations or Emergency depARtment visits for patients with HEART Failure in managed long-term care through vErbaL communicaTion)
倾听心声(通过口头交流确定长期管理护理中的心力衰竭患者住院或急诊就诊的风险)
  • 批准号:
    10723292
  • 财政年份:
    2023
  • 资助金额:
    $ 3.08万
  • 项目类别:
Enhanced Medication Management to Control ADRD Risk Factors Among African Americans and Latinos
加强药物管理以控制非裔美国人和拉丁裔的 ADRD 风险因素
  • 批准号:
    10610975
  • 财政年份:
    2023
  • 资助金额:
    $ 3.08万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了