Tracking Evolution and Spread of Viral Genomes by Geospatial Observation Error

通过地理空间观测误差追踪病毒基因组的进化和传播

基本信息

项目摘要

 DESCRIPTION (provided by applicant): Tracking evolutionary changes in viral genomes and their spread often requires the use of data deposited in public databases such as GenBank, the Influenza Research Database (IRD), or the Virus Pathogen Resource (ViPR). GenBank provides an abundance of available viral sequence data for phylogeography. Sequences and their metadata can be downloaded and imported into software applications that generate phylogeographic trees and models for surveillance. IRD and ViPR are NIH/NIAID funded programs that import data from GenBank but contain additional data sources, visualization, and search tools for their users. Tracking evolutionary changes and spread also requires the geospatial assignment of taxa, which is often obtained from GenBank metadata. Unfortunately, geospatial metadata such as host location is often uncertain in GenBank entries, with only 36% containing a precise location such as a county, town, or region within a state. For example, information such as China or USA was indicated instead of Beijing or Bedford, NH. While town or county might be included in the corresponding journal article, this valuable information is not available for immediate use unless it is extracted and then linked back to the appropriate sequence. The goal of our work is to enable health agencies and other researchers to automatically generate phylogeographic models that incorporate enhanced geospatial data for better estimates of virus spread. This proposal focuses on developing and applying information extraction and statistical phylogeography approaches to enhance models that track evolutionary changes in viral genomes and their spread. We propose a framework that uses natural language processing (NLP) for the automatic extraction of relevant geospatial data from the literature, and assigns a confidence between such geospatial mentions and the GenBank record. We will then use these locations and the estimates as observation error in the creation of phylogeographic models of zoonotic virus spread. We hypothesize that a combined NLP-phylogeography infrastructure that produces models that include observation error in the geospatial assignment of taxa will be closer to a gold standard than phylogeographic models that do not include them. Our research will extend phylogeography and zoonotic surveillance by: creating a NLP infrastructure that will improve the level of detail of geospatial data for phylogeography of zoonotic viruses (Aim 1), develop phylogeographic models using the estimates from Aim 1 as observation error (Aim 2), and evaluating our approach by comparing the models it produces to models that do not account for observation error in the geospatial assignment of taxa (Aim 3). We will allow users to generate enhanced models and view results on a web portal accessible via a LinkOut feature from GenBank, IRD, and ViPR. The addition of more precise geospatial information in building such models could enable health agencies to better target areas that represent the greatest public health risk.
 描述(由申请人提供):追踪病毒基因组的进化变化及其传播通常需要使用存放在公共数据库中的数据,如GenBank、流感研究数据库(IRD)或病毒病原体资源(ViPR)。GenBank为系统地理学提供了丰富的病毒序列数据。可以下载序列及其元数据,并将其导入软件应用程序,以生成用于监测的系统地理树和模型。IRD和ViPR是由NIH/NIAID资助的项目,它们从GenBank导入数据,但包含针对其用户的其他数据源、可视化和搜索工具。跟踪进化变化和传播还需要对分类群进行地理空间分配,这通常是从GenBank元数据获得的。遗憾的是,地理空间元数据(如宿主位置)在GenBank条目中通常是不确定的,只有36%包含一个州内的县、镇或地区等精确位置。例如,显示的是中国或美国等信息,而不是北京或北卡罗来纳州贝德福德。虽然城镇或县可能包含在相应的期刊文章中,但除非将其提取并链接回适当的顺序,否则无法立即使用这些有价值的信息。我们工作的目标是使卫生机构和其他研究人员能够自动生成包含增强的地理空间数据的系统地理模型,以便更好地估计病毒的传播。这项建议侧重于开发和应用信息提取和统计系统地理方法,以增强跟踪病毒基因组及其传播的进化变化的模型。我们提出了一个框架,使用自然语言处理(NLP)从文献中自动提取相关的地理空间数据,并在这些地理空间提及和GenBank记录之间分配置信度。然后,我们将使用这些位置和估计作为观察误差来创建人畜共患病毒传播的系统地理模型。我们假设,与不包括观测误差的系统地理模型相比,一个组合的NLP-系统地理基础设施产生的模型在分类群的地理空间分配中包括观测误差,将更接近黄金标准。我们的研究将通过以下方式扩展系统地理学和人畜共患病监测:创建一个NLP基础设施,将提高人畜共患病病毒系统地理学的地理空间数据的详细程度(目标1),使用目标1的估计作为观测误差(目标2)来开发系统地理模型,并通过将其产生的模型与不考虑分类群地理空间分配中的观测误差的模型(目标3)进行比较来评估我们的方法。我们将允许用户在可通过GenBank、IRD和ViPR的LinkOut功能访问的门户网站上生成增强的模型和查看结果。在建立这种模型时加入更精确的地理空间信息,可以使卫生机构能够更好地针对代表最大公共健康风险的地区。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

GRACIELA GONZALEZ HERNANDEZ其他文献

GRACIELA GONZALEZ HERNANDEZ的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('GRACIELA GONZALEZ HERNANDEZ', 18)}}的其他基金

Enriching SARS-CoV-2 sequence data in public repositories with information extracted from full text articles
利用从全文文章中提取的信息丰富公共存储库中的 SARS-CoV-2 序列数据
  • 批准号:
    10681068
  • 财政年份:
    2022
  • 资助金额:
    $ 46.1万
  • 项目类别:
AD/ADRD Pilot Core
AD/ADRD 试点核心
  • 批准号:
    10491793
  • 财政年份:
    2021
  • 资助金额:
    $ 46.1万
  • 项目类别:
AD/ADRD Pilot Core
AD/ADRD 试点核心
  • 批准号:
    10274453
  • 财政年份:
    2021
  • 资助金额:
    $ 46.1万
  • 项目类别:
AD/ADRD Pilot Core
AD/ADRD 试点核心
  • 批准号:
    10907321
  • 财政年份:
    2021
  • 资助金额:
    $ 46.1万
  • 项目类别:
Enriching SARS-CoV-2 sequence data in public repositories with information extracted from full text articles
利用从全文文章中提取的信息丰富公共存储库中的 SARS-CoV-2 序列数据
  • 批准号:
    10701081
  • 财政年份:
    2021
  • 资助金额:
    $ 46.1万
  • 项目类别:
Enriching SARS-CoV-2 sequence data in public repositories with information extracted from full text articles
利用从全文文章中提取的信息丰富公共存储库中的 SARS-CoV-2 序列数据
  • 批准号:
    10390667
  • 财政年份:
    2021
  • 资助金额:
    $ 46.1万
  • 项目类别:
AD/ADRD Pilot Core
AD/ADRD 试点核心
  • 批准号:
    10685544
  • 财政年份:
    2021
  • 资助金额:
    $ 46.1万
  • 项目类别:
Text Processing and Geospatial Uncertainty for Phylogeography of Zoonotic Viruses
人畜共患病毒系统发育地理学的文本处理和地理空间不确定性
  • 批准号:
    8698542
  • 财政年份:
    2013
  • 资助金额:
    $ 46.1万
  • 项目类别:
Social Media Mining for Pharmacovigilance
用于药物警戒的社交媒体挖掘
  • 批准号:
    10407315
  • 财政年份:
    2012
  • 资助金额:
    $ 46.1万
  • 项目类别:
Mining Social Network Postings for Mentions of Potential Adverse Drug Reactions
挖掘社交网络帖子中提及潜在药物不良反应的内容
  • 批准号:
    8222740
  • 财政年份:
    2012
  • 资助金额:
    $ 46.1万
  • 项目类别:

相似国自然基金

层出镰刀菌氮代谢调控因子AreA 介导伏马菌素 FB1 生物合成的作用机理
  • 批准号:
    2021JJ40433
  • 批准年份:
    2021
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
寄主诱导梢腐病菌AreA和CYP51基因沉默增强甘蔗抗病性机制解析
  • 批准号:
    32001603
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
AREA国际经济模型的移植.改进和应用
  • 批准号:
    18870435
  • 批准年份:
    1988
  • 资助金额:
    2.0 万元
  • 项目类别:
    面上项目

相似海外基金

Onboarding Rural Area Mathematics and Physical Science Scholars
农村地区数学和物理科学学者的入职
  • 批准号:
    2322614
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Standard Grant
TRACK-UK: Synthesized Census and Small Area Statistics for Transport and Energy
TRACK-UK:交通和能源综合人口普查和小区域统计
  • 批准号:
    ES/Z50290X/1
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Research Grant
Wide-area low-cost sustainable ocean temperature and velocity structure extraction using distributed fibre optic sensing within legacy seafloor cables
使用传统海底电缆中的分布式光纤传感进行广域低成本可持续海洋温度和速度结构提取
  • 批准号:
    NE/Y003365/1
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Research Grant
Point-scanning confocal with area detector
点扫描共焦与区域检测器
  • 批准号:
    534092360
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Major Research Instrumentation
Collaborative Research: Scalable Manufacturing of Large-Area Thin Films of Metal-Organic Frameworks for Separations Applications
合作研究:用于分离应用的大面积金属有机框架薄膜的可扩展制造
  • 批准号:
    2326714
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Standard Grant
Collaborative Research: Scalable Manufacturing of Large-Area Thin Films of Metal-Organic Frameworks for Separations Applications
合作研究:用于分离应用的大面积金属有机框架薄膜的可扩展制造
  • 批准号:
    2326713
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Standard Grant
Unlicensed Low-Power Wide Area Networks for Location-based Services
用于基于位置的服务的免许可低功耗广域网
  • 批准号:
    24K20765
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
RAPID: Collaborative Research: Multifaceted Data Collection on the Aftermath of the March 26, 2024 Francis Scott Key Bridge Collapse in the DC-Maryland-Virginia Area
RAPID:协作研究:2024 年 3 月 26 日 DC-马里兰-弗吉尼亚地区 Francis Scott Key 大桥倒塌事故后果的多方面数据收集
  • 批准号:
    2427233
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Standard Grant
Postdoctoral Fellowship: OPP-PRF: Tracking Long-Term Changes in Lake Area across the Arctic
博士后奖学金:OPP-PRF:追踪北极地区湖泊面积的长期变化
  • 批准号:
    2317873
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Standard Grant
RAPID: Collaborative Research: Multifaceted Data Collection on the Aftermath of the March 26, 2024 Francis Scott Key Bridge Collapse in the DC-Maryland-Virginia Area
RAPID:协作研究:2024 年 3 月 26 日 DC-马里兰-弗吉尼亚地区 Francis Scott Key 大桥倒塌事故后果的多方面数据收集
  • 批准号:
    2427232
  • 财政年份:
    2024
  • 资助金额:
    $ 46.1万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了