Tracking Evolution and Spread of Viral Genomes by Geospatial Observation Error
通过地理空间观测误差追踪病毒基因组的进化和传播
基本信息
- 批准号:9249484
- 负责人:
- 金额:$ 46.1万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2016
- 资助国家:美国
- 起止时间:2016-04-01 至 2020-03-31
- 项目状态:已结题
- 来源:
- 关键词:AnimalsAreaAwardBackChinaComputer softwareCountyDataData SourcesDatabasesDepositionDevelopmentDiffusionDiseaseEnvironmental HealthEvaluationEvolutionFundingGenbankGenetic VariationGenomeGeographyGoalsGoldHantavirusHealthHumanImageryInfluenzaKnowledgeLinkLiteratureLocationManualsMetadataMethodsModelingMolecular EpidemiologyNational Institute of Allergy and Infectious DiseaseNatural Language ProcessingNucleotidesPopulation GeneticsPublic HealthPublicationsRNA VirusesRabiesRecordsResearchResearch InfrastructureResearch PersonnelResourcesRiskRunningScienceSourceSurveillance ModelingSystemTimeTreesUnited States National Institutes of HealthViralViral GenomeVirusWorkZoonosesimprovedinformation modelinterestjournal articlemolecular sequence databasepathogenpopulation healthprogramspublic health relevancesimulationsurveillance datatoolweb portal
项目摘要
DESCRIPTION (provided by applicant): Tracking evolutionary changes in viral genomes and their spread often requires the use of data deposited in public databases such as GenBank, the Influenza Research Database (IRD), or the Virus Pathogen Resource (ViPR). GenBank provides an abundance of available viral sequence data for phylogeography. Sequences and their metadata can be downloaded and imported into software applications that generate phylogeographic trees and models for surveillance. IRD and ViPR are NIH/NIAID funded programs that import data from GenBank but contain additional data sources, visualization, and search tools for their users. Tracking evolutionary changes and spread also requires the geospatial assignment of taxa, which is often obtained from GenBank metadata. Unfortunately, geospatial metadata such as host location is often uncertain in GenBank entries, with only 36% containing a precise location such as a county, town, or region within a state. For example, information such as China or USA was indicated instead of Beijing or Bedford, NH. While town or county might be included in the corresponding journal article, this valuable information is not available for immediate use unless it is extracted and then linked back to the appropriate sequence. The goal of our work is to enable health agencies and other researchers to automatically generate phylogeographic models that incorporate enhanced geospatial data for better estimates of virus spread. This proposal focuses on developing and applying information extraction and statistical phylogeography approaches to enhance models that track evolutionary changes in viral genomes and their spread. We propose a framework that uses natural language processing (NLP) for the automatic extraction of relevant geospatial data from the literature, and assigns a confidence between such geospatial mentions and the GenBank record. We will then use these locations and the estimates as observation error in the creation of phylogeographic models of zoonotic virus spread. We hypothesize that a combined NLP-phylogeography infrastructure that produces models that include observation error in the geospatial assignment of taxa will be closer to a gold standard than phylogeographic models that do not include them. Our research will extend phylogeography and zoonotic surveillance by: creating a NLP infrastructure that will improve the level of detail of geospatial data for phylogeography of zoonotic viruses (Aim 1), develop phylogeographic models using the estimates from Aim 1 as observation error (Aim 2), and evaluating our approach by comparing the models it produces to models that do not account for observation error in the geospatial assignment of taxa (Aim 3). We will allow users to generate enhanced models and view results on a web portal accessible via a LinkOut feature from GenBank, IRD, and ViPR. The addition of more precise geospatial information in building such models could enable health agencies to better target areas that represent the greatest public health risk.
描述(应用程序提供):跟踪病毒基因组及其传播的进化变化通常需要使用存放在GenBank,流感研究数据库(IRD)或病毒病原体资源(VIPR)等公共数据库中的数据。 GenBank为植物地理学提供了大量可用的病毒序列数据。可以将序列及其元数据下载并导入到生成植物地理树和监视模型的软件应用程序中。 IRD和VIPR是NIH/NIAID资助的程序,可从GenBank导入数据,但包含其他数据源,可视化和搜索工具。跟踪进化变化和传播还需要分类的地理空间分配,这通常是从GenBank元数据获得的。不幸的是,GenBank条目中通常不确定地理空间元数据,只有36%的地理位置,其中只有一个精确的位置,例如一个州内的县,城镇或地区。例如,指示中国或美国等信息,而不是新罕布什尔州的北京或贝德福德。尽管城镇或县可能包含在相应的期刊文章中,但除非提取然后链接到适当的序列,否则不可立即使用此尊重的信息。我们工作的目的是使健康机构和其他研究人员能够自动生成植物地理模型,从而结合增强的地理空间数据,以更好地估计病毒扩散。该建议着重于开发和应用信息提取和统计植物地理学方法,以增强跟踪病毒基因组进化变化及其传播的模型。我们提出了一个使用自然语言处理(NLP)来自动从文献中提取相关的地理空间数据的框架,并在此类地理空间提及和GenBank记录之间具有信心。然后,我们将使用这些位置和估计值作为观察误差,在创建人畜共动性病毒扩散的植物地理模型中。我们假设一个组合的NLP - 地理基础结构,该基础结构产生的模型包括在分类单元的地理空间分配中的观察误差,将比不包含这些模型的模型更接近金标准。我们的研究将通过:创建NLP基础架构来扩展植物地理学和人畜共患监视,该基础架构将提高地理空间数据的细节水平,用于人畜共患病毒的植物地理学(AIM 1),使用AIM 1中的估计值来开发植物地理学模型,并通过比较我们的模型(AIM 2),并评估该模型的模型(AIM 2),并且能够对其进行比较的模型,而不是在地理位置上进行划分的模型。 (目标3)。我们将允许用户通过GenBank,IRD和VIPR的链接功能在Web门户上生成增强的模型,并在Web门户上查看结果。在建立此类模型的建立中增加了更精确的地理空间信息,可以使健康机构更好地针对代表最大公共卫生风险的领域。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
GRACIELA GONZALEZ HERNANDEZ其他文献
GRACIELA GONZALEZ HERNANDEZ的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('GRACIELA GONZALEZ HERNANDEZ', 18)}}的其他基金
Enriching SARS-CoV-2 sequence data in public repositories with information extracted from full text articles
利用从全文文章中提取的信息丰富公共存储库中的 SARS-CoV-2 序列数据
- 批准号:
10681068 - 财政年份:2022
- 资助金额:
$ 46.1万 - 项目类别:
Enriching SARS-CoV-2 sequence data in public repositories with information extracted from full text articles
利用从全文文章中提取的信息丰富公共存储库中的 SARS-CoV-2 序列数据
- 批准号:
10701081 - 财政年份:2021
- 资助金额:
$ 46.1万 - 项目类别:
Enriching SARS-CoV-2 sequence data in public repositories with information extracted from full text articles
利用从全文文章中提取的信息丰富公共存储库中的 SARS-CoV-2 序列数据
- 批准号:
10390667 - 财政年份:2021
- 资助金额:
$ 46.1万 - 项目类别:
Text Processing and Geospatial Uncertainty for Phylogeography of Zoonotic Viruses
人畜共患病毒系统发育地理学的文本处理和地理空间不确定性
- 批准号:
8698542 - 财政年份:2013
- 资助金额:
$ 46.1万 - 项目类别:
Mining Social Network Postings for Mentions of Potential Adverse Drug Reactions
挖掘社交网络帖子中提及潜在药物不良反应的内容
- 批准号:
8222740 - 财政年份:2012
- 资助金额:
$ 46.1万 - 项目类别:
相似国自然基金
跨区域调水工程与区域经济增长:效应测度、机制探究与政策建议
- 批准号:72373114
- 批准年份:2023
- 资助金额:40 万元
- 项目类别:面上项目
农产品区域公用品牌地方政府干预机制与政策优化研究
- 批准号:72373068
- 批准年份:2023
- 资助金额:41 万元
- 项目类别:面上项目
新型城镇化与区域协调发展的机制与治理体系研究
- 批准号:72334006
- 批准年份:2023
- 资助金额:167 万元
- 项目类别:重点项目
我国西南地区节点城市在次区域跨国城市网络中的地位、功能和能级提升研究
- 批准号:72364037
- 批准年份:2023
- 资助金额:28 万元
- 项目类别:地区科学基金项目
多时序CT联合多区域数字病理早期预测胃癌新辅助化疗抵抗的研究
- 批准号:82360345
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
相似海外基金
Novel mechanisms of microRNA-mediated anabolic effects in age-related osteoarthritis
microRNA介导的年龄相关骨关节炎合成代谢作用的新机制
- 批准号:
10663670 - 财政年份:2023
- 资助金额:
$ 46.1万 - 项目类别:
Inhaled Aerosol Dosimetry: Advances, Applications, and Impacts on Risk Assessments and Therapeutics
吸入气溶胶剂量测定:进展、应用以及对风险评估和治疗的影响
- 批准号:
10752525 - 财政年份:2023
- 资助金额:
$ 46.1万 - 项目类别:
Integration of seasonal cues to modulate neuronal plasticity
整合季节性线索来调节神经元可塑性
- 批准号:
10723977 - 财政年份:2023
- 资助金额:
$ 46.1万 - 项目类别:
The Role of Glycosyl Ceramides in Heart Failure and Recovery
糖基神经酰胺在心力衰竭和恢复中的作用
- 批准号:
10644874 - 财政年份:2023
- 资助金额:
$ 46.1万 - 项目类别:
Facility Management, Maintenance and Operation Core
设施管理、维护和运营核心
- 批准号:
10793828 - 财政年份:2023
- 资助金额:
$ 46.1万 - 项目类别: