RAPID: Rich and Accurate Auxiliary Databases for Supporting Virus Data Efforts

RAPID:丰富、准确的辅助数据库,支持病毒数据工作

基本信息

项目摘要

This COIVD-19 RAPID project will assist in the mitigation of the negative impacts of COVID-19 on public health, society, and the economy, by creating high-quality databases from highly distributed data about medical and governmental services related to COVID-19. The project will develop software tools to help in the creation of "auxiliary" databases with high-quality data to assist in making better decisions, avoiding fraud, and yielding high-quality analysis sooner in the urgent and rapidly evolving situation created by the coronavirus pandemic. The techniques that will be used to achieve high-quality include:(1) linking "background data" to the data sets to enable quality-checking and fraud detection. For example, ensuring that hospital information listed in the medical resource database is annotated with an accurate phone number so that a volunteer can contact the hospital and check on the accuracy of the data, and (2) creating new "join keys" to enable easy integration of data in the auxiliary database with other data. The project will work closely with other related COVID-19 RAPID efforts which are working on various aspects of data and information collection from the Web.The project will focus on creating two high-quality databases using these strategies: (1) A unified medical institution auxiliary database, which will be a database of all known US medical institutions and (2) A unified government office auxiliary database, which will be a database of all known government offices in the United States—city halls, courts, licensing offices, etc.—at any level of government. Both these data sets are crucial for ensuring that citizens receive a base level of medical aid and government assistance. These resources would be beneficial not only for this particular pandemic, but would become essential resources, in general, for the future. The proposed auxiliary data set creation infrastructure will include a rich schema of background information, used for quality-checking, and a set of join keys for data integration. While there is a huge array of medical institution data sets online, many of the data sets are misaligned due to lack of standard names and/or data integration keys since different projects make different local decisions in choosing these values that may not be universally compatible. As a result, the background information becomes less rich and makes integration with data from other institutions or analysis pipelines much more difficult. The strategies used to create this infrastructure would include: (1) synthesis of preliminary auxiliary datasets, which includes generating common, candidate attributes for all objects in the input set, for example, creating a helipad field for hospitals based on examining all hospital data in Wikidata; (2) identification of inputs with missing values, and filling in those values with a combination of Web extraction tasks and crowdsourcing tasks, and (3) flagging values that are suspected of being incorrect by, for example, automatically creating a set of machine-learned predictors for each column in the auxiliary data. The system could then run the predictor and identify outlier values.This RAPID award is made by the Convergence Accelerator program in the Office of Integrative Activities using funds from the Coronavirus Aid, Relief, and Economic Security (CARES) Act, and is associated with the Convergence Accelerator Track A: Open Knowledge Network.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
COIVD-19 RAPID项目将通过从高度分散的与COVID-19相关的医疗和政府服务数据创建高质量数据库,帮助减轻COVID-19对公共卫生、社会和经济的负面影响。该项目将开发软件工具,以帮助创建具有高质量数据的“辅助”数据库,以帮助在冠状病毒大流行造成的紧急和快速变化的情况下更快地做出更好的决策,避免欺诈和产生高质量的分析。将用于实现高质量的技术包括:(1)将“背景数据”与数据集联系起来,以便能够进行质量检查和欺诈检测。例如,确保医疗资源数据库中列出的医院信息用准确的电话号码注释,使得志愿者可以联系医院并检查数据的准确性,以及(2)创建新的“联接密钥”以使得能够容易地将辅助数据库中的数据与其他数据集成。该项目将与其他相关的COVID-19 RAPID工作密切合作,这些工作正在从网络收集数据和信息的各个方面。该项目将专注于使用以下策略创建两个高质量的数据库:(1)统一的医疗机构辅助数据库,这将是所有已知的美国医疗机构的数据库,以及(2)统一的政府办公室辅助数据库,这将是一个美国所有已知政府机构的数据库-市政霍尔斯、法院、许可证办公室等-任何一级政府。这两组数据对于确保公民获得基本水平的医疗援助和政府援助至关重要。这些资源不仅对这一特定流行病有益,而且将成为未来的基本资源。拟议的辅助数据集创建基础设施将包括一个丰富的背景信息模式,用于质量检查,以及一组用于数据集成的连接键。虽然在线上有大量的医疗机构数据集,但由于缺乏标准名称和/或数据集成密钥,许多数据集是不一致的,因为不同的项目在选择这些可能不通用的值时会做出不同的本地决策。因此,背景信息变得不那么丰富,并且使得与来自其他机构或分析管道的数据的集成变得更加困难。用于创建该基础设施的策略包括:(1)初步辅助数据集的合成,包括为输入集中的所有对象生成共同的候选属性,例如,基于检查维基数据中的所有医院数据为医院创建直升机停机坪字段;(2)识别具有缺失值的输入,并使用Web提取任务和众包任务的组合来填充这些值,以及(3)通过例如为辅助数据中的每一列自动创建一组机器学习的预测器来标记被怀疑为不正确的值。该RAPID奖项由综合活动办公室的融合加速器计划使用冠状病毒援助,救济和经济安全(CARES)法案的资金颁发,并与融合加速器轨道A相关联:开放知识网络。该奖项反映了NSF的法定使命,并被认为是值得通过使用基金会的智力价值和更广泛的影响审查标准。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Michael Cafarella其他文献

MDCR: A Dataset for Multi-Document Conditional Reasoning
MDCR:多文档条件推理数据集
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Peter Baile Chen;Yi Zhang;Chunwei Liu;Sejal Gupta;Yoon Kim;Michael Cafarella
  • 通讯作者:
    Michael Cafarella
Cackle: Analytical Workload Cost and Performance Stability With Elastic Pools
Cackle:使用弹性池分析工作负载成本和性能稳定性
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Matthew Perron;Raul Castro Fernandez;David DeWitt;Michael Cafarella;Samuel Madden
  • 通讯作者:
    Samuel Madden
A Declarative System for Optimizing AI Workloads
用于优化人工智能工作负载的声明式系统
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chunwei Liu;Matthew Russo;Michael Cafarella;Lei Cao;Peter Baille Chen;Zui Chen;Michael Franklin;T. Kraska;Samuel Madden;Gerardo Vitagliano
  • 通讯作者:
    Gerardo Vitagliano

Michael Cafarella的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Michael Cafarella', 18)}}的其他基金

A1: Knowledge Network Development Infrastructure with Application to COVID-19 Science and Economics
A1:应用于 COVID-19 科学和经济学的知识网络开发基础设施
  • 批准号:
    2132318
  • 财政年份:
    2021
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Cooperative Agreement
A1: Knowledge Network Development Infrastructure with Application to COVID-19 Science and Economics
A1:应用于 COVID-19 科学和经济学的知识网络开发基础设施
  • 批准号:
    2033558
  • 财政年份:
    2020
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Cooperative Agreement
Convergence Accelerator Phase I (RAISE): Simultaneous Knowledge Network Programming and Extraction
融合加速器第一阶段(RAISE):同步知识网络编程和提取
  • 批准号:
    1936940
  • 财政年份:
    2019
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Standard Grant
I-Corps: Explanation-Based Auditing: Improving the Security of Electronic Medical Records
I-Corps:基于解释的审计:提高电子病历的安全性
  • 批准号:
    1340372
  • 财政年份:
    2013
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Standard Grant
CAREER: Building and Searching a Structured Web Database
职业:构建和搜索结构化 Web 数据库
  • 批准号:
    1054913
  • 财政年份:
    2011
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Continuing Grant
III: Medium: Collaborative Research: Database-As-A-Service for Long Tail Science
III:媒介:合作研究:长尾科学的数据库即服务
  • 批准号:
    1064606
  • 财政年份:
    2011
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Continuing Grant

相似国自然基金

Rich2通过调控自噬抑制炎症小体NLRP3通路在癫痫形成中的机制研 究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
前扣带回GTP酶激活蛋白RICH2介导Shank3-/-孤独症小鼠社交行为障碍的机制研究
  • 批准号:
    82301350
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
整合素β1/RICH1复合体感应细胞外基质硬度信号调控乳腺癌侵袭转移的机制研究
  • 批准号:
    82303462
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
转录因子NtMYB305通过AT-rich元件调控NtPMT表达及烟碱合成的分子机制研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
Rich1/Amot-p80/Merlin轴通过Hippo通路调控乳腺癌干细胞样特性的机制研究
  • 批准号:
    82002794
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
烟草花叶病毒RNA发生poly(A)-rich型多聚腺苷酸化的研究
  • 批准号:
    31370181
  • 批准年份:
    2013
  • 资助金额:
    82.0 万元
  • 项目类别:
    面上项目
端粒延伸过程中C链合成(C-rich Fill-in)的分子机理
  • 批准号:
    31271472
  • 批准年份:
    2012
  • 资助金额:
    90.0 万元
  • 项目类别:
    面上项目
CA-rich顺式元件及其相互作用的反式因子对可变剪接的调控机制
  • 批准号:
    30970620
  • 批准年份:
    2009
  • 资助金额:
    32.0 万元
  • 项目类别:
    面上项目
果蝇硒蛋白G-rich的细胞定位、拓扑结构和分子功能研究
  • 批准号:
    30671176
  • 批准年份:
    2006
  • 资助金额:
    24.0 万元
  • 项目类别:
    面上项目
RICH/PHENIX相对论性重离子对撞实验中的μ子探测
  • 批准号:
    10145008
  • 批准年份:
    2001
  • 资助金额:
    8.0 万元
  • 项目类别:
    专项基金项目

相似海外基金

ART: Mining the Rich Vein of Research in Montana
艺术:挖掘蒙大拿州研究的丰富脉络
  • 批准号:
    2331325
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Cooperative Agreement
Role of nitrogen-rich compounds for increasing carbon sequestration in soil
富氮化合物在增加土壤固碳方面的作用
  • 批准号:
    DP240102549
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Discovery Projects
Efficient computational technologies to resolve the Timetree of Life: from ancient DNA to species-rich phylogenies
高效计算技术解析生命时间树:从古代 DNA 到物种丰富的系统发育
  • 批准号:
    BB/Y004132/1
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Research Grant
GOAL project: AI-supported self-directed learning lifestyle in data-rich educational ecosystem
GOAL 项目:数据丰富的教育生态系统中人工智能支持的自主学习生活方式
  • 批准号:
    23K25156
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Platelet-rich plasma (PRP) を用いた新しい人工神経による顔面神経再生
使用富含血小板血浆(PRP)的新型人工神经进行面神经再生
  • 批准号:
    24K12836
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
PROMETHEUS: Enabling a Data Rich Additive Manufacturing Process
PROMETHEUS:实现数据丰富的增材​​制造流程
  • 批准号:
    10092251
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Collaborative R&D
新奇皮膚バリア因子としてのHistidine-rich glycoprotein機能評価
富含组氨酸糖蛋白作为新型皮肤屏障因子的功能评价
  • 批准号:
    24K18020
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
リンパ脈管筋腫症病態におけるhistidine-rich glycoproteinの役割解明に関する研究
富含组氨酸糖蛋白在淋巴管平滑肌瘤病病理中作用的研究
  • 批准号:
    24K11332
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
CAREER: Structural Implications of Anion Redox in Li-Rich Sulfide Cathodes for Li-ion Batteries
职业:锂离子电池富锂硫化物阴极中阴离子氧化还原的结构影响
  • 批准号:
    2340864
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Continuing Grant
CAREER: MECHANISMS OF ASSEMBLY AND COEXISTENCE IN SPECIES-RICH MICROBIAL COMMUNITIES
职业:物种丰富的微生物群落的组装和共存机制
  • 批准号:
    2236782
  • 财政年份:
    2024
  • 资助金额:
    $ 16.48万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了