The Metadata Powerwash - Integrated tools to make biomedical data FAIR

Metadata Powerwash - 使生物医学数据公平的集成工具

基本信息

  • 批准号:
    10397981
  • 负责人:
  • 金额:
    $ 33.45万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-05-01 至 2025-01-31
  • 项目状态:
    未结题

项目摘要

Project Summary The metadata that describe scientific data are fundamental resources to enable (1) the discovery and reuse of the data and (2) the reproducibility of the experiments that generated the data in the first place. Metadata are essential for scientists to understand the associated data and to reuse them, as well as for information technology to index the data, to make the data available, and to provide filters for scientists to search for the corresponding datasets. Currently, the scientific metadata hosted in public repositories suffer from multiple quality issues that limit scientists’ ability to find and reuse the experimental datasets to which they refer. It can take many weeks of a scientist’s time to identify a collection of datasets that fulfill specific criteria when the data are so poorly described—and the majority of the process is necessarily manual. We propose to develop an end-to-end solution to standardize biomedical metadata with the help of ontologies—data structures that define the terms in an application domain and the relationships among them. There are hundreds of ontologies that provide standard terms for use in biomedicine, and they are essential resources to make biomedical metadata interoperable and reusable. Our approach also will build on the technology created by the Center for Expanded Data Annotation and Retrieval (CEDAR), which offers a library of building blocks and common data elements for defining computer-based metadata templates based on community standards. Our plan involves three specific aims. First, we will develop a method and tool to standardize the multiple, ad hoc metadata field names that may appear in metadata to represent the same type of information by replacing those field names with the field names used in standard metadata templates or, if no appropriate template match is available, with terms from a relevant ontology. Second, we will develop methods and tools to standardize different types of metadata field values, for example, categorical values such as drugs or diseases, and numerical values such as age, or sample collection date. Third, we will evaluate the speed, precision, and recall of our metadata transformation pipeline—built out of the methods and tools to standardize field names and values—on a large corpus of metadata that we will manually curate based on existing public metadata. We will also carry out experiments to test the effect of the standardized metadata when biomedical scientists perform dataset search in the context of their work.
项目摘要 描述科学数据的元数据是基本的资源,能够(1) 数据的发现和再利用,以及(2)产生数据的实验的再现性。 数据首先。元数据对于科学家理解相关数据至关重要 并重新使用它们,以及信息技术来索引数据,使数据 提供,并为科学家提供过滤器,以搜索相应的数据集。 目前,托管在公共知识库中的科学元数据存在多种质量问题 这限制了科学家发现和重用他们所参考的实验数据集的能力。它可以 科学家需要数周的时间来确定满足特定要求的数据集集合, 标准时,数据是如此糟糕的描述-和大部分的过程是必要的 手册. 我们建议开发一个端到端的解决方案, 本体论的帮助-定义应用程序域中术语的数据结构和 他们之间的关系。有数百种本体论为以下内容提供标准术语: 它们是制作生物医学元数据的重要资源 可互操作和可重用。我们的方法也将建立在由 扩展数据注释和检索中心(CEDAR),提供建筑物库 块和公共数据元素,用于基于 社区标准。 我们的计划包括三个具体目标。首先,我们将开发一种方法和工具, 可能出现在元数据中的多个专用元数据字段名称表示相同的 通过将这些字段名替换为标准中使用的字段名, 元数据模板,或者如果没有合适的模板匹配,则使用相关 本体论第二,我们将开发方法和工具来标准化不同类型的元数据 字段值,例如,分类值(如药物或疾病)和数值 例如年龄或样品收集日期。第三,我们将评估速度,精度和召回率 我们的元数据转换管道-建立了方法和工具,以标准化领域 名称和值-在一个大型的元数据语料库上,我们将根据 公共元数据。我们亦会进行实验,以测试 当生物医学科学家在其背景下执行数据集搜索时,标准化元数据 工作

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Mark A Musen其他文献

Mark A Musen的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Mark A Musen', 18)}}的其他基金

Enhanced ontology engineering through a Web-based, Cloud-based software architecture
通过基于网络、云的软件架构增强本体工程
  • 批准号:
    10405968
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
  • 批准号:
    10433797
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
  • 批准号:
    10794704
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
Improved metadata authoring to enhance AI/ML readiness of associated datasets
改进元数据创作,以增强相关数据集的 AI/ML 准备情况
  • 批准号:
    10592638
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
  • 批准号:
    10551273
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
BioPortal: An Expansive Knowledgebase of Biomedical Entities and Relations
BioPortal:生物医学实体和关系的广泛知识库
  • 批准号:
    10494104
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
BioPortal: An Expansive Knowledgebase of Biomedical Entities and Relations
BioPortal:生物医学实体和关系的广泛知识库
  • 批准号:
    10271048
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
  • 批准号:
    10699372
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
Enhancing the RADx Data Hub for Data FAIRness
增强 RADx 数据中心以实现数据公平
  • 批准号:
    10850055
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:
The Metadata Powerwash - Integrated tools to make biomedical data FAIR
Metadata Powerwash - 使生物医学数据公平的集成工具
  • 批准号:
    10093841
  • 财政年份:
    2021
  • 资助金额:
    $ 33.45万
  • 项目类别:

相似海外基金

NSABP Biological Specimen Banks
NSABP 生物样本库
  • 批准号:
    8821863
  • 财政年份:
    2005
  • 资助金额:
    $ 33.45万
  • 项目类别:
NSABP Biological Specimen Banks
NSABP 生物样本库
  • 批准号:
    7209752
  • 财政年份:
    2005
  • 资助金额:
    $ 33.45万
  • 项目类别:
NSABP Biological Specimen Banks
NSABP 生物样本库
  • 批准号:
    7989773
  • 财政年份:
    2005
  • 资助金额:
    $ 33.45万
  • 项目类别:
NSABP Biological Specimen Banks
NSABP 生物样本库
  • 批准号:
    8242269
  • 财政年份:
    2005
  • 资助金额:
    $ 33.45万
  • 项目类别:
NSABP Biological Specimen Banks
NSABP 生物样本库
  • 批准号:
    7422356
  • 财政年份:
    2005
  • 资助金额:
    $ 33.45万
  • 项目类别:
NSABP Biological Specimen Banks
NSABP 生物样本库
  • 批准号:
    6930206
  • 财政年份:
    2005
  • 资助金额:
    $ 33.45万
  • 项目类别:
NSABP Biological Specimen Banks
NSABP 生物样本库
  • 批准号:
    8531172
  • 财政年份:
    2005
  • 资助金额:
    $ 33.45万
  • 项目类别:
NSABP Biological Specimen Banks
NSABP 生物样本库
  • 批准号:
    7070688
  • 财政年份:
    2005
  • 资助金额:
    $ 33.45万
  • 项目类别:
NSABP Biological Specimen Banks
NSABP 生物样本库
  • 批准号:
    7610987
  • 财政年份:
    2005
  • 资助金额:
    $ 33.45万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了