EAGER Collaborative: Bringing Together Computational and Linguistic Methods to Extract 'Dark' Geosciences Data for the EarthCube Framework

EAGER Collaborative:结合计算和语言方法为 EarthCube 框架提取“暗”地球科学数据

基本信息

  • 批准号:
    1242902
  • 负责人:
  • 金额:
    $ 12.94万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2012
  • 资助国家:
    美国
  • 起止时间:
    2012-07-15 至 2013-06-30
  • 项目状态:
    已结题

项目摘要

A large percentage of vaulable geoscience data is based on the analysis of discrete samples and is collected manually (e.g., paleontological collections, structural/tectonic data, petrographic/mineralogic data, economic data, geochemical measurements, rock mechanics, etc.) Often, these data are reported only in tables in the published literature or in .pdf or spreadsheets on individual investigator websites. Commonly these data are not registerd on or entered into standardized, publicly accessible databases. As a result, for this data to be discovered and used/reused, researchers or other interested parties must manually comb through the text, figures, and appendices of journal articles or websites of individual investigators, sometimes having to sift through raw experimental data. This process is extremely time intensive and slows down the time needed to make scientific discoveries or allow verification of research results. As a result the vast amount of surface earth geoscience data is currently inaccessible. This inaccessible data is termed "Dark Data". This EAGER combines the expertise of top-notch computer scientists and geoscientists whose goal is to create a search algorithm to bring this dark data to light in a way that will enable the next generation of integrative geoscience research. The approach will involved development of an innovative search engine "crawler" that will comb the geoscience literature and bring dark data to light from the text and figures in this corpus. The cyberinfrastructure tool being developed will be able to interpret the semantics of English text and the concepts of geoscience. The tool will be piloted by examining entries on the Macrostrat database, a structured spatial database of lithologic and geochronologic information, and then employing a geoscience ontology by means of the Hazy framework for information extraction. Questions to be addressed will be to find out to what extent dark data is presently accessible and if it can be extracted and placed into an accessible format and repository where it can be discovered by web services or other search engines. Broader impacts of the work include training of graduate students and increasing the infrastructure for science through the development of a new and much needed data search tool.
很大一部分可验证的地球科学数据是基于对离散样本的分析,并且是手动收集的(例如,古生物学收藏、结构/构造数据、岩相/矿物学数据、经济数据、地球化学测量、岩石力学等)通常,这些数据仅在已发表文献的表格中或在个体研究者网站上的.pdf或电子表格中报告。 这些数据通常不登记或输入标准化的、可公开访问的数据库。 因此,为了发现和使用/重复使用这些数据,研究人员或其他相关方必须手动梳理期刊文章或个人研究者网站的文本、图表和附录,有时不得不筛选原始实验数据。这个过程非常耗时,会减慢做出科学发现或验证研究结果所需的时间。 因此,目前无法获得大量的地表地球科学数据。这种不可访问的数据被称为“暗数据”。 EAGER结合了顶尖计算机科学家和地球科学家的专业知识,其目标是创建一个搜索算法,以使这些黑暗的数据以一种能够实现下一代综合地球科学研究的方式变得光明。 这一方法将涉及开发一个创新的搜索引擎“爬虫”,它将梳理地球科学文献,并从这一语料库中的文字和数字中揭示黑暗的数据。正在开发的网络基础设施工具将能够解释英语文本的语义和地球科学的概念。该工具将通过检查Macrostrat数据库(岩性和地质年代信息的结构化空间数据库)上的条目进行试点,然后通过Hazy框架采用地球科学本体论进行信息提取。 需要解决的问题是,暗数据目前可访问的程度,以及是否可以提取并放置到可访问的格式和存储库中,以便Web服务或其他搜索引擎可以发现。 这项工作的更广泛影响包括培训研究生和通过开发新的和急需的数据搜索工具增加科学基础设施。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Christopher Re其他文献

Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks
多模式基础模型理解企业工作流程吗?
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Michael Wornow;A. Narayan;Ben T Viggiano;Ishan S. Khare;Tathagat Verma;Tibor Thompson;Miguel Angel Fuentes Hernandez;Sudharsan Sundar;Chloe Trujillo;Krrish Chawla;Rongfei Lu;Justin Shen;Divya Nagaraj;Joshua Martinez;Vardhan Agrawal;Althea Hudson;Nigam H. Shah;Christopher Re
  • 通讯作者:
    Christopher Re

Christopher Re的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Christopher Re', 18)}}的其他基金

Collaborative Research: Hardware-Aware Matrix Computations for Deep Learning Applications
协作研究:深度学习应用的硬件感知矩阵计算
  • 批准号:
    2247015
  • 财政年份:
    2023
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
AF: Medium: Collaborative Research: Beyond Sparsity: Refined Measures of Complexity for Linear Algebra
AF:媒介:协作研究:超越稀疏性:线性代数复杂性的精确度量
  • 批准号:
    1763315
  • 财政年份:
    2018
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Continuing Grant
AF:III:Small:Collaborative Research: New Frontiers in Join Algorithms: Optimality, Noise, and Richer Languages
AF:III:Small:协作研究:连接算法的新领域:最优性、噪声和更丰富的语言
  • 批准号:
    1318205
  • 财政年份:
    2013
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
AF:III:Small:Collaborative Research: New Frontiers in Join Algorithms: Optimality, Noise, and Richer Languages
AF:III:Small:协作研究:连接算法的新领域:最优性、噪声和更丰富的语言
  • 批准号:
    1356918
  • 财政年份:
    2013
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
CAREER: A Scalable, Declarative, Imprecise Database Management System
职业:可扩展、声明式、不精确的数据库管理系统
  • 批准号:
    1353606
  • 财政年份:
    2013
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Continuing Grant
CAREER: A Scalable, Declarative, Imprecise Database Management System
职业:可扩展、声明式、不精确的数据库管理系统
  • 批准号:
    1054009
  • 财政年份:
    2011
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Continuing Grant

相似海外基金

Collaborative Research: SaTC: EDU: RoCCeM: Bringing Robotics, Cybersecurity and Computer Science to the Middled School Classroom
合作研究:SaTC:EDU:RoCCeM:将机器人、网络安全和计算机科学带入中学课堂
  • 批准号:
    2312057
  • 财政年份:
    2023
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
Collaborative Research: SaTC: EDU: RoCCeM: Bringing Robotics, Cybersecurity and Computer Science to the Middled School Classroom
合作研究:SaTC:EDU:RoCCeM:将机器人、网络安全和计算机科学带入中学课堂
  • 批准号:
    2312058
  • 财政年份:
    2023
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
Digitization TCN: Collaborative Research: Bringing Asia to digital life: mobilizing underrepresented Asian herbarium collections in the US to propel biodiversity discovery
数字化 TCN:合作研究:将亚洲带入数字生活:动员美国代表性不足的亚洲植物标本馆藏品,推动生物多样性发现
  • 批准号:
    2101846
  • 财政年份:
    2021
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Continuing Grant
Digitization TCN: Collaborative Research: Bringing Asia to digital life: mobilizing underrepresented Asian herbarium collections in the US to propel biodiversity discovery
数字化 TCN:合作研究:将亚洲带入数字生活:动员美国代表性不足的亚洲植物标本馆藏品,推动生物多样性发现
  • 批准号:
    2101966
  • 财政年份:
    2021
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
Digitization TCN: Collaborative Research: Bringing Asia to digital life: mobilizing underrepresented Asian herbarium collections in the US to propel biodiversity discovery
数字化 TCN:合作研究:将亚洲带入数字生活:动员美国代表性不足的亚洲植物标本馆藏品,推动生物多样性发现
  • 批准号:
    2101773
  • 财政年份:
    2021
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
CC* Integration-Large: Bringing Code to Data: A Collaborative Approach to Democratizing Internet Data Science
CC* Integration-Large:将代码带入数据:互联网数据科学民主化的协作方法
  • 批准号:
    2126281
  • 财政年份:
    2021
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
Digitization TCN: Collaborative Research: Bringing Asia to digital life: mobilizing underrepresented Asian herbarium collections in the US to propel biodiversity discovery
数字化 TCN:合作研究:将亚洲带入数字生活:动员美国代表性不足的亚洲植物标本馆藏品,推动生物多样性发现
  • 批准号:
    2100755
  • 财政年份:
    2021
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
Digitization TCN: Collaborative Research: Bringing Asia to digital life: mobilizing underrepresented Asian herbarium collections in the US to propel biodiversity discovery
数字化 TCN:合作研究:将亚洲带入数字生活:动员美国代表性不足的亚洲植物标本馆藏品,推动生物多样性发现
  • 批准号:
    2101886
  • 财政年份:
    2021
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
Digitization TCN: Collaborative Research: Bringing Asia to digital life: mobilizing underrepresented Asian herbarium collections in the US to propel biodiversity discovery
数字化 TCN:合作研究:将亚洲带入数字生活:动员美国代表性不足的亚洲植物标本馆藏品,推动生物多样性发现
  • 批准号:
    2101884
  • 财政年份:
    2021
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Continuing Grant
Digitization TCN: Collaborative Research: Bringing Asia to digital life: mobilizing underrepresented Asian herbarium collections in the US to propel biodiversity discovery
数字化 TCN:合作研究:将亚洲带入数字生活:动员美国代表性不足的亚洲植物标本馆藏品,推动生物多样性发现
  • 批准号:
    2101868
  • 财政年份:
    2021
  • 资助金额:
    $ 12.94万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了