End-to-end Extraction and Curation of Large RDF Repositories
大型 RDF 存储库的端到端提取和管理
基本信息
- 批准号:543961-2019
- 负责人:
- 金额:$ 11.82万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Collaborative Research and Development Grants
- 财政年份:2020
- 资助国家:加拿大
- 起止时间:2020-01-01 至 2021-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Enterprises are building massive storage repositories (often referred to as data lakes) that hold data in its native format (text, JSON, CSV files, relational databases, etc). The aim is to increase the amount of usable information by allowing fast acquisition of data from many sources as soon as they are available, instead of waiting for traditional ETL (extract-transform-load) stacks to curate the data and integrate it in a trustworthy warehouse. Unfortunately, with the massive number of external data sources, and the increasing heterogeneity in the formats of these sources (text, feeds, tweets, posts, blogs, events, etc.), handling unstructured and semi-structured data in a unified framework becomes key. In this project, we build an end-to-end system for handling (semi-) structured and unstructured in a unified way, in an open-source test-bed we call DSTLR (short for the data distiller). The DSTLR project combines advances in natural language processing (NLP) and information extraction (IE) particularly with deep learning, data cleaning, and managing RDF data to enable treating all types of data in a common format that allows for truth finding, question answering and structured data enrichment. The main objective of the proposal is to identify an investigate the technical challenges in building such a system including: (1) identifying the necessary provenance and lineage information to describe the context of the IE system; (2) efficient propagation of such information across the modules; (3) leveraging this rich extraction context in cleaning the extracted information; and (4) exploring novel ways to link the cleaning of the output to the information extraction subsystem in an iterative loop, with judicious involvement of humans in the whole life cycle. For this, the proposal identifies multiple concrete research tasks and expected outcome of these investigations.
企业正在构建大规模存储库(通常称为数据湖),以其原生格式(文本、JSON、CSV文件、关系数据库等)保存数据。其目的是通过允许从许多来源快速获取数据来增加可用信息的数量,而不是等待传统的ETL(提取-转换-加载)堆栈来管理数据并将其集成到值得信赖的仓库中。不幸的是,随着大量外部数据源的出现,以及这些数据源格式(文本、提要、推文、帖子、博客、事件等)的异质性日益增加,在统一框架中处理非结构化和半结构化数据成为关键。在这个项目中,我们构建了一个端到端的系统,以统一的方式处理(半)结构化和非结构化,在一个开源的测试平台,我们称之为DSTLR(数据蒸馏器的缩写)。DSTLR项目结合了自然语言处理(NLP)和信息提取(IE)的进步,特别是深度学习,数据清理和管理RDF数据,以实现以通用格式处理所有类型的数据,从而允许真相发现,问题回答和结构化数据丰富。该提案的主要目标是确定和调查构建这样一个系统的技术挑战,包括:(1)确定必要的起源和血统信息来描述IE系统的上下文;(2)跨模块有效传播这些信息;(3)利用这种丰富的提取上下文来清理提取的信息;以及(4)探索新的方法,将输出的清理与迭代循环中的信息提取子系统联系起来,并在整个生命周期中明智地参与人类。为此,该提案确定了多项具体的研究任务和这些调查的预期成果。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Ilyas, Ihab其他文献
Ilyas, Ihab的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Ilyas, Ihab', 18)}}的其他基金
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
- 批准号:
RGPIN-2019-04068 - 财政年份:2022
- 资助金额:
$ 11.82万 - 项目类别:
Discovery Grants Program - Individual
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
- 批准号:
RGPIN-2019-04068 - 财政年份:2021
- 资助金额:
$ 11.82万 - 项目类别:
Discovery Grants Program - Individual
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
- 批准号:
534011-2017 - 财政年份:2021
- 资助金额:
$ 11.82万 - 项目类别:
Industrial Research Chairs
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
- 批准号:
534011-2017 - 财政年份:2020
- 资助金额:
$ 11.82万 - 项目类别:
Industrial Research Chairs
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
- 批准号:
RGPIN-2019-04068 - 财政年份:2020
- 资助金额:
$ 11.82万 - 项目类别:
Discovery Grants Program - Individual
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
- 批准号:
RGPIN-2019-04068 - 财政年份:2019
- 资助金额:
$ 11.82万 - 项目类别:
Discovery Grants Program - Individual
End-to-end Extraction and Curation of Large RDF Repositories
大型 RDF 存储库的端到端提取和管理
- 批准号:
543961-2019 - 财政年份:2019
- 资助金额:
$ 11.82万 - 项目类别:
Collaborative Research and Development Grants
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
- 批准号:
534011-2017 - 财政年份:2019
- 资助金额:
$ 11.82万 - 项目类别:
Industrial Research Chairs
Cleaning and Analysis of Large Uncertain and Inconsistent Data Sources
大量不确定且不一致的数据源的清理和分析
- 批准号:
RGPIN-2014-06143 - 财政年份:2018
- 资助金额:
$ 11.82万 - 项目类别:
Discovery Grants Program - Individual
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
- 批准号:
534011-2017 - 财政年份:2018
- 资助金额:
$ 11.82万 - 项目类别:
Industrial Research Chairs
相似国自然基金
真菌特异的内吞作用相关蛋白End3发挥作用的结构研究
- 批准号:32000859
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
峨眉山玄武岩喷发持续时间的研究:来自古地磁学的约束
- 批准号:41804068
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
从PBMC-β-END-μ-阿片受体途径探讨华蟾素治疗癌痛的外周机制
- 批准号:81173612
- 批准年份:2011
- 资助金额:58.0 万元
- 项目类别:面上项目
晚期糖基化终产物受体与视网膜母细胞瘤蛋白在前列腺癌细胞中的相互作用及意义
- 批准号:30700835
- 批准年份:2007
- 资助金额:16.0 万元
- 项目类别:青年科学基金项目
研究EB1(End-Binding protein 1)的癌基因特性及作用机制
- 批准号:30672361
- 批准年份:2006
- 资助金额:24.0 万元
- 项目类别:面上项目
相似海外基金
Understanding the implications of pandemic delays for the end of life
了解大流行延迟对生命终结的影响
- 批准号:
DP240101775 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Discovery Projects
NSF Postdoctoral Fellowship in Biology: Was there a Tropical Forest in North America after the end-Cretaceous Extinction?
美国国家科学基金会生物学博士后奖学金:白垩纪末期灭绝后北美是否存在热带森林?
- 批准号:
2305812 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Fellowship Award
品質を保証するEnd-to-Endビッグデータ近似処理技術に関する研究
端到端大数据逼近处理技术研究保证质量
- 批准号:
23K24850 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
CAREER: Integrated and end-to-end machine learning pipeline for edge-enabled IoT systems: a resource-aware and QoS-aware perspective
职业:边缘物联网系统的集成端到端机器学习管道:资源感知和 QoS 感知的视角
- 批准号:
2340075 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Continuing Grant
Clinitouch-360: A digital health platform enabling robust end-to-end care of patients in Primary Care with depression and anxiety
Clinitouch-360:数字健康平台,可为初级保健中的抑郁和焦虑患者提供强大的端到端护理
- 批准号:
10098274 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Collaborative R&D
End-to-End Solar Borehole Business Models and Data Collection to Extend Sustainable Access to Energy and Water in Rural Tanzania
端到端太阳能钻孔商业模式和数据收集,以扩大坦桑尼亚农村地区可持续获取能源和水的机会
- 批准号:
10074210 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Collaborative R&D
CAREER: Radio Frequency Piezoelectric Acoustic Microsystems for Efficient and Adaptive Front-End Signal Processing
职业:用于高效和自适应前端信号处理的射频压电声学微系统
- 批准号:
2339731 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Continuing Grant
訪問看護師によるEnd of life discussions標準化プログラムの開発
制定上门护士临终讨论的标准化计划
- 批准号:
24K14183 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Collaborative Research: SWIFT-SAT: INtegrated Testbed Ensuring Resilient Active/Passive CoexisTence (INTERACT): End-to-End Learning-Based Interference Mitigation for Radiometers
合作研究:SWIFT-SAT:确保弹性主动/被动共存的集成测试台 (INTERACT):基于端到端学习的辐射计干扰缓解
- 批准号:
2332661 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Standard Grant
Elements: Adaptive End-to-End Parallelism for Distributed Science Workflows
要素:分布式科学工作流程的自适应端到端并行性
- 批准号:
2427408 - 财政年份:2024
- 资助金额:
$ 11.82万 - 项目类别:
Standard Grant