III: Small: Semantic Version Management in Data Lakes
III:小:数据湖中的语义版本管理
基本信息
- 批准号:2325632
- 负责人:
- 金额:$ 60万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2023
- 资助国家:美国
- 起止时间:2023-09-15 至 2026-08-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Data fuels our economy. Those who work with data invest their efforts in finding effective ways to extract knowledge and to handle its increasing size. This growth is not only characterized by new sources of data, but also by data replication - that is, the copying, integration, and modification of datasets that creates new versions of datasets. Notably, consultants such as the International Data Corporation estimate that most of the newly generated data being used in business are versions of existing data. Understanding data therefore requires a semantic understanding of data versioning, which becomes a key ingredient in handling and managing data. This project will focus on advancing the scientific understanding of data versioning and will fundamentally contribute to any science or activity that uses data, which nowadays covers a tremendous amount of all human activity. To advance open data science, this project will lay the foundations for semantic understanding of data changes that result in new versions of data and will introduce scalable tools to uncover and explain data changes. This will contribute both to the development of effective frameworks to handle multiple data versions within a data science pipeline as well as to the design of systems that incorporate and manage data replication. This work is expected to also benefit society by facilitating responsible and open data science. Its solutions will be made publicly available and provided alongside high-quality highly curated benchmarks that themselves will have scientific value in allowing comparisons and settling scientific debates in order to advance this important field. The project will also use aspects of "responsible data science", aiming to ensure fairness, accuracy, confidentiality, and transparency when working with data. This project will develop a new paradigm we call semantic version management. The vision is to enable users, with minimal upfront effort, to understand the multitude of versions that typically reside in data lakes. The main objective of the project is to enable data scientists who currently rely mainly on file names to find the "right" version of a dataset to see and understand the changes (cleaning, value imputation, integration, and others) that have been made between datasets. The research methodology builds-on, integrates, and extends work on scalable data discovery; program by example and data transformation synthesis; and learning schema mappings from inconsistent and incomplete evidence. This project will develop methods to support the semantic understanding of data versioning, lay the foundations for studying data versions, and establish new methods for evaluating and benchmarking data versioning. Specifically, this project will address the following fundamental research challenges: 1) recovering transformations done to data and explain how one dataset differs from another version of the dataset; 2) efficiently finding versions of a dataset from within a massive table repository or data lake; and 3) understanding the version history among a collection of versions and constructing a graph that expresses the story behind the creation of the data versions. Throughout the development, this project will also develop new evaluation frameworks that not only consider the correctness of solutions, but also their explainability. An important motivation for semantic version management is to give users more trust in the data they are using. If they understand the transformations used to derive one version from another, they can better understand if a version meets the needs of their data science task. In addition, new benchmarks will be generated and shared with the community to encourage open science and allow reliable comparison with new or alternative approaches to version understanding.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据推动我们的经济。那些与数据打交道的人会努力寻找有效的方法来提取知识并处理其不断增长的规模。这种增长的特征不仅在于新的数据源,而且还在于数据复制-即复制、集成和修改数据集,从而创建新版本的数据集。值得注意的是,国际数据公司等咨询公司估计,商业中使用的大多数新生成的数据都是现有数据的版本。因此,理解数据需要对数据版本化进行语义理解,这成为处理和管理数据的关键因素。该项目将专注于推进对数据版本化的科学理解,并将从根本上为任何使用数据的科学或活动做出贡献,这些科学或活动如今涵盖了大量的人类活动。为了推进开放数据科学,该项目将为数据变化的语义理解奠定基础,这些变化会导致新版本的数据,并将引入可扩展的工具来发现和解释数据变化。这将有助于开发有效的框架,以处理数据科学管道中的多个数据版本,以及设计纳入和管理数据复制的系统。这项工作还有望通过促进负责任和开放的数据科学来造福社会。它的解决方案将公开提供,并与高质量的高度策划的基准一起提供,这些基准本身将具有科学价值,可以进行比较和解决科学辩论,以推动这一重要领域的发展。该项目还将使用“负责任的数据科学”的各个方面,旨在确保在处理数据时的公平性,准确性,保密性和透明度。 这个项目将开发一个新的范例,我们称之为语义版本管理。其愿景是让用户能够以最少的前期工作来理解通常驻留在数据湖中的众多版本。该项目的主要目标是使目前主要依赖文件名的数据科学家能够找到数据集的“正确”版本,以查看和理解数据集之间所做的更改(清理,值插补,集成等)。该研究方法建立在可扩展数据发现的基础上,集成并扩展了工作;通过示例和数据转换合成进行编程;以及从不一致和不完整的证据中学习模式映射。该项目将开发支持数据版本化的语义理解的方法,为研究数据版本奠定基础,并建立评估和基准测试数据版本化的新方法。具体来说,该项目将解决以下基础研究挑战:1)恢复对数据进行的转换,并解释一个数据集与另一个数据集版本的不同之处; 2)从大型表存储库或数据湖中有效地找到数据集的版本;和3)了解版本集合中的版本历史,并构建一个图表来表达数据创建背后的故事版本.在整个开发过程中,该项目还将开发新的评估框架,不仅考虑解决方案的正确性,还考虑其可解释性。语义版本管理的一个重要动机是让用户更信任他们正在使用的数据。 如果他们了解用于从另一个版本派生一个版本的转换,他们就可以更好地了解版本是否满足其数据科学任务的需求。 此外,将产生新的基准并与社区共享,以鼓励开放科学,并允许与新的或替代的版本理解方法进行可靠的比较。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Renee Miller其他文献
Estimation of Cardiac Valve Annuli Motion with Deep Learning
利用深度学习估计心脏瓣膜环运动
- DOI:
10.1007/978-3-030-68107-4_15 - 发表时间:
2020 - 期刊:
- 影响因子:1.9
- 作者:
E. Kerfoot;C. E. King;T. Ismail;D. Nordsletten;Renee Miller - 通讯作者:
Renee Miller
Identification of Transversely Isotropic Properties from Magnetic Resonance Elastography Using the Optimised Virtual Fields Method
使用优化虚拟场方法从磁共振弹性成像中识别横向各向同性特性
- DOI:
10.1007/978-3-319-59448-4_40 - 发表时间:
2017 - 期刊:
- 影响因子:3.9
- 作者:
Renee Miller;A. Kolipaka;M. Nash;A. Young - 通讯作者:
A. Young
Functional Characterization of Antibodies Neutralizing Soluble Factors In Vitro and In Vivo
体外和体内中和可溶性因子抗体的功能表征
- DOI:
- 发表时间:
2010 - 期刊:
- 影响因子:0
- 作者:
G. Veldman;Z. Kaymakcalan;Renee Miller;L. Kalghatgi;J. Salfeld - 通讯作者:
J. Salfeld
A computational study of post-infarct mechanical effects of injected biomaterial into ischaemic myocardium
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
Renee Miller - 通讯作者:
Renee Miller
Innovative Application of Cerebral rSO2 Monitoring During Shunt Tap in Pediatric Ventricular Malfunctioning Shunts
儿科心室功能不全分流分流期间脑 rSO2 监测的创新应用
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:1.4
- 作者:
T. Abramo;Chuan Zhou;C. Estrada;M. Meredith;Renee Miller;M. Pearson;N. Tulipan;Abby M. Williams - 通讯作者:
Abby M. Williams
Renee Miller的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Renee Miller', 18)}}的其他基金
III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
- 批准号:
2107248 - 财政年份:2021
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
III: Medium: Table-as-Query: Unifying Data Discovery and Alignment
III:媒介:表即查询:统一数据发现和对齐
- 批准号:
1956096 - 财政年份:2020
- 资助金额:
$ 60万 - 项目类别:
Continuing Grant
CAREER: Managing Schematic Heterogeneity in Database Management Systems
职业:管理数据库管理系统中的原理图异构性
- 批准号:
9702974 - 财政年份:1997
- 资助金额:
$ 60万 - 项目类别:
Continuing Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
RI: Small: Semantic 3D Neural Rendering Field Models that are Accurate, Complete, Flexible, and Scalable
RI:小型:准确、完整、灵活且可扩展的语义 3D 神经渲染场模型
- 批准号:
2312102 - 财政年份:2023
- 资助金额:
$ 60万 - 项目类别:
Continuing Grant
CompCog: RI: Small: Human-like semantic grammar induction through knowledge distillation from pre-trained language models
CompCog:RI:Small:通过预训练语言模型的知识蒸馏进行类人语义语法归纳
- 批准号:
2313140 - 财政年份:2023
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
Collaborative Research: NeTS: Small: Reliable Task Offloading in Mobile Autonomous Systems Through Semantic MU-MIMO Control
合作研究:NeTS:小型:通过语义 MU-MIMO 控制实现移动自治系统中的可靠任务卸载
- 批准号:
2134973 - 财政年份:2021
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
Collaborative Research: NeTS: Small: Reliable Task Offloading in Mobile Autonomous Systems Through Semantic MU-MIMO Control
合作研究:NeTS:小型:通过语义 MU-MIMO 控制实现移动自治系统中的可靠任务卸载
- 批准号:
2134567 - 财政年份:2021
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
RI: Small: Representation Learning for Semantic Mapping and Safe Robot Navigation
RI:小型:语义映射和安全机器人导航的表示学习
- 批准号:
2007141 - 财政年份:2020
- 资助金额:
$ 60万 - 项目类别:
Continuing Grant
SHF: Small: Programming with Semantic Revision Requests
SHF:小型:使用语义修改请求进行编程
- 批准号:
2008369 - 财政年份:2020
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
RI: Small: A Differential Geometry Paradigm for Constructing a Semantic Mid-Level Representation for Multinocular Pose Estimation and Reconstruction
RI:小:为多目姿态估计和重建构建语义中级表示的微分几何范式
- 批准号:
1910530 - 财政年份:2019
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
SHF: Small: Collaborative Research: Semantic Foundations for Hole-Driven Development
SHF:小型:协作研究:空洞驱动开发的语义基础
- 批准号:
1817145 - 财政年份:2018
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
SaTC: CORE: Small: MOSE: Automated Detection of Module-Specific Semantic Errors
SaTC:核心:小:MOSE:模块特定语义错误的自动检测
- 批准号:
1815621 - 财政年份:2018
- 资助金额:
$ 60万 - 项目类别:
Standard Grant
NeTS: Small: Collaborative Research: Protocol Validation using Minimally Supervised Semantic Interpretation of Text
NeTS:小型:协作研究:使用文本的最小监督语义解释进行协议验证
- 批准号:
1814105 - 财政年份:2018
- 资助金额:
$ 60万 - 项目类别:
Standard Grant