III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
基本信息
- 批准号:2107107
- 负责人:
- 金额:$ 37.5万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-10-01 至 2024-04-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Motivated by societal trends that value institutional openness and transparency, open data is being produced and shared at a speed that surpasses our ability to process it. Many governmental and private institutions are adopting Open Data Principles that state that the shared data is complete, accurate, and timely. These properties make this data of great value to data scientists, journalists, and the public. When Open Data is used effectively, data scientists can explore and analyze open resources, which in turn allows them to investigate public policy, create new scientific knowledge, and discover new (hidden) value useful for social, scientific, or economic initiatives. Though the open data movement has succeeded in its ambition of making data accessible, it has not succeed in making this valuable data easy to use. The overarching goal of this project is to address this shortcoming.In this project, we present a vision for Open Data Curation - data curation that is open, transparent, and explainable. Open Data Curation uses an on-demand integration paradigm that spans data discovery, data cleaning and linking, and data integration. Our vision is to enable users to query heterogeneous data stored in a data repository with minimal up-front effort. Users can reference concepts and attributes in their queries that do not exist in the data. An on-demand integration system (ODIS) responds to such requests by automatically determining what data could be transformed and integrated to provide data for a requested concept. In terms of societal impact, the project will provide the algorithmic innovations to make effective, intuitive on-demand integration over open data lakes a reality. Our solutions will use real open data and will be robust to the sometimes quirky, and always diverse, characteristics of open data. We believe a profound shift in how people think about data integration and curation is needed to fuel the data science revolution which is being held back by incoherent data curation - a task that is still considered one of the most time consuming, annoying, and error-prone in data science.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
在重视机构开放性和透明度的社会趋势的推动下,开放数据正在以超出我们处理能力的速度产生和共享。许多政府和私人机构正在采用开放数据原则,声明共享的数据是完整、准确和及时的。这些属性使这些数据对数据科学家、记者和公众具有很大的价值。当开放数据被有效地使用时,数据科学家可以探索和分析开放资源,这反过来又允许他们调查公共政策,创造新的科学知识,并发现对社会,科学或经济举措有用的新(隐藏)价值。虽然开放数据运动已经成功地实现了数据可访问性的目标,但它还没有成功地使这些有价值的数据易于使用。这个项目的首要目标就是解决这个缺点。在这个项目中,我们提出了一个开放数据管理的愿景——开放、透明和可解释的数据管理。开放数据管理使用一种按需集成范例,涵盖数据发现、数据清理和链接以及数据集成。我们的愿景是使用户能够以最少的前期工作查询存储在数据存储库中的异构数据。用户可以在查询中引用数据中不存在的概念和属性。按需集成系统(ODIS)通过自动确定可以转换和集成哪些数据来为所请求的概念提供数据,从而响应此类请求。在社会影响方面,该项目将提供算法创新,使开放数据湖上有效、直观的按需集成成为现实。我们的解决方案将使用真正的开放数据,并将对开放数据有时古怪但总是多样化的特征保持稳健。我们认为,人们对数据整合和管理的看法需要发生深刻的转变,以推动数据科学革命,这一革命被不连贯的数据管理所阻碍——数据管理仍然被认为是数据科学中最耗时、最烦人、最容易出错的任务之一。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
CaJaDE: explaining query results by augmenting provenance with context
CaJaDE:通过使用上下文增强来源来解释查询结果
- DOI:10.14778/3554821.3554852
- 发表时间:2022
- 期刊:
- 影响因子:2.5
- 作者:Li, Chenjie;Lee, Juseung;Miao, Zhengjie;Glavic, Boris;Roy, Sudeepa
- 通讯作者:Roy, Sudeepa
Interpretable Data-Based Explanations for Fairness Debugging
- DOI:10.1145/3514221.3517886
- 发表时间:2021-12
- 期刊:
- 影响因子:0
- 作者:Romila Pradhan;Jiongli Zhu;Boris Glavic;Babak Salimi
- 通讯作者:Romila Pradhan;Jiongli Zhu;Boris Glavic;Babak Salimi
Trends in Explanations: Understanding and Debugging Data-driven Systems
- DOI:10.1561/1900000074
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Boris Glavic;A. Meliou;Sudeepa Roy
- 通讯作者:Boris Glavic;A. Meliou;Sudeepa Roy
Debugging missing answers for spark queries over nested data with breadcrumb
使用面包屑调试嵌套数据上 Spark 查询的缺失答案
- DOI:10.14778/3476311.3476331
- 发表时间:2021
- 期刊:
- 影响因子:2.5
- 作者:Diestelkämper, Ralf;Lee, Seokki;Glavic, Boris;Herschel, Melanie
- 通讯作者:Herschel, Melanie
Hybrid Query and Instance Explanations and Repairs
混合查询和实例解释和修复
- DOI:10.1145/3543873.3587565
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Lee, Seokki;Glavic, Boris;Chapman, Adriane;Ludäscher, Bertram
- 通讯作者:Ludäscher, Bertram
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Boris Glavic其他文献
Efficient Approximation of Certain and Possible Answers for Ranking and Window Queries over Uncertain Data (Extended version)
不确定数据的排名和窗口查询的某些和可能答案的有效近似(扩展版)
- DOI:
10.48550/arxiv.2302.08676 - 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Su Feng;Boris Glavic;Oliver Kennedy - 通讯作者:
Oliver Kennedy
Efficient Stream Provenance via Operator Instrumentation
通过操作员仪表进行高效的流来源
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
Boris Glavic;K. S. Esmaili;Peter M. Fischer;Nesime Tatbul - 通讯作者:
Nesime Tatbul
Interoperability for Provenance-aware Databases using PROV and JSON
使用 PROV 和 JSON 实现来源感知数据库的互操作性
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Xing Niu;Boris Glavic;D. Gawlick;Z. Liu;Vasudha Krishnaswamy;Venkatesh Radhakrishnan - 通讯作者:
Venkatesh Radhakrishnan
Solving Why Not Questions for Aggregate Constraints through Query Repair
通过查询修复解决聚合约束的“Why Not”问题
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
Shatha Algarni;Boris Glavic;Seok;Adriane Chapman - 通讯作者:
Adriane Chapman
SCIPIS: Scalable and concurrent persistent indexing and search in high-end computing systems
SCIPIS:高端计算系统中的可扩展和并发持久索引和搜索
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Alexandru Iulian Orhean;Anna Giannakou;Lavanya Ramakrishnan;K. Chard;Boris Glavic;I. Raicu - 通讯作者:
I. Raicu
Boris Glavic的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Boris Glavic', 18)}}的其他基金
III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
- 批准号:
2420691 - 财政年份:2024
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
III: Medium: Collaborative Research: U4U - Taming Uncertainty with Uncertainty-Annotated Databases
III:媒介:合作研究:U4U - 利用不确定性注释数据库来克服不确定性
- 批准号:
1956123 - 财政年份:2020
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
相似国自然基金
水-土-固废多介质中典型新污染物筛查评估与多场景协同治理关键技术研发与应用
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
数据驱动多介质协同碳纳米管负载过渡
族金属化合物选择性去除新污染物
- 批准号:
- 批准年份:2025
- 资助金额:10.0 万元
- 项目类别:省市级项目
裂隙介质中核素Sr与胶体协同运移的机理研究
- 批准号:42302274
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
天然气掺氢输送环境多介质协同的管线钢氢渗透机制与氢损伤判据
- 批准号:52301075
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
高温强场下接枝亲电子体储能电介质短时击穿与长时耐久协同提升机制
- 批准号:52307022
- 批准年份:2023
- 资助金额:30.00 万元
- 项目类别:青年科学基金项目
基于多目标参数协同优化的大气压介质阻挡放电双频谐波调控技术研究
- 批准号:52377141
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
非均质软体机器人介质分布与肌腱布置的协同设计原理与方法
- 批准号:52305014
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
流化态催化剂提升介质阻挡放电与催化剂协同效应及生物质焦油转化研究
- 批准号:52377147
- 批准年份:2023
- 资助金额:52 万元
- 项目类别:面上项目
亚熔盐介质低氧压碱浸软锰矿制备锰酸钾多相反应/传递协同增效机制
- 批准号:52364045
- 批准年份:2023
- 资助金额:33 万元
- 项目类别:地区科学基金项目
Nd-Fe-B介质/缺陷诱导下晶界扩散迁移行为及协同调控机制研究
- 批准号:52361033
- 批准年份:2023
- 资助金额:32 万元
- 项目类别:地区科学基金项目
相似海外基金
III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
- 批准号:
2420691 - 财政年份:2024
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
Collaborative Research: III: Medium: Designing AI Systems with Steerable Long-Term Dynamics
合作研究:III:中:设计具有可操纵长期动态的人工智能系统
- 批准号:
2312865 - 财政年份:2023
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
Collaborative Research: III: MEDIUM: Responsible Design and Validation of Algorithmic Rankers
合作研究:III:媒介:算法排序器的负责任设计和验证
- 批准号:
2312932 - 财政年份:2023
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
Collaborative Research: III: Medium: Algorithms for scalable inference and phylodynamic analysis of tumor haplotypes using low-coverage single cell sequencing data
合作研究:III:中:使用低覆盖率单细胞测序数据对肿瘤单倍型进行可扩展推理和系统动力学分析的算法
- 批准号:
2415562 - 财政年份:2023
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
III: Medium: Collaborative Research: Integrating Large-Scale Machine Learning and Edge Computing for Collaborative Autonomous Vehicles
III:媒介:协作研究:集成大规模机器学习和边缘计算以实现协作自动驾驶汽车
- 批准号:
2348169 - 财政年份:2023
- 资助金额:
$ 37.5万 - 项目类别:
Continuing Grant
Collaborative Research: III: Medium: VirtualLab: Integrating Deep Graph Learning and Causal Inference for Multi-Agent Dynamical Systems
协作研究:III:媒介:VirtualLab:集成多智能体动态系统的深度图学习和因果推理
- 批准号:
2312501 - 财政年份:2023
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
Collaborative Research: III: Medium: Knowledge discovery from highly heterogeneous, sparse and private data in biomedical informatics
合作研究:III:中:生物医学信息学中高度异构、稀疏和私有数据的知识发现
- 批准号:
2312862 - 财政年份:2023
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
Collaborative Research: III: MEDIUM: Responsible Design and Validation of Algorithmic Rankers
合作研究:III:媒介:算法排序器的负责任设计和验证
- 批准号:
2312930 - 财政年份:2023
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
Collaborative Research: III: Medium: New Machine Learning Empowered Nanoinformatics System for Advancing Nanomaterial Design
合作研究:III:媒介:新的机器学习赋能纳米信息学系统,促进纳米材料设计
- 批准号:
2347592 - 财政年份:2023
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant
Collaborative Research: IIS: III: MEDIUM: Learning Protein-ish: Foundational Insight on Protein Language Models for Better Understanding, Democratized Access, and Discovery
协作研究:IIS:III:中等:学习蛋白质:对蛋白质语言模型的基础洞察,以更好地理解、民主化访问和发现
- 批准号:
2310113 - 财政年份:2023
- 资助金额:
$ 37.5万 - 项目类别:
Standard Grant