III: Medium: Collaborative Research: Supporting High-Value Analytics on Big Low-Value Data

III:媒介:协作研究:支持低价值大数据的高价值分析

基本信息

  • 批准号:
    1954644
  • 负责人:
  • 金额:
    $ 60万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

A wealth of digital information is being generated through social networks, blogs, online communities, news sources, and mobile applications as well as a myriad of device-based sources such as smart-home devices and wearable sensors. Data analysts in a number of domains, e.g., government, public health, national security, and public safety, stand to benefit greatly from the ability to perform retrospective as well as interactive analyses over such data. The key feature of this data is that an individual item, such as a tweet or a sensor reading, is low-value by nature. Such data becomes of high-value only when large quantities of such data are analyzed together. This project seeks new data management techniques to enable data analysts to process large quantities of such low-value data. The key challenge is to support analytic queries efficiently and interactively, while being aware of the low-value nature of the data, using cost-effective solutions such as cheap commodity hardware.Support for data analytics has been well studied, both for centralized and parallel databases, for tabular data. However, given memory prices where the high-value transactional data for a typical enterprise can fit in the memory of a high-end server, most recent work has been on analytics for memory-resident data. In contrast, this project aims to support analytics over data arising from social, mobile, Web, and IoT data sources. This data is much larger, so memory-residence is not cost effective for storage or analysis, as only in aggregate do the data items become high-value. The project has three main thrusts. The first thrust focuses on efficient storage and resource-aware query processing for large volumes of data that are nested, semi-structured, and lacking a predefined schema. The second thrust introduces a flexible join framework to handle complex join queries – including joins over spatial, temporal, and textual data – to allow multiple datasets to be combined to increase their value. The third thrust, since big low-value often involves sequences of events, focuses on efficient window query processing; parallel processing of window queries, in order to scale, is essential for big low-value data analytics.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
通过社交网络、博客、在线社区、新闻来源、移动应用程序以及无数基于设备的来源(如智能家居设备和可穿戴传感器),正在产生大量的数字信息。政府、公共卫生、国家安全和公共安全等许多领域的数据分析人员将从对这些数据进行回顾性和交互式分析的能力中受益匪浅。这些数据的关键特征是,单个项目(如tweet或传感器读数)本质上是低价值的。只有将大量的此类数据放在一起进行分析,这些数据才具有很高的价值。该项目寻求新的数据管理技术,使数据分析师能够处理大量这样的低价值数据。关键的挑战是如何高效地、交互式地支持分析查询,同时意识到数据的低价值性质,使用诸如廉价商品硬件之类的经济有效的解决方案。对数据分析的支持已经得到了很好的研究,包括集中式数据库和并行数据库,以及表格数据。然而,考虑到内存价格,典型企业的高价值事务数据可以放在高端服务器的内存中,最近的工作主要集中在内存驻留数据的分析上。相比之下,该项目旨在支持对来自社交、移动、Web和物联网数据源的数据进行分析。这些数据要大得多,因此内存驻留对于存储或分析来说并不具有成本效益,因为只有汇总起来,这些数据项才具有高价值。该项目有三大重点。第一个重点是对嵌套的、半结构化的、缺乏预定义模式的大量数据进行有效的存储和资源感知查询处理。第二个要点引入了一个灵活的连接框架来处理复杂的连接查询——包括对空间、时间和文本数据的连接——以允许将多个数据集组合起来以增加它们的价值。第三个要点,由于大的低值通常涉及事件序列,因此侧重于高效的窗口查询处理;为了扩展,并行处理窗口查询对于大的低价值数据分析是必不可少的。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(20)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Columnar Formats for Schemaless LSM-based Document Stores
基于 Schemaless LSM 的文档存储的列格式
  • DOI:
    10.14778/3547305.3547314
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Alkowaileet, W.;Carey, M.
  • 通讯作者:
    Carey, M.
Incremental partitioning for efficient spatial data analytics
增量分区以实现高效的空间数据分析
  • DOI:
    10.14778/3494124.3494150
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Vu, Tin;Eldawy, Ahmed;Hristidis, Vagelis;Tsotras, Vassilis
  • 通讯作者:
    Tsotras, Vassilis
Design Trade-offs for a Robust Dynamic Hybrid Hash Join
  • DOI:
    10.14778/3547305.3547327
  • 发表时间:
    2021-12
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shiva Jahangiri;M. Carey;J. Freytag
  • 通讯作者:
    Shiva Jahangiri;M. Carey;J. Freytag
A Demonstration of Interactive Exploration of Big Geospatial Data on UCR-Star
UCR-Star上地理空间大数据交互探索演示
Spatial parquet: a column file format for geospatial data lakes
Spatial parquet:地理空间数据湖的列文件格式
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Ahmed Eldawy其他文献

Uncertainty Aware Wildfire Management
不确定性意识野火管理
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tina Diao;Samriddhi Singla;Ayan Mukhopadhyay;Ahmed Eldawy;Ross D. Shachter;Mykel J. Kochenderfer
  • 通讯作者:
    Mykel J. Kochenderfer
Large Scale Analytics of Vector+Raster Big Spatial Data
矢量栅格大空间数据的大规模分析
DeepSampling: Selectivity Estimation with Predicted Error and Response Time
DeepSampling:具有预测误差和响应时间的选择性估计
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tin Vu;Ahmed Eldawy
  • 通讯作者:
    Ahmed Eldawy
Spatial Join with Hadoop
使用 Hadoop 进行空间连接
Euler++: Improved Selectivity Estimation for Rectangular Spatial Records
Euler:改进的矩形空间记录的选择性估计

Ahmed Eldawy的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Ahmed Eldawy', 18)}}的其他基金

CAREER: Towards Exploratory Data Science on Spatio-temporal Big Data
职业:走向时空大数据的探索性数据科学
  • 批准号:
    2046236
  • 财政年份:
    2021
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant

相似海外基金

III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
  • 批准号:
    2420691
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Designing AI Systems with Steerable Long-Term Dynamics
合作研究:III:中:设计具有可操纵长期动态的人工智能系统
  • 批准号:
    2312865
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: MEDIUM: Responsible Design and Validation of Algorithmic Rankers
合作研究:III:媒介:算法排序器的负责任设计和验证
  • 批准号:
    2312932
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
III: Medium: Collaborative Research: Integrating Large-Scale Machine Learning and Edge Computing for Collaborative Autonomous Vehicles
III:媒介:协作研究:集成大规模机器学习和边缘计算以实现协作自动驾驶汽车
  • 批准号:
    2348169
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
Collaborative Research: III: Medium: Algorithms for scalable inference and phylodynamic analysis of tumor haplotypes using low-coverage single cell sequencing data
合作研究:III:中:使用低覆盖率单细胞测序数据对肿瘤单倍型进行可扩展推理和系统动力学分析的算法
  • 批准号:
    2415562
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: New Machine Learning Empowered Nanoinformatics System for Advancing Nanomaterial Design
合作研究:III:媒介:新的机器学习赋能纳米信息学系统,促进纳米材料设计
  • 批准号:
    2347592
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Knowledge discovery from highly heterogeneous, sparse and private data in biomedical informatics
合作研究:III:中:生物医学信息学中高度异构、稀疏和私有数据的知识发现
  • 批准号:
    2312862
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: MEDIUM: Responsible Design and Validation of Algorithmic Rankers
合作研究:III:媒介:算法排序器的负责任设计和验证
  • 批准号:
    2312930
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: VirtualLab: Integrating Deep Graph Learning and Causal Inference for Multi-Agent Dynamical Systems
协作研究:III:媒介:VirtualLab:集成多智能体动态系统的深度图学习和因果推理
  • 批准号:
    2312501
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Graph Neural Networks for Heterophilous Data: Advancing the Theory, Models, and Applications
合作研究:III:媒介:异质数据的图神经网络:推进理论、模型和应用
  • 批准号:
    2406648
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了