III: Medium: Collaborative Research: Supporting High-Value Analytics on Big Low-Value Data

III:媒介:协作研究:支持低价值大数据的高价值分析

基本信息

  • 批准号:
    1954962
  • 负责人:
  • 金额:
    $ 60万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

A wealth of digital information is being generated through social networks, blogs, online communities, news sources, and mobile applications as well as a myriad of device-based sources such as smart-home devices and wearable sensors. Data analysts in a number of domains, e.g., government, public health, national security, and public safety, stand to benefit greatly from the ability to perform retrospective as well as interactive analyses over such data. The key feature of this data is that an individual item, such as a tweet or a sensor reading, is low-value by nature. Such data becomes of high-value only when large quantities of such data are analyzed together. This project seeks new data management techniques to enable data analysts to process large quantities of such low-value data. The key challenge is to support analytic queries efficiently and interactively, while being aware of the low-value nature of the data, using cost-effective solutions such as cheap commodity hardware.Support for data analytics has been well studied, both for centralized and parallel databases, for tabular data. However, given memory prices where the high-value transactional data for a typical enterprise can fit in the memory of a high-end server, most recent work has been on analytics for memory-resident data. In contrast, this project aims to support analytics over data arising from social, mobile, Web, and IoT data sources. This data is much larger, so memory-residence is not cost effective for storage or analysis, as only in aggregate do the data items become high-value. The project has three main thrusts. The first thrust focuses on efficient storage and resource-aware query processing for large volumes of data that are nested, semi-structured, and lacking a predefined schema. The second thrust introduces a flexible join framework to handle complex join queries – including joins over spatial, temporal, and textual data – to allow multiple datasets to be combined to increase their value. The third thrust, since big low-value often involves sequences of events, focuses on efficient window query processing; parallel processing of window queries, in order to scale, is essential for big low-value data analytics.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
通过社交网络、博客、在线社区、新闻来源、移动应用程序以及无数基于设备的来源(如智能家居设备和可穿戴传感器),正在产生大量的数字信息。政府、公共卫生、国家安全和公共安全等许多领域的数据分析人员将从对这些数据进行回顾性和交互式分析的能力中受益匪浅。这些数据的关键特征是,单个项目(如tweet或传感器读数)本质上是低价值的。只有将大量的此类数据放在一起进行分析,这些数据才具有很高的价值。该项目寻求新的数据管理技术,使数据分析师能够处理大量这样的低价值数据。关键的挑战是如何高效地、交互式地支持分析查询,同时意识到数据的低价值性质,使用诸如廉价商品硬件之类的经济有效的解决方案。对数据分析的支持已经得到了很好的研究,包括集中式数据库和并行数据库,以及表格数据。然而,考虑到内存价格,典型企业的高价值事务数据可以放在高端服务器的内存中,最近的工作主要集中在内存驻留数据的分析上。相比之下,该项目旨在支持对来自社交、移动、Web和物联网数据源的数据进行分析。这些数据要大得多,因此内存驻留对于存储或分析来说并不具有成本效益,因为只有汇总起来,这些数据项才具有高价值。该项目有三大重点。第一个重点是对嵌套的、半结构化的、缺乏预定义模式的大量数据进行有效的存储和资源感知查询处理。第二个要点引入了一个灵活的连接框架来处理复杂的连接查询——包括对空间、时间和文本数据的连接——以允许将多个数据集组合起来以增加它们的价值。第三个要点,由于大的低值通常涉及事件序列,因此侧重于高效的窗口查询处理;为了扩展,并行处理窗口查询对于大的低价值数据分析是必不可少的。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(17)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
An LSM-based tuple compaction framework for Apache AsterixDB
用于 Apache AsterixDB 的基于 LSM 的元组压缩框架
  • DOI:
    10.14778/3397230.3397236
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Alkowaileet, Wail Y.;Alsubaiee, Sattam;Carey, Michael J.
  • 通讯作者:
    Carey, Michael J.
A brief introduction to geospatial big data analytics with apache AsterixDB
apache AsterixDB 地理空间大数据分析简介
  • DOI:
    10.1145/3486189.3490018
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sevim, Akil;Mahin, Mehnaz Tabassum;Vu, Tin;Maxon, Ian;Eldawy, Ahmed;Carey, Michael;Tsotras, Vassilis
  • 通讯作者:
    Tsotras, Vassilis
Benchmarking HOAP for Scalable Document Data Management: A First Step
可扩展文档数据管理的 HOAP 基准测试:第一步
Columnar Formats for Schemaless LSM-based Document Stores
基于 Schemaless LSM 的文档存储的列格式
  • DOI:
    10.14778/3547305.3547314
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Alkowaileet, W.;Carey, M.
  • 通讯作者:
    Carey, M.
CH3: A Mixed Workload Benchmark for Scalable NoSQL
CH3:可扩展 NoSQL 的混合工作负载基准
  • DOI:
    10.1109/bigdata55660.2022.10021092
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Mahin, Mehnaz Tabassum;Wang, Bo-Chun;Jagtiani, Kamini;Carey, Michael;Murthy, Keshav
  • 通讯作者:
    Murthy, Keshav
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Michael Carey其他文献

Patients’ attitudes to bedside teaching after the COVID-19 pandemic
  • DOI:
    10.1007/s11845-023-03558-5
  • 发表时间:
    2023-11-02
  • 期刊:
  • 影响因子:
    1.600
  • 作者:
    Hayley Jackson;Claire MacBride;Laura Taylor;Michael Carey;Mary F. Higgins
  • 通讯作者:
    Mary F. Higgins
Undergraduate paramedic student competency assessment: A grounded theory study explaining how assessors in Australia and New Zealand determine student competency to practice
本科护理人员学生能力评估:一项扎根理论研究解释了澳大利亚和新西兰的评估人员如何确定学生的实践能力
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Anthony C. Smith;P. Andersen;Michael Carey
  • 通讯作者:
    Michael Carey
Ultimate doctor liability: A myth of ignorance or myth of control?
  • DOI:
    10.1016/j.colegn.2009.06.003
  • 发表时间:
    2009-07-01
  • 期刊:
  • 影响因子:
  • 作者:
    Andrew Cashin;Michael Carey;Ngaire Watson;Greg Clark;Claire Newman;Cheryl D. Waters
  • 通讯作者:
    Cheryl D. Waters
Staff Attitudes Regarding Permanent Expulsionary Punishment (PEP) from Australian Government Schools: Comparing Queensland with Other Jurisdictions
澳大利亚公立学校员工对永久开除处罚 (PEP) 的态度:昆士兰州与其他司法管辖区的比较
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Brian Higgins;Michael Carey;Peter Dunn
  • 通讯作者:
    Peter Dunn
307. Prostate Targeted TSTA Oncolytic Adenovirus
  • DOI:
    10.1016/j.ymthe.2006.08.362
  • 发表时间:
    2006-01-01
  • 期刊:
  • 影响因子:
  • 作者:
    Makoto Sato;Steve Huyn;Russell Powell;Michael Carey;Sanjiv S. Gambhir;Lily Wu
  • 通讯作者:
    Lily Wu

Michael Carey的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Michael Carey', 18)}}的其他基金

BIGDATA: F: Collaborative Research: Optimizing Log-Structured-Merge-Based Big Data Management Systems
BIGDATA:F:协作研究:优化基于日志结构合并的大数据管理系统
  • 批准号:
    1838248
  • 财政年份:
    2019
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CCRI: ENS: Collaborative Research: Supporting and Sustaining Apache AsterixDB for the CISE Research Community
CCRI:ENS:协作研究:为 CISE 研究社区支持和维护 Apache AsterixDB
  • 批准号:
    1925610
  • 财政年份:
    2019
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
BIGDATA: F: DKM: Collaborative Research: Making Big Data Active: From Petabytes to Megafolks in Milliseconds
BIGDATA:F:DKM:协作研究:使大数据活跃起来:在毫秒内从 PB 级到百万级数据
  • 批准号:
    1447720
  • 财政年份:
    2014
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: ASTERIX: A Community Software Platform for Big Data Research, Analysis, and Management
CI-ADDO-NEW:ASTERIX:用于大数据研究、分析和管理的社区软件平台
  • 批准号:
    1305430
  • 财政年份:
    2013
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
DC: Large: Collaborative Research: ASTERIX: A Highly Scalable Parallel Platform for Semistructured Data Management and Analysis
DC:大型:协作研究:ASTERIX:用于半结构化数据管理和分析的高度可扩展并行平台
  • 批准号:
    0910989
  • 财政年份:
    2009
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Presidential Young Investigator Award (Computer and Information Science)
总统青年研究员奖(计算机与信息科学)
  • 批准号:
    8657323
  • 财政年份:
    1987
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
The Performance of Algorithms For Shared Relational DatabaseSystems
共享关系数据库系统算法的性能
  • 批准号:
    8402818
  • 财政年份:
    1984
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant

相似海外基金

III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
  • 批准号:
    2420691
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Designing AI Systems with Steerable Long-Term Dynamics
合作研究:III:中:设计具有可操纵长期动态的人工智能系统
  • 批准号:
    2312865
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: MEDIUM: Responsible Design and Validation of Algorithmic Rankers
合作研究:III:媒介:算法排序器的负责任设计和验证
  • 批准号:
    2312932
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
III: Medium: Collaborative Research: Integrating Large-Scale Machine Learning and Edge Computing for Collaborative Autonomous Vehicles
III:媒介:协作研究:集成大规模机器学习和边缘计算以实现协作自动驾驶汽车
  • 批准号:
    2348169
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
Collaborative Research: III: Medium: Algorithms for scalable inference and phylodynamic analysis of tumor haplotypes using low-coverage single cell sequencing data
合作研究:III:中:使用低覆盖率单细胞测序数据对肿瘤单倍型进行可扩展推理和系统动力学分析的算法
  • 批准号:
    2415562
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: New Machine Learning Empowered Nanoinformatics System for Advancing Nanomaterial Design
合作研究:III:媒介:新的机器学习赋能纳米信息学系统,促进纳米材料设计
  • 批准号:
    2347592
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Knowledge discovery from highly heterogeneous, sparse and private data in biomedical informatics
合作研究:III:中:生物医学信息学中高度异构、稀疏和私有数据的知识发现
  • 批准号:
    2312862
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: MEDIUM: Responsible Design and Validation of Algorithmic Rankers
合作研究:III:媒介:算法排序器的负责任设计和验证
  • 批准号:
    2312930
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: VirtualLab: Integrating Deep Graph Learning and Causal Inference for Multi-Agent Dynamical Systems
协作研究:III:媒介:VirtualLab:集成多智能体动态系统的深度图学习和因果推理
  • 批准号:
    2312501
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Graph Neural Networks for Heterophilous Data: Advancing the Theory, Models, and Applications
合作研究:III:媒介:异质数据的图神经网络:推进理论、模型和应用
  • 批准号:
    2406648
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了