CRII: III: Optimal Data Organization for Hybrid Transactional/Analytical Processing Data Systems
CRII:III:混合事务/分析处理数据系统的最佳数据组织
基本信息
- 批准号:1850202
- 负责人:
- 金额:$ 17.5万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2019
- 资助国家:美国
- 起止时间:2019-06-01 至 2022-05-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Scientific, commercial, and governmental applications increasingly rely on data-driven insights and decision-making using both historical data and real-time updates. New workloads are generated by social feeds, sensor readings (a common use-case of Internet-of-Things applications) and electronic micro-payments (an emerging model of e-commerce). They all have in common: (i) a very high volume of transactions and (ii) a high volume of analysis queries that need to use both historic and real-time data to provide useful and actionable insights. The primary challenge is that these workloads have conflicting requirements, and typically use different data systems architectures. On the one hand, we want to be able to answer analysis queries like, "what was the most discussed topic in each month of the past year?", or "what is the average power consumption per neighborhood of city X?". On the other hand, we want to efficiently store incoming updates and be able to provide real-time insights like "where do we have a power network overload now?", or "what is the probability that a disaster is taking place based on the social feeds of a city X?". Traditionally, data systems were engineered to efficiently support either a transactional workload -- that is, storing quickly new items -- or an analytical workload. The latter typically includes changing the data layout and organization, and building auxiliary indexing structures to allow for efficient data access. The emergence of complex workloads has pushed towards the need to develop new systems that can support hybrid transactional/analytical processing (HTAP). This research will allow to execute such workloads efficiently and to anticipate workload changes in a robust way. Ultimately, the project will make data ingestion and data analysis a smoother process and will enable complex applications to have their data analyzed quickly. The researchers will build data systems that can efficiently evaluate mixed workloads by navigating the read-optimized vs. update-optimized continuum of data systems architectures. The key to do so is to vary the physical data organization and find the optimal for each use-case. Typically, data objects are physically organized in various ways between two extremes: either they follow the ingestion order, that is, the way they are generated or inserted in the system, or they are organized based on their value (or a specific subset of their attributes). This "structure" (also called "bounded disorder" in the literature) is treated as a continuum between the two extremes. In-between, hybrid data organizations have different parts of the dataset organized with different schemes. Transactional updates add data with disorder, while answering analytical queries efficiently requires data with bounded disorder. A fundamental challenge today is to find the data organization that enables a data system to offer a tunable balance between efficient updates and fast analysis queries. This project addresses this challenge from three different angles. First, by formulating an optimization problem, which can be solved at run-time. Second, by formulating a robust optimization problem which will deliver good performance even when preliminary assumptions are not accurate. Third, by building access methods that can exploit any inherently limited disorder in the underlying data to reduce the data organization effort needed for efficient analysis tasks. This research effort introduces HTAP data systems that can optimally organize data and exploit inherently bounded disorder while being robust in workload changes.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
科学、商业和政府应用程序越来越依赖于使用历史数据和实时更新的数据驱动的见解和决策。新的工作负载是由社交源、传感器读数(物联网应用的常见用例)和电子微支付(电子商务的新兴模式)产生的。他们都有一个共同点:(i)非常高的交易量,以及(ii)需要使用历史和实时数据来提供有用和可操作的见解的大量分析查询。主要挑战是这些工作负载具有相互冲突的需求,并且通常使用不同的数据系统架构。一方面,我们希望能够回答分析查询,比如“过去一年中每个月讨论最多的话题是什么?”或者“X城市每个街区的平均耗电量是多少?".另一方面,我们希望有效地存储传入的更新,并能够提供实时的见解,如“我们现在在哪里有电力网络过载?或者“根据某个城市的社会反馈,灾难发生的概率是多少?".传统上,数据系统被设计为有效地支持事务性工作负载(即快速存储新项目)或分析性工作负载。后者通常包括更改数据布局和组织,以及构建辅助索引结构以允许有效的数据访问。复杂工作负载的出现推动了开发能够支持混合事务/分析处理(HTAP)的新系统的需求。这项研究将允许有效地执行这些工作负载,并以稳健的方式预测工作负载的变化。最终,该项目将使数据摄取和数据分析过程更加顺畅,并使复杂的应用程序能够快速分析数据。研究人员将构建数据系统,通过导航读取优化与更新优化的数据系统架构连续体,可以有效地评估混合工作负载。这样做的关键是改变物理数据组织,并为每个用例找到最佳方案。通常,数据对象以两种极端之间的各种方式进行物理组织:要么遵循摄取顺序,即它们在系统中生成或插入的方式,要么基于它们的值(或其属性的特定子集)进行组织。这种“结构”(在文献中也称为“有界无序”)被视为两个极端之间的连续体。在两者之间,混合数据组织具有使用不同方案组织的数据集的不同部分。transmittance更新添加无序的数据,而有效地回答分析查询需要有界无序的数据。今天的一个基本挑战是找到一种数据组织,使数据系统能够在高效更新和快速分析查询之间提供可调的平衡。本项目从三个不同的角度应对这一挑战。首先,通过制定一个优化问题,它可以在运行时解决。其次,通过制定一个强大的优化问题,即使初步假设不准确,也会提供良好的性能。第三,通过构建访问方法,可以利用底层数据中任何固有的有限无序,以减少高效分析任务所需的数据组织工作。这项研究工作引入了HTAP数据系统,该系统可以最佳地组织数据并利用固有的有界无序,同时在工作量变化中保持稳健。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(14)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Building Deletion-Compliant Data Systems
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Manos Athanassoulis;Subhadeep Sarkar;Tarikul Islam Papon;Zichen Zhu;Dimitris Staratzis
- 通讯作者:Manos Athanassoulis;Subhadeep Sarkar;Tarikul Islam Papon;Zichen Zhu;Dimitris Staratzis
Constructing and Analyzing the LSM Compaction Design Space
- DOI:10.14778/3476249.3476274
- 发表时间:2021-07
- 期刊:
- 影响因子:0
- 作者:Subhadeep Sarkar;Dimitris Staratzis;Zichen Zhu;Manos Athanassoulis
- 通讯作者:Subhadeep Sarkar;Dimitris Staratzis;Zichen Zhu;Manos Athanassoulis
Endure: A Robust Tuning Paradigm for LSM Trees Under Workload Uncertainty
- DOI:10.14778/3529337.3529345
- 发表时间:2021-10
- 期刊:
- 影响因子:0
- 作者:Andrew Huynh;Harshal A. Chaudhari;Evimaria Terzi;Manos Athanassoulis
- 通讯作者:Andrew Huynh;Harshal A. Chaudhari;Evimaria Terzi;Manos Athanassoulis
Compactionary: A Dictionary for LSM Compactions
Compactionary:LSM 压缩字典
- DOI:10.1145/3514221.3520169
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Sarkar, Subhadeep;Chen, Kaijie;Zhu, Zichen;Athanassoulis, Manos
- 通讯作者:Athanassoulis, Manos
Query Language Support for Timely Data Deletion
- DOI:10.48786/edbt.2022.35
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Subhadeep Sarkar;Manos Athanassoulis
- 通讯作者:Subhadeep Sarkar;Manos Athanassoulis
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Manos Athanassoulis其他文献
Acheron: Persisting Tombstones in LSM Engines
Acheron:LSM 引擎中持久的墓碑
- DOI:
10.1145/3555041.3589719 - 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Zichen Zhu;Subhadeep Sarkar;Manos Athanassoulis - 通讯作者:
Manos Athanassoulis
Benchmarking Learned and LSM Indexes for Data Sortedness
对学习索引和 LSM 索引进行数据排序的基准测试
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Andy Huynh;Jinqi Lu;Manos Athanassoulis - 通讯作者:
Manos Athanassoulis
KVBench: A Key-Value Benchmarking Suite
KVBench:关键值基准测试套件
- DOI:
10.1145/3662165.3662765 - 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Zichen Zhu;Arpita Saha;Manos Athanassoulis;Subhadeep Sarkar - 通讯作者:
Subhadeep Sarkar
On-the-fly Data Transformation in Action
实时数据转换的实际应用
- DOI:
10.14778/3611540.3611593 - 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
J. Mun;Konstantinos Karatsenidis;Tarikul Islam Papon;Shahin Roozkhosh;Denis Hoornaert;Ulrich Drepper;A. Sanaullah;Renato Mancuso;Manos Athanassoulis;Islam Papon;Relational Memory Engine - 通讯作者:
Relational Memory Engine
Flash in a DBMS: Where and How?
DBMS 中的闪存:在何处以及如何?
- DOI:
- 发表时间:
2010 - 期刊:
- 影响因子:0
- 作者:
Manos Athanassoulis;A. Ailamaki;Shimin Chen;Phillip B. Gibbons;R. Stoica - 通讯作者:
R. Stoica
Manos Athanassoulis的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Manos Athanassoulis', 18)}}的其他基金
CAREER: Robust LSM-Based Data Stores
职业:基于 LSM 的强大数据存储
- 批准号:
2144547 - 财政年份:2022
- 资助金额:
$ 17.5万 - 项目类别:
Continuing Grant
相似国自然基金
全钒液流电池负极V(II)/V(III)电化学氧化还原的催化机理研究
- 批准号:2025JJ50094
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
吡咯烷生物碱所致肝窦阻塞综合征III区肝损伤的新机制——局部氨代谢紊乱
- 批准号:JCZRYB202500652
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
硅基III-V族亚微米线激光器的光场模式调控与耦合机理研究
- 批准号:JCZRQN202501004
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
MXene/nZVI@FH材料微域层界面调控水中砷(III)氧化迁移机制
- 批准号:2025JJ50319
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
HOXC8/OPN/CD44/EGFR轴介导的奥沙利铂耐药性在III期右半结肠癌耐药进展中的研究
- 批准号:2025JJ50694
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
AI结合超声原始射频信号评估Bethesda III/IV类甲状腺肿瘤包膜和血管侵犯研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
硫化砷靶向VPS4B-ESCRT-III调控自噬溶酶体通路逆转三阴性乳腺癌顺铂耐药性的研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
ASPGR与MRC2双受体介导铱(III)配合物
脂质体抗肝肿瘤研究
- 批准号:
- 批准年份:2025
- 资助金额:10.0 万元
- 项目类别:省市级项目
Ap-Exo III 联合模式识别构建降尿酸药
物筛选新方法的研究
- 批准号:
- 批准年份:2025
- 资助金额:10.0 万元
- 项目类别:省市级项目
经关节突截骨矫治III期Kummell病临床有效性分析
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
相似海外基金
NEPhos_Phosphoregulation of ESCRT-III during nuclear envelope reformation
NEPhos_ESCRT-III 核膜重构过程中的磷酸调节
- 批准号:
EP/Z00098X/1 - 财政年份:2025
- 资助金额:
$ 17.5万 - 项目类别:
Fellowship
IUCRC Phase III University of Colorado Boulder: Center for Membrane Applications, Science and Technology (MAST)
IUCRC 第三阶段科罗拉多大学博尔德分校:膜应用、科学与技术中心 (MAST)
- 批准号:
2310937 - 财政年份:2024
- 资助金额:
$ 17.5万 - 项目类别:
Continuing Grant
Collaborative Research: Conference: DESC: Type III: Eco Edge - Advancing Sustainable Machine Learning at the Edge
协作研究:会议:DESC:类型 III:生态边缘 - 推进边缘的可持续机器学习
- 批准号:
2342498 - 财政年份:2024
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
III属窒化物半導体のイオン注入不純物活性化機構の解明と点欠陥制御
阐明III族氮化物半导体中的离子注入杂质激活机制和点缺陷控制
- 批准号:
23K21082 - 财政年份:2024
- 资助金额:
$ 17.5万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
III型分泌装置に依存しない類鼻疽菌の病原性に関与する因子の同定とその機能解析
不依赖于III型分泌器的类鼻疽杆菌致病因子的鉴定及其功能分析
- 批准号:
24K10200 - 财政年份:2024
- 资助金额:
$ 17.5万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Carrier recombination dynamics in III-N photodetectors
III-N 光电探测器中的载流子复合动力学
- 批准号:
2341747 - 财政年份:2024
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
Collaborative Research: Conference: DESC: Type III: Eco Edge - Advancing Sustainable Machine Learning at the Edge
协作研究:会议:DESC:类型 III:生态边缘 - 推进边缘的可持续机器学习
- 批准号:
2342497 - 财政年份:2024
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
IUCRC Phase III Virginia Institute of Marine Science for Science Center for Marine Fisheries (SCEMFIS)
IUCRC 第三阶段 弗吉尼亚海洋科学研究所海洋渔业科学中心 (SCEMFIS)
- 批准号:
2332984 - 财政年份:2024
- 资助金额:
$ 17.5万 - 项目类别:
Continuing Grant
III : Medium: Collaborative Research: From Open Data to Open Data Curation
III:媒介:协作研究:从开放数据到开放数据管理
- 批准号:
2420691 - 财政年份:2024
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
III: Small: Query-By-Sketch: Simplifying Video Clip Retrieval Through A Visual Query Paradigm
III:小:按草图查询:通过可视化查询范式简化视频剪辑检索
- 批准号:
2335881 - 财政年份:2024
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant