III: Small: Rethinking the Data Organization and Lifecycle in LSM Storage Systems

III:小:重新思考 LSM 存储系统中的数据组织和生命周期

基本信息

  • 批准号:
    2227669
  • 负责人:
  • 金额:
    $ 60万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-01-01 至 2025-12-31
  • 项目状态:
    未结题

项目摘要

To support the efficient storing of large amounts of data, many modern database systems use the Log Structured Merge tree (LSM) technology. This technology allows grouping many data updates together, before applying them to the database. This project has identified several limitations of LSM storage, which cause reduced rates of reads and writes to the database system. Specifically, current LSM systems do not consider the hotness of a data record when deciding how to store it, and may also suffer from periodic stalls, where the system may become unresponsive while large maintenance operations, called merges, are performed. Further, LSM systems are inefficient at exploiting larger computer memories. The developed techniques create novel data organization and flow patterns in the LSM storage, which leverage modern hardware capabilities to boost the read and write capabilities of the storage system. Improving the performance of database systems will allow storing larger data at lower costs, thus making storage systems more accessible to scientists and general users. This project will also strengthen and extend the ongoing undergraduate research and high school outreach activities of the investigators. The project has several research aims. First, algorithms will be developed to store frequently accessed records in more accessible locations for faster retrieval. This will facilitate a bi-directional LSM tree architecture, where records flow both top-down and bottom-up. This will allow naturally maintaining hot records together, for faster querying and more effective caching. Second, new algorithms will be created to improve the speed of data merges. Periodic merges are used to maintain the stored data organized and consistent. This aim will study how to universally partition LSM runs to facilitate splitting a large merge into multiple disjoint sub-merges, thus reducing stall periods. The third aim will create algorithms to better utilize large memory sizes and multithreading parallelism, and develop a mixed memory-disk LSM tree. The key idea is that, instead of directly enlarging the MemTable, where recent writes are buffered, some components can be pinned in memory, with a more efficient organization, and enable parallel execution on queries. The project includes theoretical analysis, experimental study and software development. The developed algorithms are tested on real-world data and integrated in real database systems. This integration may increase the impact of the project.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
为了支持大量数据的有效存储,许多现代数据库系统都使用日志结构合并树(LSM)技术。在将许多数据更新应用于数据库之前,该技术允许将许多数据更新分组在一起。该项目已经确定了LSM存储的几个局限性,这导致读取率降低,并写入数据库系统。具体而言,当前的LSM系统在决定如何存储数据时不会考虑数据记录的热度,并且可能会遭受定期摊位的折磨,在该摊位中,该系统可能会在执行大型维护操作(称为合并)的情况下变得无响应。此外,LSM系统在利用较大的计算机记忆方面效率低下。开发的技术在LSM存储中创建了新颖的数据组织和流程模式,该技术利用现代硬件功能来增强存储系统的读写功能。提高数据库系统的性能将使较大的数据以较低的成本存储,从而使存储系统更容易被科学家和普通用户访问。该项目还将加强和扩展正在进行的研究人员的研究生研究和高中外展活动。该项目有一些研究目标。首先,将开发算法以存储在更可访问的位置存储经常访问的记录,以更快地检索。这将有助于双向LSM树建筑,其中记录在自上而下和自下而上。这将允许自然地保持热记录,以进行更快的查询和更有效的缓存。其次,将创建新的算法以提高数据合并速度。定期合并用于维护储存的数据有组织和一致。 该目标将研究如何普遍分区LSM运行以促进将大型合并分成多个不相交的子网状物,从而减少失速时期。第三个目标将创建算法以更好地利用大型内存大小和多线程并行性,并开发混合的内存磁盘LSM树。关键的想法是,与其直接放大记忆的作品,而最近的写作是缓冲的,而是可以通过更有效的组织将某些组件固定在内存中,并可以对查询进行并行执行。该项目包括理论分析,实验研究和软件开发。在现实世界数据上测试了开发的算法并将其集成到实际数据库系统中。这种整合可能会增加项目的影响。该奖项反映了NSF的法定任务,并通过使用基金会的知识分子优点和更广泛的影响审查标准来评估值得支持。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Efficient Parallel Output-Sensitive Edit Distance
  • DOI:
    10.4230/lipics.esa.2023.40
  • 发表时间:
    2023-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xiangyun Ding;Xiaojun Dong;Yan Gu;Youzhe Liu;Yihan Sun
  • 通讯作者:
    Xiangyun Ding;Xiaojun Dong;Yan Gu;Youzhe Liu;Yihan Sun
Comparison of LSM indexing techniques for storing spatial data
  • DOI:
    10.1186/s40537-023-00734-3
  • 发表时间:
    2023-04
  • 期刊:
  • 影响因子:
    8.1
  • 作者:
    Qizhong Mao;Mohiuddin Abdul Qader;Vagelis Hristidis
  • 通讯作者:
    Qizhong Mao;Mohiuddin Abdul Qader;Vagelis Hristidis
Provably Fast and Space-Efficient Parallel Biconnectivity
经证明快速且节省空间的并行双连接
High-Performance and Flexible Parallel Algorithms for Semisort and Related Problems
半排序及相关问题的高性能灵活并行算法
  • DOI:
    10.1145/3558481.3591071
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Dong, Xiaojun;Wu, Yunshu;Wang, Zhongqi;Dhulipala, Laxman;Gu, Yan;Sun, Yihan
  • 通讯作者:
    Sun, Yihan
Parallel Strong Connectivity Based on Faster Reachability
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Evangelos Christidis其他文献

Evangelos Christidis的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Evangelos Christidis', 18)}}的其他基金

BIGDATA: F: Collaborative Research: Optimizing Log-Structured-Merge-Based Big Data Management Systems
BIGDATA:F:协作研究:优化基于日志结构合并的大数据管理系统
  • 批准号:
    1838222
  • 财政年份:
    2019
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
III: Medium: Efficient Collaborative Perception over Controllable Agent Networks
III:媒介:可控代理网络上的高效协作感知
  • 批准号:
    1901379
  • 财政年份:
    2019
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
EAGER: Joint Modeling and Querying of Social Media and Video Data
EAGER:社交媒体和视频数据的联合建模和查询
  • 批准号:
    1746031
  • 财政年份:
    2017
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CAREER: A Collaborative Adaptive Data Sharing Platform
职业:协作自适应数据共享平台
  • 批准号:
    1216007
  • 财政年份:
    2011
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
III-CXT-Small: Information Discovery on Domain Data Graphs
III-CXT-Small:领域数据图上的信息发现
  • 批准号:
    1216032
  • 财政年份:
    2011
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CAREER: A Collaborative Adaptive Data Sharing Platform
职业:协作自适应数据共享平台
  • 批准号:
    0952347
  • 财政年份:
    2010
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
III: Travel Support for US-Based Students to Attend the 2009 IEEE International Conference on Data Mining (ICDM 2009)
III:为美国学生参加 2009 年 IEEE 国际数据挖掘会议 (ICDM 2009) 提供差旅支持
  • 批准号:
    0949134
  • 财政年份:
    2009
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
III-CXT-Small: Information Discovery on Domain Data Graphs
III-CXT-Small:领域数据图上的信息发现
  • 批准号:
    0811922
  • 财政年份:
    2008
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant

相似国自然基金

靶向Treg-FOXP3小分子抑制剂的筛选及其在肺癌免疫治疗中的作用和机制研究
  • 批准号:
    32370966
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
化学小分子激活YAP诱导染色质可塑性促进心脏祖细胞重编程的表观遗传机制研究
  • 批准号:
    82304478
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
靶向小胶质细胞的仿生甘草酸纳米颗粒构建及作用机制研究:脓毒症相关性脑病的治疗新策略
  • 批准号:
    82302422
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
HMGB1/TLR4/Cathepsin B途径介导的小胶质细胞焦亡在新生大鼠缺氧缺血脑病中的作用与机制
  • 批准号:
    82371712
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
小分子无半胱氨酸蛋白调控生防真菌杀虫活性的作用与机理
  • 批准号:
    32372613
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

SHF: Small: Rethinking Virtualization at the Edge to Support Highly-efficient and Low-power Applications
SHF:小型:重新思考边缘虚拟化以支持高效和低功耗应用
  • 批准号:
    2210744
  • 财政年份:
    2022
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Rethinking Performance Variation for Emerging Applications - An Application-centric and Cross-layer Approach
协作研究:SHF:小型:重新思考新兴应用程序的性能变化 - 以应用程序为中心的跨层方法
  • 批准号:
    2134202
  • 财政年份:
    2022
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Rethinking Performance Variation for Emerging Applications - An Application-centric and Cross-layer Approach
协作研究:SHF:小型:重新思考新兴应用程序的性能变化 - 以应用程序为中心的跨层方法
  • 批准号:
    2134203
  • 财政年份:
    2022
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CNS Core: Small: Rethinking Runtime Software Security Hardening in the Context of Hybrid Instruction Set Architecture
CNS 核心:小型:重新思考混合指令集架构背景下的运行时软件安全强化
  • 批准号:
    2127491
  • 财政年份:
    2021
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CNS Core: Small: Rethinking High-Performance Persistent Transactions
CNS 核心:小型:重新思考高性能持久事务
  • 批准号:
    2106117
  • 财政年份:
    2021
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了