Data reordering for better compression in databases

数据重新排序以更好地压缩数据库

基本信息

  • 批准号:
    261437-2012
  • 负责人:
  • 金额:
    $ 2.04万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2014
  • 资助国家:
    加拿大
  • 起止时间:
    2014-01-01 至 2015-12-31
  • 项目状态:
    已结题

项目摘要

By using the right compression techniques, we can accelerate database queries by orders of magnitude. Unsurprisingly, data warehouse vendors compete over compression ratios. Alas, we often have to choose between more compression or more speed. By using lightweight compression techniques, we get both: reduced storage and improved speed. To maximize compression, we organize the data in columns (at least within disk pages) and we sort tables. We surpass the lexicographical sort (by 50% or more) with row-reordering heuristics inspired by the Traveling Salesman Problem (TSP). Effectively, we seek a tour through the rows of a table which minimizes the distances between rows. We adapt the TSP to our compression technique: e.g., run-length encoding corresponds to the Hamming distance. Many TSP heuristics scale to billions of elements. They are even more scalable if we adapt them specifically for our context (database compression). Moreover, we want the compressibility of the columns to reflect the expected workload. For example, perhaps we want several columns to have uniformly excellent compression, at the expense of other columns. This problem is closely related to balanced Gray codes. Moreover, while it is natural to view a table as a list of rows, we can also organize the rows in a graph (such as a spanning tree) if the storage of the graph structure is sufficiently inexpensive. Instead of seeking the best tour, we seek the best spanning tree. The row-reordering problem then becomes a special case where the graph is constrained to a list. Using such a graph approach, preliminary results show that we outclass the best TSP heuristics with only a small overhead at decompression time. We conjecture that this may provide a superior storage strategy for column-oriented databases. Our interest is not limited to the compression of relational databases: it extends to document-oriented databases. We conjecture that they could be just as efficient with respect to storage as relational databases, under mild assumptions.
通过使用正确的压缩技术,我们可以将数据库查询的速度提高几个数量级。毫不奇怪,数据仓库供应商在压缩比上竞争。唉,我们经常不得不在更大的压缩或更快的速度之间做出选择。通过使用轻量级压缩技术,我们得到了两个:减少存储和提高速度。 为了最大限度地压缩,我们将数据组织在列中(至少在磁盘页中),并对表进行排序。我们超越了字典排序(50%或更多)与行重新排序算法的启发旅行推销员问题(TSP)。实际上,我们在表的行中寻找一个最小化行之间距离的路径。我们使TSP适应我们的压缩技术:例如,游程编码对应于汉明距离。许多TSP化学计量可扩展到数十亿个元素。如果我们专门针对我们的上下文(数据库压缩)进行调整,它们甚至更具可伸缩性。此外,我们希望列的可压缩性能够反映预期的工作负载。例如,也许我们希望几个列具有均匀的优秀压缩,而牺牲其他列。这个问题与平衡格雷码密切相关。此外,虽然将表视为行的列表是很自然的,但如果图结构的存储足够便宜,我们也可以将行组织在图中(例如生成树)。我们不是寻找最佳路径,而是寻找最佳生成树。行重排序问题则成为一个特殊的情况下,图被约束到一个列表。使用这样一个图形的方法,初步结果表明,我们outclass最好的TSP算法,只有一个小的开销,在解压缩时间。我们推测,这可能会提供一个上级存储策略,面向列的数据库。我们的兴趣不仅限于关系数据库的压缩:它扩展到面向文档的数据库。我们推测,在温和的假设下,它们在存储方面可能与关系数据库一样有效。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Lemire, Daniel其他文献

Fast Random Integer Generation in an Interval
Faster retrieval with a two-pass dynamic-time-warping lower bound
  • DOI:
    10.1016/j.patcog.2008.11.030
  • 发表时间:
    2009-09-01
  • 期刊:
  • 影响因子:
    8
  • 作者:
    Lemire, Daniel
  • 通讯作者:
    Lemire, Daniel
STREAM VBYTE: Faster byte-oriented integer compression
  • DOI:
    10.1016/j.ipl.2017.09.011
  • 发表时间:
    2018-02-01
  • 期刊:
  • 影响因子:
    0.5
  • 作者:
    Lemire, Daniel;Kurz, Nathan;Rupp, Christoph
  • 通讯作者:
    Rupp, Christoph
Sorting improves word-aligned bitmap indexes
  • DOI:
    10.1016/j.datak.2009.08.006
  • 发表时间:
    2010-01-01
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Lemire, Daniel;Kaser, Owen;Aouiche, Kamel
  • 通讯作者:
    Aouiche, Kamel
Better bitmap performance with Roaring bitmaps
  • DOI:
    10.1002/spe.2325
  • 发表时间:
    2016-05-01
  • 期刊:
  • 影响因子:
    3.5
  • 作者:
    Chambi, Samy;Lemire, Daniel;Godin, Robert
  • 通讯作者:
    Godin, Robert

Lemire, Daniel的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Lemire, Daniel', 18)}}的其他基金

Faster Compressed Indexes On Next-Generation Hardware
下一代硬件上更快的压缩索引
  • 批准号:
    RGPIN-2017-03910
  • 财政年份:
    2022
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Individual
Faster Compressed Indexes On Next-Generation Hardware
下一代硬件上更快的压缩索引
  • 批准号:
    RGPIN-2017-03910
  • 财政年份:
    2021
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Individual
Faster Compressed Indexes On Next-Generation Hardware
下一代硬件上更快的压缩索引
  • 批准号:
    RGPIN-2017-03910
  • 财政年份:
    2020
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Individual
Faster Compressed Indexes On Next-Generation Hardware
下一代硬件上更快的压缩索引
  • 批准号:
    RGPIN-2017-03910
  • 财政年份:
    2019
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Individual
Faster Compressed Indexes On Next-Generation Hardware
下一代硬件上更快的压缩索引
  • 批准号:
    507939-2017
  • 财政年份:
    2019
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Accelerator Supplements
Faster Compressed Indexes On Next-Generation Hardware
下一代硬件上更快的压缩索引
  • 批准号:
    RGPIN-2017-03910
  • 财政年份:
    2018
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Individual
Faster Compressed Indexes On Next-Generation Hardware
下一代硬件上更快的压缩索引
  • 批准号:
    507939-2017
  • 财政年份:
    2018
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Accelerator Supplements
Faster Compressed Indexes On Next-Generation Hardware
下一代硬件上更快的压缩索引
  • 批准号:
    RGPIN-2017-03910
  • 财政年份:
    2017
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Individual
Faster Compressed Indexes On Next-Generation Hardware
下一代硬件上更快的压缩索引
  • 批准号:
    507939-2017
  • 财政年份:
    2017
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Accelerator Supplements
Vision numérique par drone pour l'estimation du nombre de microsites de plantation
微型种植园名称估算的无人机愿景数字
  • 批准号:
    522077-2017
  • 财政年份:
    2017
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Engage Grants Program

相似海外基金

Linguistic Typology Aware Neural Machine Translation
语言类型感知神经机器翻译
  • 批准号:
    21K21328
  • 财政年份:
    2021
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
Argumentative Writing Support System for EFL Learners
英语学习者议论文写作支持系统
  • 批准号:
    20J13239
  • 财政年份:
    2020
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
LTREB: Community reordering alters ecosystem processes in desert grassland
LTREB:群落重新排序改变了沙漠草原的生态系统过程
  • 批准号:
    1856383
  • 财政年份:
    2019
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Standard Grant
Clumped Isotope Reordering Kinetics in Carbonate Minerals: The key to accurate ocean paleotemperatures and basin thermal histories
碳酸盐矿物中的团簇同位素重排动力学:准确海洋古温度和盆地热历史的关键
  • 批准号:
    1915647
  • 财政年份:
    2019
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Standard Grant
Data reordering for better compression in databases
数据重新排序以更好地压缩数据库
  • 批准号:
    261437-2012
  • 财政年份:
    2016
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Individual
Proposal of Flow Control Algorithm Adapted to Packet Reordering with Power Saving Technology
适合节电技术的数据包重排序的流量控制算法的提出
  • 批准号:
    16K00129
  • 财政年份:
    2016
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Boosting compression of sequencing data using reordering
使用重新排序增强测序数据的压缩
  • 批准号:
    452424-2013
  • 财政年份:
    2015
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Vanier Canada Graduate Scholarship Tri-Council - Doctoral 3 years
確率モデルと機械学習による手書き数式認識の高度化と手書き文字列との自動分離の研究
使用概率模型和机器学习研究手写数学表达式识别的复杂性以及手写字符串的自动分离
  • 批准号:
    15J08654
  • 财政年份:
    2015
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Data reordering for better compression in databases
数据重新排序以更好地压缩数据库
  • 批准号:
    261437-2012
  • 财政年份:
    2015
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Discovery Grants Program - Individual
Boosting compression of sequencing data using reordering
使用重新排序增强测序数据的压缩
  • 批准号:
    452424-2013
  • 财政年份:
    2014
  • 资助金额:
    $ 2.04万
  • 项目类别:
    Vanier Canada Graduate Scholarship Tri-Council - Doctoral 3 years
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了