Practical and Parallel Text Compression for Highly Repetitive Data

针对高度重复数据的实用并行文本压缩

基本信息

项目摘要

We want to develop practical algorithms for compressing highly repetitive data that overcome the shortcomings of currently common compressors such as gzip or bzip2. These have been established in the 1990s and targeted hardware that was standard in those days; their main disadvantage is that they do not capture repetitions of substrings that are far apart. The first goal is to design and engineer a compression tool that does also benefit from such long range repetitions, but still has only moderate memory requirements.As a second goal, we want to exploit the shared-memory parallelism present in virtually any CPU in order to speed up compression, without losing too much compression ratio. Here, we want to have a broader look at compression algorithms, and in particular include grammar compressors which offer excellent opportunitie for parallelization.In the ideal case, both ideas to make better use of modern resources will be integrated into production-ready software repositories (like Linux distributions) so that end consumers can benefit easily from our algorithm engineering efforts.
我们希望开发实用的算法来压缩高度重复的数据,克服目前常见的压缩器,如gzip或bzip 2的缺点。它们是在20世纪90年代建立的,目标是当时的标准硬件;它们的主要缺点是它们不能捕获相距很远的子串的重复。第一个目标是设计一个压缩工具,它也能从长距离的重复中受益,但仍然只有适度的内存需求。第二个目标是利用几乎任何CPU中存在的共享内存并行性来加速压缩,而不会损失太多的压缩比。在这里,我们想对压缩算法有一个更广泛的了解,特别是包括语法压缩器,它为并行化提供了很好的机会。在理想的情况下,这两个更好地利用现代资源的想法将被集成到生产就绪的软件库(如Linux发行版)中,以便最终消费者可以很容易地从我们的算法工程工作中受益。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Professor Dr. Johannes Christian Fischer其他文献

Professor Dr. Johannes Christian Fischer的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Professor Dr. Johannes Christian Fischer', 18)}}的其他基金

Platzsparende Datenstrukturen für Anwendungen in der Bioinformatik: Bäume, Netzwerke und Sequenzen
用于生物信息学应用的节省空间的数据结构:树、网络和序列
  • 批准号:
    162103459
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Research Grants

相似国自然基金

强流低能加速器束流损失机理的Parallel PIC/MCC算法与实现
  • 批准号:
    11805229
  • 批准年份:
    2018
  • 资助金额:
    27.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

CAREER: Modeling Spoken Language Without Parallel Text Annotations
职业:在没有并行文本注释的情况下对口语进行建模
  • 批准号:
    2238605
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Wirespeed text processing with parallel bit stream technology
采用并行比特流技术的线速文本处理
  • 批准号:
    2429-2010
  • 财政年份:
    2014
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Wirespeed text processing with parallel bit stream technology
采用并行比特流技术的线速文本处理
  • 批准号:
    2429-2010
  • 财政年份:
    2013
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Wirespeed text processing with parallel bit stream technology
采用并行比特流技术的线速文本处理
  • 批准号:
    2429-2010
  • 财政年份:
    2012
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Wirespeed text processing with parallel bit stream technology
采用并行比特流技术的线速文本处理
  • 批准号:
    2429-2010
  • 财政年份:
    2011
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Wirespeed text processing with parallel bit stream technology
采用并行比特流技术的线速文本处理
  • 批准号:
    2429-2010
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
A Parallel Text Corpus for the historical study of English : Research on AB Language through the examination of B Language
英语历史研究的平行文本语料库:通过B语言考试研究AB语言
  • 批准号:
    18320077
  • 财政年份:
    2006
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Grammatikinduktion auf Basis von Parallelkorpora: PTOLEMAIOS (Parallel-Text-based Optimization for Language learning - Exploiting Multilingual Alignment for the Induction of Syntactic grammars)
基于并行语料库的语法归纳:PTOLEMAIOS(Parallel-Text-based Optimization for Language Learning - Exploiting Multilingual Alignment for the Induction of Syntropic Grammar)
  • 批准号:
    5444307
  • 财政年份:
    2005
  • 资助金额:
    --
  • 项目类别:
    Independent Junior Research Groups
Robust Knowledge Discovery from Parallel Speech and Text Sources
从并行语音和文本源中进行稳健的知识发现
  • 批准号:
    9982329
  • 财政年份:
    2001
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Parallel language recognition and structured text processing
并行语言识别和结构化文本处理
  • 批准号:
    3014-1992
  • 财政年份:
    1995
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了