文字列圧縮と組合せ論による大規模データ管理・処理技法の開発

使用字符串压缩和组合学开发大规模数据管理和处理技术

基本信息

项目摘要

The focus of this research was set on (a) practical and dynamic trie data structures, (b) the computation of the grammar compression Re-Pair in small space, and (c) advancements for the bijective Burrows-Wheeler transform (BBWT), a variant of the Burrows-Wheeler transform (BWT) well received in theory as well as in practice for indexing string data.(a) We have devised a novel approach for compact hashing, which is the most memory-efficient approach in practice when working with a huge number of integer keys of a bounded domain. Based on this approach, we have proposed dynamic trie data structures working with path-decomposition or with trie compaction.(b) Re-Pair, a grammar with high compression ratios, is difficult to compute within limited amount of memory. Here, we could find a quadratic time algorithm computing Re-Pair with almost no additional space. We also devised an index data structure build upon a grammar representing the Lyndon tree. This index exploits several properties of the Lyndon words to improve the running time of the currently fastest grammar index from a quadratic factor on the pattern length to a linear one.(c) Finally, we could build an indexing data structure on top of the BBWT, compute the BBWT in-place or transform the BWT into the BBWT, and finally build the BBWT in linear time.Asides from that, we could find space-efficient factorization algorithms for the non-overlapping LZ77 factorization and the LZ78 substring compression problem. These algorithms work in near-linear time with space asymptotic to the input text length in bits.
本研究的重点是(a)实用和动态的Trie数据结构,(B)小空间中语法压缩Re-Pair的计算,以及(c)双射Burrows-Wheeler变换(BBWT)的改进,它是Burrows-Wheeler变换(BWT)的一个变体,在理论和实践中都很受欢迎,用于索引字符串数据。(a)我们设计了一种新的紧凑散列方法,这是在实践中最有效的内存方法时,大量的整数键的有界域。基于这种方法,我们提出了动态特里数据结构与路径分解或特里压缩。(b)Re-Pair是一种压缩比很高的语法,在有限的内存中很难计算。在这里,我们可以找到一个计算Re-Pair的二次时间算法,几乎没有额外的空间。我们还设计了一个索引数据结构,建立在一个语法表示林登树。该索引利用了Lyndon词的几个属性,将目前最快的语法索引的运行时间从模式长度的二次因子提高到线性因子。(c)最后,我们可以在BBWT上建立一个索引数据结构,就地计算BBWT或将BWT转换为BBWT,最后在线性时间内建立BBWT。除此之外,我们还可以找到空间有效的分解算法,用于非重叠的LZ 77分解和LZ 78子串压缩问题。这些算法工作在接近线性的时间与空间渐近的输入文本长度位。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Re-Pair in Small Space
小空间重新配对
  • DOI:
    10.3390/a14010005
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    2.3
  • 作者:
    Dominik Koeppl;Tomohiro I;Isamu Furuya;Yoshimasa Takabatake;Kensuke Sakai;Keisuke Goto,
  • 通讯作者:
    Keisuke Goto,
Nicolaus Copernicus University(ポーランド)
尼古拉斯·哥白尼大学(波兰)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Dynamic Path-Decomposed Tries
动态路径分解尝试
  • DOI:
    10.1145/3418033
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tsuruta Kazuya;Koppl Dominik;Kanda Shunsuke;Nakashima Yuto;Inenaga Shunsuke;Bannai Hideo;Takeda Masayuki;Shunsuke Kanda and Dominik Koeppl and Yasuo Tabei and Kazuhiro Morita and Masao Fuketa
  • 通讯作者:
    Shunsuke Kanda and Dominik Koeppl and Yasuo Tabei and Kazuhiro Morita and Masao Fuketa
University of Helsinki(フィンランド)
赫尔辛基大学(芬兰)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Bidirectional Text Compression in External Memory
外部存储器中的双向文本压缩
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

稲永 俊介其他文献

Serpentine minerals from Irikura, Oita Prefecture, Japan
产自日本大分县入仓的蛇纹石矿物
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸;加藤隆文;長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅;延寿 里美
  • 通讯作者:
    延寿 里美
負電荷脂質を含有する油滴小球への脂溶性薬物担持と物性評価
含负电荷脂质油滴上的脂溶性药物负载及物理性质评价
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    稲永 俊介;宗 慶太郎;武岡 真司;土田 英俊
  • 通讯作者:
    土田 英俊
日向沖南海トラフ前弧域の浅部活構造
日向附近南海海槽弧前区的浅层活动构造
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸;加藤隆文;長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅;延寿 里美;加藤隆文;加藤隆文;山口飛鳥・新井和乃・池原研・金松敏也・福地里菜・中村恭之・宇佐美和子・奥津なつみ・清家弘治・芦寿一郎;加藤隆文;山口飛鳥・福地里菜・濱橋真理・清水真由子・江口大賀・金川久一;Takafumi Kato;加藤隆文;芦寿一郎・山口飛鳥・福地里菜・大出晃弘・奥津なつみ・田淵優・池原研
  • 通讯作者:
    芦寿一郎・山口飛鳥・福地里菜・大出晃弘・奥津なつみ・田淵優・池原研
An Authentication Protocol with Anonymity against Service Providers and the Central Manager
针对服务提供商和中央管理器的匿名身份验证协议
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中村 徹;稲永 俊介;馬場 謙介;池田 大輔;安浦 寛人;Toru Nakamura;Shunsuke Inenaga;K. Baba;Daisuke Ikeda;H. Yasuura
  • 通讯作者:
    H. Yasuura
延岡衝上断層ボーリングコア中の断層帯の化学組成分布
延冈逆冲断层钻孔核心断层带化学成分分布
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸;加藤隆文;長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅
  • 通讯作者:
    長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅

稲永 俊介的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('稲永 俊介', 18)}}的其他基金

広義文字列のアルゴリズムと組合せ論
宽字符串算法和组合数学
  • 批准号:
    23K24808
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
感度と圧縮率を両立するデータ圧縮法の創出とその限界解明
创建同时实现灵敏度和压缩率的数据压缩方法,并阐明其局限性
  • 批准号:
    23K18466
  • 财政年份:
    2023
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
広義文字列のアルゴリズムと組合せ論
宽字符串算法和组合数学
  • 批准号:
    22H03551
  • 财政年份:
    2022
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)

相似国自然基金

固定参数可解算法在平面图问题的应用以及和整数线性规划的关系
  • 批准号:
    60973026
  • 批准年份:
    2009
  • 资助金额:
    32.0 万元
  • 项目类别:
    面上项目
Computational Methods for Analyzing Toponome Data
  • 批准号:
    60601030
  • 批准年份:
    2006
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

DMS-EPSRC: Asymptotic Analysis of Online Training Algorithms in Machine Learning: Recurrent, Graphical, and Deep Neural Networks
DMS-EPSRC:机器学习中在线训练算法的渐近分析:循环、图形和深度神经网络
  • 批准号:
    EP/Y029089/1
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Research Grant
CAREER: Blessing of Nonconvexity in Machine Learning - Landscape Analysis and Efficient Algorithms
职业:机器学习中非凸性的祝福 - 景观分析和高效算法
  • 批准号:
    2337776
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Continuing Grant
CAREER: From Dynamic Algorithms to Fast Optimization and Back
职业:从动态算法到快速优化并返回
  • 批准号:
    2338816
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Continuing Grant
CAREER: Structured Minimax Optimization: Theory, Algorithms, and Applications in Robust Learning
职业:结构化极小极大优化:稳健学习中的理论、算法和应用
  • 批准号:
    2338846
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Continuing Grant
CRII: SaTC: Reliable Hardware Architectures Against Side-Channel Attacks for Post-Quantum Cryptographic Algorithms
CRII:SaTC:针对后量子密码算法的侧通道攻击的可靠硬件架构
  • 批准号:
    2348261
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Standard Grant
CRII: AF: The Impact of Knowledge on the Performance of Distributed Algorithms
CRII:AF:知识对分布式算法性能的影响
  • 批准号:
    2348346
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Standard Grant
CRII: CSR: From Bloom Filters to Noise Reduction Streaming Algorithms
CRII:CSR:从布隆过滤器到降噪流算法
  • 批准号:
    2348457
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Standard Grant
EAGER: Search-Accelerated Markov Chain Monte Carlo Algorithms for Bayesian Neural Networks and Trillion-Dimensional Problems
EAGER:贝叶斯神经网络和万亿维问题的搜索加速马尔可夫链蒙特卡罗算法
  • 批准号:
    2404989
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Standard Grant
CAREER: Efficient Algorithms for Modern Computer Architecture
职业:现代计算机架构的高效算法
  • 批准号:
    2339310
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Continuing Grant
CAREER: Improving Real-world Performance of AI Biosignal Algorithms
职业:提高人工智能生物信号算法的实际性能
  • 批准号:
    2339669
  • 财政年份:
    2024
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了