ストリームデータのための圧縮索引と知識発見への応用
流数据压缩索引及其在知识发现中的应用
基本信息
- 批准号:17H06954
- 负责人:
- 金额:$ 1.91万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Research Activity Start-up
- 财政年份:2017
- 资助国家:日本
- 起止时间:2017-08-25 至 2019-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究ではネットワークやセンサデータからとめどなく流れてきて増え続けるデータであるストリーム型のテキストデータを圧縮領域の作業領域で圧縮しながら,その圧縮データ上で圧縮された瞬間からリアルタイムにキーワード検索可能な索引を構築することを目的としている.この問題は①ストリームデータを流れてきた瞬間に高速に圧縮領域の作業領域で小さく圧縮することと②その圧縮されたデータ構造上でリアルタイムにキーワード検索することに分けられ,以下の成果を得られた.①に関して,①の要件を満たしかつ世界最小の作業領域で動作する文法圧縮であるSOLCAを開発し,ESA2017という国際会議にて研究発表をした.実用的にSOLCAは従来の圧縮領域の作業領域で構築可能な文法圧縮の速度を保ったまま,30%程度のメモリ使用量で動作することを可能としている.さらに①の要件を満たす圧縮領域で構築可能なOnline RLBWTと呼ばれるテキストデータ圧縮の高速化をして,IWOCA2017という国際会議にて研究発表した.従来手法より作業領域が1.3から8.7倍かかってしまったが,約60倍の速度で圧縮可能にしており,実用的である.②に関してはキーワード検索ではないが,SOLCAの圧縮法を応用した入力テキスト中に2度以上出現する部分文字列の一部分を高速に圧縮領域で発見する方法を論文誌(IEICE Transactions on Information and Systems)に採択されました.また,以前開発したESP-index-Iという圧縮索引の短いキーワードの検索手法の高速化を行い,DCC2018にて研究発表しました.SOLCAとOnline RLBWTの構築の効率化によって,これらの圧縮法を②の要件を満たす圧縮索引に発展させることが今後の課題である.
This study aims to construct an index of possible information about the compression field and the operating field of compression field. The problem is that: (1) the flow of data is instantaneous,(2) the compression field is small,(3) the compression field is structurally small, and (4) the results are as follows. 1. The development of SOLCA, ESA2017 International Conference on Research and Development. SOLCA is used to reduce the number of fields in which it is possible to construct syntax and reduce the speed of operation to a level of 30%. The requirements of the IWOCA2017 International Conference on the Construction of a Possible Online RLBWT and the Promotion of Digital Compression For example, the working area is 1.3 times faster than 8.7 times faster than 60 times faster. SOLCA compression method is used in the field of high speed compression. Part of the text string appears in the field of high speed compression. In addition, the previous development of ESP-index-I and compression index shortening and search method speeding up, DCC2018 research report, SOLCA and Online RLBWT construction efficiency, the compression method of the elements of the compression index development, future issues.
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Approximate Frequent Pattern Discovery in Compressed Space
压缩空间中的近似频繁模式发现
- DOI:10.1587/transinf.2017fcp0010
- 发表时间:2018
- 期刊:
- 影响因子:0.7
- 作者:Shouhei FUKUNAGA;Yoshimasa TAKABATAKE;Tomohiro I;Hiroshi SAKAMOTO
- 通讯作者:Hiroshi SAKAMOTO
A Space-Optimal Grammar Compression
- DOI:10.4230/lipics.esa.2017.67
- 发表时间:2017
- 期刊:
- 影响因子:0
- 作者:Yoshimasa Takabatake;I. Tomohiro;H. Sakamoto
- 通讯作者:Yoshimasa Takabatake;I. Tomohiro;H. Sakamoto
A Dynamic Compressed Self-Index for Highly Repetitive Text Collections
高度重复文本集合的动态压缩自索引
- DOI:
- 发表时间:2018
- 期刊:
- 影响因子:0
- 作者:Takaaki Nishimoto;Yoshimasa Takabatake;Yasuo Tabei
- 通讯作者:Yasuo Tabei
A Faster Implementation of Online Run-Length Burrows-Wheeler Transform
在线游程Burrows-Wheeler变换的更快实现
- DOI:
- 发表时间:2017
- 期刊:
- 影响因子:0
- 作者:Tatsuya Ohno;Yoshimasa Takabatake;Tomohiro I;Hiroshi Sakamoto
- 通讯作者:Hiroshi Sakamoto
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
高畠 嘉将其他文献
高畠 嘉将的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('高畠 嘉将', 18)}}的其他基金
ストリームデータ圧縮の理論と知識発見への応用
流数据压缩理论及其在知识发现中的应用
- 批准号:
15J05902 - 财政年份:2015
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
圧縮索引構造を用いた汎用的かつ実用的な多様な解の発見アルゴリズム
一种使用压缩索引结构寻找多种解决方案的通用且实用的算法
- 批准号:
22K17851 - 财政年份:2022
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
圧縮索引を用いたグラフ上のウォーク列挙及び数え上げ
使用压缩索引对图进行遍历枚举和计数
- 批准号:
15J01765 - 财政年份:2015
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for JSPS Fellows
ゲノム配列の高次圧縮・索引構築と高次幾何構造解析による知識発見
通过基因组序列的高阶压缩和索引构建以及高阶几何结构分析进行知识发现
- 批准号:
14015204 - 财政年份:2002
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas