パターン圧縮に基づく機械発見における計算限界の打破

基于模式压缩突破机器发现的计算限制

基本信息

  • 批准号:
    09J01104
  • 负责人:
  • 金额:
    $ 0.9万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2009
  • 资助国家:
    日本
  • 起止时间:
    2009 至 2010
  • 项目状态:
    已结题

项目摘要

冗長度の高いテキストデータのための軽量なオンライン圧縮アルゴリズムを提案した.このアルゴリズムの特徴として,オンラインで動作するため,次々に追加されていくデータを蓄積することなく逐次的に圧縮することが可能である.また,特別なデータ構造を使わずにデータの局所的な整数演算のみで共通の部分文字列を圧縮できるため,テキストが極端に圧縮可能な場合は十分に少ない主記憶領域で実行できる.実験の結果,重複部分を多く含む実データを約10分の1から1000分の1以下にまで圧縮可能であり,文字列索引を利用しているLZMA圧縮法と比較して約10分の1から100分の1以下の主記憶領域で高速に動作することを確認した.文法圧縮テキスト中の部分文字列の高速な参照のための索引付けに関する研究を行った.圧縮テキストを復元せずに元のテキストのように扱うためには,圧縮テキスト上でランダムアクセスを行い,任意の部分文字列を高速に参照できなければならない.本研究では,そのような操作を可能にする文法圧縮テキストのための索引付け手法を提案した.この索引付けは,索引領域も圧縮テキストの圧縮率に応じて圧縮されるという特徴を持っており,極端に圧縮されている圧縮データに対しても,その索引領域は十分に小さい.また,どんな位置にある部分文字列でも一定の時間で抽出できることが保障される.様々なコーパスに対する実験の結果,元の圧縮テキストサイズの1.2倍から1.5倍程度の主記憶領域で1秒間に500万から700万文字の部分文字列を参照できることを確認した.文法圧縮に基づく圧縮索引構造に関する研究を行った.Edit Sensitive Parsingという手法により圧縮された文法データの特性を使い,入力パターンを圧縮することで圧縮テキスト中の高速な検索が可能であり,本研究では,パターンの出現回数,出現位置,任意の部分文字列の報告を行えるように拡張し,実験による評価を行った.
High degree of lengthy の い テ キ ス ト デ ー タ の た め の 軽 quantity な オ ン ラ イ ン 圧 shrinkage ア ル ゴ リ ズ ム を proposal し た. こ の ア ル ゴ リ ズ ム の, 徴 と し て, オ ン ラ イ ン で action す る た め, time 々 に additional さ れ て い く デ ー タ を accumulation す る こ と な く successive に 圧 shrinkage す る こ と が may で あ る. ま た, special な デ ー わ を タ structure ず に デ ー タ の bureau of な integral calculus の み で の part common text columns を 圧 shrinkage で き る た め, テ キ ス ト が extreme に 圧 shrinkage may な occasions は very less に な い main memory area で line be で き る. Be 験 の result, repeat part を く more contain む be デ ー タ を の about 10 points 1 か ら below 1000 points の 1 に ま で 圧 shrinkage may で あ り, full text indexing を using し て い る LZMA と 圧 shrinkage method compare し て の about 10 points 1 か ら 1 の main memory area below 100 points の で high-speed に action す る こ と を confirm し た. In the grammar compression of テキスト, the <s:1> part of the text column <s:1> high speed な reference ため ため index けに related する research を line った. 圧 shrinkage テ キ ス ト を recovery せ ず に yuan の テ キ ス ト の よ う に Cha う た め に は, 圧 shrinkage テ キ ス ト on で ラ ン ダ ム ア ク セ ス を い, arbitrary の part text columns を high-speed に reference で き な け れ ば な ら な い. This study で は, そ の よ う な を operation may に す る grammar 圧 shrinkage テ キ ス ト の た め の index pay け technique proposed を し た. こ の index pay け は, index field も 圧 shrinkage テ キ ス ト の 圧 shrinkage に 応 じ て 圧 shrinkage さ れ る と い う, 徴 を hold っ て お り, extreme に 圧 shrinkage さ れ て い る 圧 shrinkage デ ー タ に し seaborne て も, そ の は very small に さ index field い ま. た, ど ん な position に あ る part text columns で も certain の で spare time で き る こ と が security さ れ る. Others 々 な コ ー パ ス に す seaborne る be 験 の results, yuan の 圧 shrinkage テ キ ス ト サ イ ズ の 1.2 times か ら の 1.5 degree between the main memory area で 1 second に 5 million か ら part 7 million text の text columns を reference で き る こ と を confirm し た. Grammar compression に base づく compression index construction に related する study を line った.Edit Sensitive Parsing と い う gimmick に よ り 圧 shrinkage さ れ た grammar デ ー タ の features を い, into force パ タ ー ン を 圧 shrinkage す る こ と で 圧 shrinkage テ キ ス ト の in high-speed な 検 cable が may で あ り, this study で は, パ タ ー ン の back number, location, any の part text columns の report line を え る よ う に company, zhang し, be 験 に よ る review 価 を line っ た .

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
文法型圧縮法の全二分木表現による符号化とランダムアクセス手法の提案
使用语法型压缩方法的全二叉树表示的编码和随机访问方法的建议
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    丸山史郎;馬場雅大;岸上直也;坂本比呂志
  • 通讯作者:
    坂本比呂志
Context-sensitive grammar transform : compression and pattern matching
上下文相关的语法转换:压缩和模式匹配
An Online Algorithm for Lightweight Compression of Highly Repetitive Text
一种高重复文本轻量级压缩的在线算法
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shirou Maruyama;Masaya Nakahara;Hiroshi Sakamoto
  • 通讯作者:
    Hiroshi Sakamoto
Edit Sensitive Parsingを用いた文法圧縮による効率的な索引構造
使用编辑敏感解析进行语法压缩的高效索引结构
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shirou Maruyama;Masaya Nakahara;上原英輔;上原英輔;丸山史郎;上原英輔;丸山史郎
  • 通讯作者:
    丸山史郎
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

丸山 史郎其他文献

丸山 史郎的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了