半構造化データに対する文字列処理の高速化に関する研究

加速半结构化数据字符串处理的研究

基本信息

项目摘要

WWW上で広く用いられているHTMLファイルは,タグを単位とした木構造を内部表現に持つ半構造化データである.ポストHTMLとして登場し,今日ではアプリケーション間のデータ交換のための共通形式として注目を浴びているXMLファイルも同様の半構造化データである.これまで半構造化データに対する文字列処理といえば,一度テキストから木構造を抽出し,それを土台にしてタグの要素であるテキストに対して形態素解析を行ったり,部分文字列やN-gramを切り出したりした後に索引構造を構築し,それを用いて文字列照合などの処理を行うのが主であった.しかしながら,この方法では索引構造を構築するために時間がかかるうえ,元データの変更毎に再構築する必要がある.本研究では,索引構造を用いずに半構造化データに対しそのまま文字列処理をする手法の開発が目的である.そのために,半構造化データに対して必要とされる文字列照合操作を明らかにし,各操作についてより高速なアルゴリズムを開発する.例えば,半構造化データに対する検索要求としては,ある特定の階層構造の下にあるデータのみを対象とした文字列照合を行ったり,XMLファイル中の特殊な名前を持つタグを探し出したりすることが考えられる.このような照合操作の実現は,タグやデータの高速な置換処理や,大規模テキストからの高速なデータマイニング等への応用につながる.本年度は,半構造データに対する文字列照合に適したデータ圧縮法の枠組みの一つである文法変換に基づくデータ圧縮法について取り組み,理論的に少スペースかつ線形時間でデータを圧縮する手法を提案した.また,半構造化データに対する文字列処理の一つの応用として,オントロジーを考慮した文字列処理という新しい問題について取り組み,各種オントロジーデータのうち分類階層データを考慮した文字列照合についてのアルゴリズムを開発した.
On the WWW で hiroo く with い ら れ て い る HTML フ ァ イ ル は, タ グ を 単 a と し た wooden structure を internal performance に hold つ half structured デ ー タ で あ る. ポ ス ト HTML と し し て performing on stage, today で は ア プ リ ケ ー シ ョ ン between の デ ー タ exchange の た め の common form と し て attention を bath び て い る XML フ ァ イ ル も with others in の half structure The デ ー タ で あ る. こ れ ま で half structured デ ー タ に す seaborne る text columns 処 Richard と い え ば, once テ キ ス ト か ら を drew し wood construction, そ れ を TuTai に し て タ グ の elements で あ る テ キ ス ト に し seaborne line element analytic を っ て form た り, part of the text columns や N - "gramm を り cutting out し た り し た を build し に index construction, after そ れ を use い て text columns as close な ど の 処 bedding line を う の が main で あ っ た. し か し な が ら, こ の way で は を index structure constructing す る た め に time が か か る う え, yuan デ ー タ の - more in their に to construct す る necessary が あ る. This study で は, index structure を with い ず に half structured デ ー タ に し seaborne そ の ま ま text columns 処 Richard を す る gimmick の open 発 が purpose で あ る. そ の た め に, half structured デ ー タ に し seaborne て necessary と さ れ る text columns according to close operation を Ming ら か に し, each operation に つ い て よ り high-speed な ア ル ゴ リ ズ ム を open 発 す る. Example え ば, half structured デ ー タ に す seaborne る 検 cable requirements と し て は, あ る under specific の class tectonic の に あ る デ ー タ の み を like と seaborne し た text columns do close を っ た り, XML フ ァ イ ル の special な former を hold つ タ グ を agent し out し た り す る こ と が exam え ら れ る. こ の よ う な according to close operation の be は, タ グ や デ ー タ の high speed な replacement 処 や, large-scale テ キ ス ト か ら の high-speed な デ ー タ マ イ ニ ン グ etc へ の 応 with に つ な が る. は this year, half structure デ ー タ に す seaborne る text columns as close に optimum し た デ ー タ 圧 shrinkage method の 枠 group み の a つ で あ る grammatical variations in に base づ く デ ー タ 圧 shrinkage method に つ い て み り group, the theory of less に ス ペ ー ス か つ linear time で デ ー タ を 圧 shrinkage す る technique proposed を し た. ま た, half structured デ ー タ に す seaborne る text column 処 reason の つ の 応 use と し て, オ ン ト ロ ジ ー を consider し た text columns 処 Richard と い う new し い problem に つ い て み り group, various オ ン ト ロ ジ ー デ ー タ の う ち classification class デ ー タ を consider し た text columns as close に つ い て の ア ル ゴ リ ズ ム を open 発 し た.

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
T.Kida, et al.: "Collage system : A unifying framework for compressed pattern matching"Theoretical Computer Science. 298. 253-272 (2003)
T.Kida 等人:“拼贴系统:压缩模式匹配的统一框架”理论计算机科学。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
データストリームのためのマイニング技術
数据流挖掘技术
Pattern Matching with Taxonomic Information
与分类信息的模式匹配
Masayuki Takeda, Satoru Miyamoto, Takuya Kida, et al.: "Processing Text Files as Is : Pattern Matching over Compressed Texts, Multi-Byte Character Texts, and Semi-Structured Texts"Proc. 9th International Symposium on String Processing and Information Retr
Masayuki Takeda、Satoru Miyamoto、Takuy​​a Kida 等人:“按原样处理文本文件:压缩文本、多字节字符文本和半结构化文本的模式匹配”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
A Space-Saving Linear-Time Algorithm for Grammar-Based Compression
一种基于语法的压缩的节省空间的线性时间算法
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

喜田 拓也其他文献

長大な拡張文字列パターンに対するGPU による高速な文字列照合
GPU 驱动的快速字符串匹配,适用于大型扩展字符串模式
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    笹川 裕人;喜田 拓也;有村 博紀
  • 通讯作者:
    有村 博紀
テキストファイルによる図書目録画像データベースの構築と管理
基于文本文件的图书馆目录图像数据库的构建与管理
Ku-Band Long Distance Site-Diversity (SD) Characteristics Using New Measuring System
使用新测量系统的 Ku 波段长距离站点分集 (SD) 特性
テキストファイルによる図書目録画像データべースの構築と管理
基于文本文件的图书馆目录图像数据库的构建与管理
Arc-annotation 付ききテキストに対するバターン照合アルゴリズム
带有弧形标注的文本模式匹配算法

喜田 拓也的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('喜田 拓也', 18)}}的其他基金

Research on fundamental compression technology to promote the utilization of compressed data
基础压缩技术研究促进压缩数据利用
  • 批准号:
    21K11758
  • 财政年份:
    2021
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
背景知識を考慮した文字列照合に関する研究
考虑背景知识的字符串匹配研究
  • 批准号:
    17700024
  • 财政年份:
    2005
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
データ圧縮に基づく文字列処理の高速化に関する研究
基于数据压缩的加速字符串处理的研究
  • 批准号:
    00J00410
  • 财政年份:
    2000
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

Development of Next-generation Semi-Structured Data Mining Technology Towards The Real-World Knowledge Creation Infrastructure
面向现实世界知识创造基础设施的下一代半结构化数据挖掘技术的开发
  • 批准号:
    20H00595
  • 财政年份:
    2020
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Automata for Semi-Structured Data
半结构化数据自动机
  • 批准号:
    441893214
  • 财政年份:
    2020
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Heisenberg Grants
CAREER: Transducer-Centric Parallelization for Scalable Semi-Structured Data Processing
职业:用于可扩展半结构化数据处理的以传感器为中心的并行化
  • 批准号:
    1751392
  • 财政年份:
    2018
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Continuing Grant
Coalgebraic Foundations of Semi-Structured Data
半结构化数据的代数基础
  • 批准号:
    EP/N015843/1
  • 财政年份:
    2016
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Research Grant
Next-generation semi-structured data mining technologies for real-world knowledge infrastructures
用于现实世界知识基础设施的下一代半结构化数据挖掘技术
  • 批准号:
    16H01743
  • 财政年份:
    2016
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Automata for Semi-Structured Data
半结构化数据自动机
  • 批准号:
    270792973
  • 财政年份:
    2016
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Heisenberg Professorships
Distributional Semantics Over Semi-structured Data
半结构化数据的分布语义
  • 批准号:
    488743-2015
  • 财政年份:
    2015
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Engage Grants Program
Estimating data structure embedded in semi-structured data
估计半结构化数据中嵌入的数据结构
  • 批准号:
    24300054
  • 财政年份:
    2012
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
CAREER: Analyzing and Exploiting Meta-information for Keyword Search on Semi-structured Data
职业:分析和利用元信息进行半结构化数据的关键字搜索
  • 批准号:
    1322406
  • 财政年份:
    2012
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Continuing Grant
Development of Next-Generation Semi-structured Data Mining for Large-Scale Knowledge Base Formation
用于大规模知识库形成的下一代半结构化数据挖掘的开发
  • 批准号:
    24240021
  • 财政年份:
    2012
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了