权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

半構造化データに対する文字列処理の高速化に関する研究

加速半结构化数据字符串处理的研究

基本信息

批准号：
14780224
负责人：
喜田拓也
金额：
$ 1.92万
依托单位：
Hokkaido University (2004)Kyushu University (2002-2003)
依托单位国家：
日本
项目类别：
Grant-in-Aid for Young Scientists (B)
财政年份：
2002
资助国家：
日本
起止时间：
2002 至 2004
项目状态：
已结题

项目摘要

WWW上で広く用いられているHTMLファイルは,タグを単位とした木構造を内部表現に持つ半構造化データである.ポストHTMLとして登場し,今日ではアプリケーション間のデータ交換のための共通形式として注目を浴びているXMLファイルも同様の半構造化データである.これまで半構造化データに対する文字列処理といえば,一度テキストから木構造を抽出し,それを土台にしてタグの要素であるテキストに対して形態素解析を行ったり,部分文字列やN-gramを切り出したりした後に索引構造を構築し,それを用いて文字列照合などの処理を行うのが主であった.しかしながら,この方法では索引構造を構築するために時間がかかるうえ,元データの変更毎に再構築する必要がある.本研究では,索引構造を用いずに半構造化データに対しそのまま文字列処理をする手法の開発が目的である.そのために,半構造化データに対して必要とされる文字列照合操作を明らかにし,各操作についてより高速なアルゴリズムを開発する.例えば,半構造化データに対する検索要求としては,ある特定の階層構造の下にあるデータのみを対象とした文字列照合を行ったり,XMLファイル中の特殊な名前を持つタグを探し出したりすることが考えられる.このような照合操作の実現は,タグやデータの高速な置換処理や,大規模テキストからの高速なデータマイニング等への応用につながる.本年度は,半構造データに対する文字列照合に適したデータ圧縮法の枠組みの一つである文法変換に基づくデータ圧縮法について取り組み,理論的に少スペースかつ線形時間でデータを圧縮する手法を提案した.また,半構造化データに対する文字列処理の一つの応用として,オントロジーを考慮した文字列処理という新しい問題について取り組み,各種オントロジーデータのうち分類階層データを考慮した文字列照合についてのアルゴリズムを開発した.

On the WWW で hiroo く with いられている HTML ファイルは, タグを単 a とした wooden structure を internal performance に hold つ half structured データである. ポスト HTML としして performing on stage, today ではアプリケーション between のデータ exchange のための common form として attention を bath びている XML ファイルも with others in の half structure The データである. これまで half structured データにす seaborne る text columns 処 Richard といえば, once テキストからを drew し wood construction, それを TuTai にしてタグの elements であるテキストにし seaborne line element analytic をって form たり, part of the text columns や N - "gramm をり cutting out したりしたを build しに index construction, after それを use いて text columns as close などの処 bedding line をうのが main であった. しかしながら, この way ではを index structure constructing するために time がかかるうえ, yuan データの - more in their に to construct する necessary がある. This study では, index structure を with いずに half structured データにし seaborne そのまま text columns 処 Richard をする gimmick の open 発が purpose である. そのために, half structured データにし seaborne て necessary とされる text columns according to close operation を Ming らかにし, each operation についてより high-speed なアルゴリズムを open 発する. Example えば, half structured データにす seaborne る検 cable requirements としては, ある under specific の class tectonic のにあるデータのみを like と seaborne した text columns do close をったり, XML ファイルの special な former を hold つタグを agent し out したりすることが exam えられる. このような according to close operation の be は, タグやデータの high speed な replacement 処や, large-scale テキストからの high-speed なデータマイニング etc への応 with につながる. は this year, half structure データにす seaborne る text columns as close に optimum したデータ圧 shrinkage method の枠 group みの a つである grammatical variations in に base づくデータ圧 shrinkage method についてみり group, the theory of less にスペースかつ linear time でデータを圧 shrinkage する technique proposed をした. また, half structured データにす seaborne る text column 処 reason のつの応 use として, オントロジーを consider した text columns 処 Richard という new しい problem についてみり group, various オントロジーデータのうち classification class データを consider した text columns as close についてのアルゴリズムを open 発した.