データ圧縮に基づく高速テキストマイニング
基于数据压缩的快速文本挖掘
基本信息
- 批准号:13780248
- 负责人:
- 金额:$ 1.54万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2001
- 资助国家:日本
- 起止时间:2001 至 2002
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では,「データ圧縮に基づく高速テキストマイニング」という研究課題を掲げ,以下の3つの研究項目について研究を進めた。(A)文字列処理に基づく知識発見手法の開発。(B)文字列データ圧縮と知識発見。(C)知識発見処理の高速化のための基礎技術開発。(A)については,国文学研究あるいは音楽情報処理において用いることのできる類似性指標を,本研究で導入した形式的体系であるSRSに沿って,実際に定義し,実装して有効性を検証した。また,本研究で開発したパタン発見アルゴリズムを,ゲノム情報に適用し,生物学的知見を得ることに成功した。(B)については,代表的索引構造であるDAWGに基づくLempel-Ziv圧縮法の新しい実装法を開発した。また,圧縮テキストを表す形式的体系として本研究で導入したコラージュシステムを対象とし,この形式で表された入力に対して編集距離を求める効率的アルゴリズムを開発した。この手法により,相同配列検索の高速化が期待できる。(C)については,テキスト索引方式の研究を集中して行い,DAWGという索引構造をもとにした新しい索引構造であるMASDAWGを開発・実装し,この構造を用いることで,長年の課題であった「機械学習システムBONSAIで正規パタンを扱えるようにすること」に成功した。これによって,従来は事実上不可能であった計算を実時間内に終了することができるようになり,塩基配列やアミノ酸配列からのより高度な知識発見処理が可能となった。さらに(C)に関して,半構造テキストデータからの発見が重要であるとの認識に立ち,大量のXML文書データを効率的に処理する独自の方式を考案し,プロトタイプシステムを構築した。現段階においても,きわめて高速であり,検索のみならず,データの集計・変換・抽出など具体的な多くの用途に使用できる。
This study is based on the research topic of "high speed and low pressure", and the following three research projects are developed. (A)The development of basic knowledge discovery methods for character string processing. (B)Text string compression and knowledge discovery. (C)Basic technology development for high speed knowledge discovery processing. (A)In this paper, we introduce a formal SRS system, which is defined in practice and verified in practice. This study was successful in discovering and applying biological knowledge. (B)The index structure represented by DAWG is based on Lempel-Ziv compression method and the new method is developed. In this paper, we introduce the system of the form of compression and compression, and develop the system of the form of compression and compression. This approach is expected to speed up the same configuration model. (C)DAWG and MASDAWG index structure are developed, installed and used successfully in the research of index structure. This is the first time that a computer has been installed. In this paper, we discuss the importance of semi-structured data structure, and discuss how to deal with a large number of XML documents in a unique way. At the present stage, there are many kinds of high-speed equipment, such as high-speed equipment, high-speed equipment, high-speed equipment and high-speed equipment.
项目成果
期刊论文数量(18)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
H.Hori et al.: "Fragmentary Pattern Matching : Complexity, Algorithms and Applications for Analyzing Classic Literary Works"Proc. 12^<th> Annual International Symposium on Algorithms and Computation. 719-730 (2001)
H.Hori 等人:“片段模式匹配:分析经典文学作品的复杂性、算法和应用”Proc。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
S.Inenaga et al.: "On-Line Construction of Symmetric Compact. Directed Acyclic Word Graphs"Proc. 8^<th> International Symposium on String Processing and Information Retrieval. 96-110 (2001)
S.Inenaga 等人:“对称紧凑有向无环字图的在线构造”Proc。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Y.Hayashi et al.: "Uniform characterization of polynomial-query learnabilities"Theoretical Computer Science. 292(2). 377-385 (2003)
Y.Hayashi 等人:“多项式查询可学习性的统一表征”理论计算机科学。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
S.Inenaga et al.: "Compact Directed Acyclic Word Graphs for a Sliding Window"Lecture Notes in Computer Science. 2476. 310-324 (2002)
S.Inenaga 等人:“滑动窗口的紧凑有向非循环字图”计算机科学讲义。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
T.Kida et al.: "A unifying framework for compressed pattern matching"Theoretical Computer Science. (to appear).
T.Kida 等人:“压缩模式匹配的统一框架”理论计算机科学。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
竹田 正幸其他文献
Serpentine minerals from Irikura, Oita Prefecture, Japan
产自日本大分县入仓的蛇纹石矿物
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸;加藤隆文;長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅;延寿 里美 - 通讯作者:
延寿 里美
BYOBを用いた数理情報教育
使用 BYOB 进行数学信息教育
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
池田 大輔;脇田 早苗;竹田 正幸;竹田正幸;竹田正幸,島田敬士,緒方広明;竹田正幸;松村雅文;高橋 真 - 通讯作者:
高橋 真
習慣的意味仮設説による概念プラグマティズム擁護の試み
基于习惯意义假设来捍卫概念实用主义的尝试
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
中島 祐人;稲永 俊介;坂内 英夫;竹田 正幸;加藤隆文;長谷川亮太・山口飛鳥・福地里菜・石川剛志・北村有迅;延寿 里美;加藤隆文;加藤隆文;山口飛鳥・新井和乃・池原研・金松敏也・福地里菜・中村恭之・宇佐美和子・奥津なつみ・清家弘治・芦寿一郎;加藤隆文;山口飛鳥・福地里菜・濱橋真理・清水真由子・江口大賀・金川久一;Takafumi Kato;加藤隆文 - 通讯作者:
加藤隆文
竹田 正幸的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('竹田 正幸', 18)}}的其他基金
情報爆縮に基づくIoTデータ処理基盤の構築
构建基于信息内爆的物联网数据处理平台
- 批准号:
18H04098 - 财政年份:2018
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
新世代型データベースのための基盤技術開発
新一代数据库基础技术开发
- 批准号:
19024061 - 财政年份:2007
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
新世代型データベースのための基盤技術開発
新一代数据库基础技术开发
- 批准号:
18049061 - 财政年份:2006
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
医薬品の商標名類似度と処方関連度に基づく投薬ミス防止システム
基于药品品牌相似度和处方相关性的用药错误预防系统
- 批准号:
16650031 - 财政年份:2004
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Exploratory Research
構造化テキストのための高速パタン照合機械
结构化文本快速模式匹配机
- 批准号:
07780278 - 财政年份:1995
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
非文字データを扱う高速パターン照合アルゴリズムの研究
处理非字符数据的高速模式匹配算法研究
- 批准号:
03750297 - 财政年份:1991
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
パターン圧縮に基づく機械発見における計算限界の打破
基于模式压缩突破机器发现的计算限制
- 批准号:
09J01104 - 财政年份:2009
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for JSPS Fellows
領域予測のための機械発見システムの研究
区域预测机器发现系统研究
- 批准号:
09272219 - 财政年份:1997
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
機械学習と機械発見による生物情報の概念形成
通过机器学习和机器发现形成生物信息的概念
- 批准号:
08283217 - 财政年份:1996
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas