近似圧縮アルゴリズムによるテキストデータ処理の高速化

使用近似压缩算法加速文本数据处理

基本信息

  • 批准号:
    08780373
  • 负责人:
  • 金额:
    $ 0.64万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1996
  • 资助国家:
    日本
  • 起止时间:
    1996 至 无数据
  • 项目状态:
    已结题

项目摘要

本年度は,文字分類写像の概念に基づく近似圧縮アルゴリズムについて,以下にあげる研究結果が得られた.まず,(1)テキストデータの復元不可能な情報損失について近似誤差の定式化を行ったところ,文字分類写像は,文字種数を減らすときに失われるシャノン情報量を最小にするものであることが明らかになった.このことから,文字分類写像の定式化の方法が妥当であることが明確になった.次に,(2)組合せ最適化問題として定式化した文字分類を用いる近似圧縮について,多項式時間近似アルゴリズムの設計を行う上での文字分類写像を求める問題の計算量を解析した.結果として,この問題の近似は文字照合としてとらえると可能であるが,相異なる二つの文字列の集合を混同しないという問題として考えると,多項式時間では困難な問題となることが明らかになった.さらに,(3)近似文字列照合機械として非帰還性のオートマトンを用いる方法が一般的であるが,その場合,入出力を完全に特定しなければ最小状態のオートマトンを作ることが計算量的に困難であることがわかった.また,(4)具体的な適用分野で必要とされる処理に圧縮したデータが適しているかを検証するために,遺伝子情報処理のシステムのプロトタイピングを行い,エンジニアリング・ワークステーションで計算実験をおこなった.結果として,実験対象が文字分類の概念に適したものであれば,厳密な文字列の区別においても非常に効果的であることがわかった.
This year, the concept of text classification and image writing is based on approximate compression, and the following research results have been obtained. (1) The number of characters is reduced, the number of characters is reduced, the amount of information is minimized, and the number of characters is reduced. The method of writing images by classifying characters is proper and clear. Secondly,(2) the combinatorial optimization problem is solved by calculating the amount of computation of the problem. The result is that the problem of approximation is not the same as the problem of correspondence. The problem of approximation is not the same as the problem of correspondence. The problem of approximation is not the same as the problem of correspondence. (3) Approximate text string correspondence mechanical, non-recursive, non-recursive. (4) Specific applicable fields are necessary to reduce the processing pressure, reduce the processing time and reduce the processing time. As a result, the concept of classification of characters is suitable for the classification of characters, and the distinction between dense characters is very effective.

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
M.Yamaguchi,S.Shimozono,T.Shinohara: "Finding minimal multiple generalization over regular patterns with alphabet indexing" Proceedings of the Seventh Workshop on Genome Informatics. 51-60 (1996)
M.Yamaguchi、S.Shimozono、T.Shinohara:“通过字母索引查找规则模式的最小多重泛化”第七届基因组信息学研讨会论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
平田耕一、下薗真一、篠原歩: "無矛盾最小OBDD問題の近似困難性について" 電子情報通信学会技術研究報告. COMP96- 9〜15. 39-48 (1996)
Koichi Hirata、Shinichi Shimozono、Ayumu Shinohara:“关于近似一致最小 OBDD 问题的难度”IEICE COMP96- 9-48 (1996)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
下薗真一: "例を無矛盾に保つための文字分類の近似困難性" 情報基礎理論ワークショップ. (1996)
Shinichi Shimozono:“字符分类中保持示例一致的近似困难”信息论研讨会(1996)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Hirata,S.Shimozono,A.Shinohara: "On the hardness of approximating the minimum consistern OBDD problem" Lecture Notes in Computer Science. 1097. 112-123 (1996)
K.Hirata、S.Shimozono、A.Shinohara:“关于近似最小一致性 OBDD 问题的难度”计算机科学讲义。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

下薗 真一其他文献

SQL による評価関数の外部定義が可能な最適時間割作成システム
允许使用 SQL 外部定义评估函数的最佳时间表创建系统
幾何点列近似照合を用いたタンパク質二次構造近似検索の実現
利用几何点序列近似匹配实现蛋白质二级结构近似搜索
空間索引を用いたバイナリプログラムの高速照合
使用空间索引高速匹配二进制程序

下薗 真一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('下薗 真一', 18)}}的其他基金

最適作業時間割問題のカスタマイザブルCADシステム
可定制的 CAD 系统解决最佳工作时间表问题
  • 批准号:
    16700147
  • 财政年份:
    2004
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
データベースから近似的な規則を抽出する高速アルゴリズムの研究
数据库近似规则提取高速算法研究
  • 批准号:
    12780286
  • 财政年份:
    2000
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
近似圧縮アルゴリズムによるテキストデータ処理の高速化
使用近似压缩算法加速文本数据处理
  • 批准号:
    07780341
  • 财政年份:
    1995
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

大規模テキスト処理のためのスーパータグを用いた高精度かつ高速な深い構文解析
使用超级标签进行高精度、高速深度解析,进行大规模文本处理
  • 批准号:
    11J09447
  • 财政年份:
    2011
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
危機言語のテキスト処理のためのソフトウェア開発
濒危语言文本处理软件开发
  • 批准号:
    12039212
  • 财政年份:
    2000
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
医学・生物学分野のテキスト処理のための知識体系の構築に関する研究
医学生物领域文本处理知识体系构建研究
  • 批准号:
    00J60402
  • 财政年份:
    2000
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
「人文科学とコンピュータ」-テキスト処理-
《人文与计算机》-文本处理-
  • 批准号:
    07207130
  • 财政年份:
    1995
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (A)
古文書のマルチレイヤーモデルとテキスト処理プログラムの自動カスタマイジングの研究
古文献多层模型研究及文本处理程序自动定制
  • 批准号:
    06808040
  • 财政年份:
    1994
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了