Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
基本信息
- 批准号:11780249
- 负责人:
- 金额:$ 1.6万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)
- 财政年份:1999
- 资助国家:日本
- 起止时间:1999 至 2000
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
昨年度は、ユーザによって入力された検索要求文のすべての部分文字列と、検索対象となる文書集合のすべての文字列をマッチングさせるシステムの構築・評価を行った。その結果、従来法からの精度向上を確認したが、さらなる精度向上と高速化が課題であることが明らかになった。今年度は、まず、全部分文字列を利用することによって性能が上がる理由、およびその限界を検討した結果以下のことが分かった。(1)品詞ごとの検索性能への寄与を調べたところ、従来法ではstop wordとして省かれる助詞や助動詞が以外に性能向上に寄与していることが分かった。これは、助詞等によって接続された複合語も1つの長い単語として扱う方がよいことを示している。(2)検索要求文の中では助詞で接続された長い複合語が、検索対象文献では助詞を省略した名詞連続で表現されている場合、昨年度提案した方法では長い複合語のままではマッチしないため、自動的に短い単語に分割されてしまう。その結果、検索精度が低下している。以上の2点より、部分的に異なってもできるだけ長い単語列でマッチングするシステムが性能・検索速度の面で有利であると考えた。これを反映させるために、マッチングの単位は単語であるが、マッチした単語が近傍に複数存在するときに類似度を上げるような検索システムを構築した。NTCIR-1の評価データを使って、条件を揃えて評価した結果、11pt平均適合率で、従来法が0.38、昨年度作成したシステムが0.40、今年度の提案システムが0.41の性能であり、精度面の向上を確認した。速度の面でも、昨年度より10倍程度の高速化を達成した。
Yesterday's year は, ユーザによって enter force された検ask for the request text のすべてのpartial text sequence と, 検ask for the imageとなる书集のすべての字线 をマッチングさせるシステムのconstruct・ comment価を行った.そのResults, 従来法からの Accuracy improvement をConfirmation したが, さらなるAccuracy improvement とHigh-speed がproject であることが明らかになった. This year's は, まず, all character strings are used することによって performance ががる reason, およびそのlimit を検 Discussion した results below のことが分かった. (1) The product of the word ごとの検性への发与を动べたところ、従来法ではstop word として province かれる particle やauxiliary verb が に performance upward に Send and し て い る こ と が 分 か っ た.これは, auxiliary words, etc. によって合続されたCompound language も1つの长い単语としてう方がよいことを时している. (2) Search for the auxiliary word in the request text の中では で continued 続 された长い compound language が, 検毾毾文 では auxiliary を omitted し た noun 続 でexpression されている occasion, last year's proposal した method では い compound language のまま で は マ ッ し な い た め, automatic に short い単 语 に division さ れ て し ま う. The result and the accuracy of the search result are low. The above 2 points of より, part of the にdifferent なってもできるだけ长い単language sequence でマッThe performance of the チングするシステムが・検 rope speed is advantageous and it is tested.これを Reflects させるために, マッチングの単bit は単语 であるが, マッチした単语が near に plural existence するときにsimilarity を上げるような検SO システムをconstruct した. NTCIR-1's evaluation results, 11pt average fitness rate, 11pt average fit rate, 0.38, Yesterday's production of したシステムが0.40, this year's proposal of システムが0.41 is a performance improvement, and the accuracy aspect is confirmed. Speed improvement is achieved, and speed-up was achieved by about 10 times last year.
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mikio Yamamoto: "Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus"Computational Linguistics. 27・1(to appear). (2001)
Mikio Yamamoto:“使用后缀数组计算语料库中所有子字符串的词频和文档频率”计算语言学 27・1(即将出版)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Tomohiro Ozawa: "Japanese word segmentation using similarity measure for IR"Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. 89-96 (1999)
Tomohiro Ozawa:“使用 IR 相似性度量的日语分词”第一届 NTCIR 日语文本检索和术语识别研究研讨会论文集。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 幹雄其他文献
山本 幹雄的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 幹雄', 18)}}的其他基金
単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
- 批准号:
22K12162 - 财政年份:2022
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
- 批准号:
20K03094 - 财政年份:2020
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
- 批准号:
18700648 - 财政年份:2006
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
- 批准号:
09780309 - 财政年份:1997
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
- 批准号:
08780329 - 财政年份:1996
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
- 批准号:
X42440-----12237 - 财政年份:1967
- 资助金额:
$ 1.6万 - 项目类别:
Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
- 批准号:
X41065------1202 - 财政年份:1966
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Co-operative Research
相似海外基金
汎言語的単語分割・並び替えに基づく多様な言語・タスクに適用可能な多言語モデル
基于泛语言分词和排序的适用于多种语言和任务的多语言模型
- 批准号:
20J13810 - 财政年份:2020
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for JSPS Fellows














{{item.name}}会员




