Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
基本信息
- 批准号:11780249
- 负责人:
- 金额:$ 1.6万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)
- 财政年份:1999
- 资助国家:日本
- 起止时间:1999 至 2000
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
昨年度は、ユーザによって入力された検索要求文のすべての部分文字列と、検索対象となる文書集合のすべての文字列をマッチングさせるシステムの構築・評価を行った。その結果、従来法からの精度向上を確認したが、さらなる精度向上と高速化が課題であることが明らかになった。今年度は、まず、全部分文字列を利用することによって性能が上がる理由、およびその限界を検討した結果以下のことが分かった。(1)品詞ごとの検索性能への寄与を調べたところ、従来法ではstop wordとして省かれる助詞や助動詞が以外に性能向上に寄与していることが分かった。これは、助詞等によって接続された複合語も1つの長い単語として扱う方がよいことを示している。(2)検索要求文の中では助詞で接続された長い複合語が、検索対象文献では助詞を省略した名詞連続で表現されている場合、昨年度提案した方法では長い複合語のままではマッチしないため、自動的に短い単語に分割されてしまう。その結果、検索精度が低下している。以上の2点より、部分的に異なってもできるだけ長い単語列でマッチングするシステムが性能・検索速度の面で有利であると考えた。これを反映させるために、マッチングの単位は単語であるが、マッチした単語が近傍に複数存在するときに類似度を上げるような検索システムを構築した。NTCIR-1の評価データを使って、条件を揃えて評価した結果、11pt平均適合率で、従来法が0.38、昨年度作成したシステムが0.40、今年度の提案システムが0.41の性能であり、精度面の向上を確認した。速度の面でも、昨年度より10倍程度の高速化を達成した。
Last year, the search engine entered the search engine and requested part of the text column, search engine set of text column. The result is that the accuracy of the method is upward, and the accuracy is upward. This year, the full text column is used for the reason, the limit and the result. (1)The word "stop" is used to describe the behavior of a verb, and the auxiliary verb is used to describe the behavior of a verb. This is the first time that I've ever heard of such a thing. (2)Search request text auxiliary words continue to long compound words search object text auxiliary words omit nouns continue to express in the past year proposal method long compound words continue to short compound words automatically The accuracy of the results and search is low. The above two points are different from each other in terms of performance and search speed. This is the first time I've ever seen a woman. NTCIR-1 evaluation results, 11pt average fit rate, previous method 0.38, last year's proposal 0.41 performance, accuracy confirmed upward The speed of the plane is 10 times higher than that of the previous year.
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mikio Yamamoto: "Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus"Computational Linguistics. 27・1(to appear). (2001)
Mikio Yamamoto:“使用后缀数组计算语料库中所有子字符串的词频和文档频率”计算语言学 27・1(即将出版)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Tomohiro Ozawa: "Japanese word segmentation using similarity measure for IR"Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. 89-96 (1999)
Tomohiro Ozawa:“使用 IR 相似性度量的日语分词”第一届 NTCIR 日语文本检索和术语识别研究研讨会论文集。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 幹雄其他文献
山本 幹雄的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 幹雄', 18)}}的其他基金
単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
- 批准号:
22K12162 - 财政年份:2022
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
- 批准号:
20K03094 - 财政年份:2020
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
- 批准号:
18700648 - 财政年份:2006
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
- 批准号:
09780309 - 财政年份:1997
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
- 批准号:
08780329 - 财政年份:1996
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
- 批准号:
X42440-----12237 - 财政年份:1967
- 资助金额:
$ 1.6万 - 项目类别:
Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
- 批准号:
X41065------1202 - 财政年份:1966
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Co-operative Research
相似海外基金
Digging Deeper with AI: Canada-UK-US Partnership for Next-generation Plant Root Anatomy Segmentation
利用人工智能进行更深入的挖掘:加拿大、英国、美国合作开发下一代植物根部解剖分割
- 批准号:
BB/Y513908/1 - 财政年份:2024
- 资助金额:
$ 1.6万 - 项目类别:
Research Grant
SBIR Phase II: High-Resolution Image Segmentation for Natural Resource Management
SBIR 第二阶段:用于自然资源管理的高分辨率图像分割
- 批准号:
2233680 - 财政年份:2023
- 资助金额:
$ 1.6万 - 项目类别:
Cooperative Agreement
Automatic Segmentation in Cervical High-Dose Rate Brachytherapy
宫颈高剂量率近距离放射治疗中的自动分割
- 批准号:
495278 - 财政年份:2023
- 资助金额:
$ 1.6万 - 项目类别:
Multi-Resolution Curriculum Learning Guided Convolutional Neural Networks for Automatic Segmentation of iPS Cell Colonies
多分辨率课程学习引导卷积神经网络自动分割 iPS 细胞集落
- 批准号:
23K11170 - 财政年份:2023
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Individual differences in temporal predictions in speech: word segmentation and conversational turn-taking
语音时间预测的个体差异:分词和会话轮流
- 批准号:
2863885 - 财政年份:2023
- 资助金额:
$ 1.6万 - 项目类别:
Studentship
FY 2023 SBIR TOPIC 402 PHASE II. ENHANCE THE PERFORMANCE OF THE AI FOR LYMPH NODE DETECTION, SEGMENTATION AND MEASUREMENTS AND DEVELOP ADDITIONAL AI MODELS FOR MALIGNANCY CLASSIFICATION LEVERAGING MU
2023 财年 SBIR 主题 402 第二阶段。
- 批准号:
10928777 - 财政年份:2023
- 资助金额:
$ 1.6万 - 项目类别:
伴侶動物のCT画像における人工知能を用いたsegmentation手法の開発
伴侣动物CT图像人工智能分割方法的开发
- 批准号:
23K14074 - 财政年份:2023
- 资助金额:
$ 1.6万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Elucidating the Role of ON and OFF Visual Pathways in Object Segmentation for Escape Behavior
阐明 ON 和 OFF 视觉通路在逃逸行为对象分割中的作用
- 批准号:
2212750 - 财政年份:2023
- 资助金额:
$ 1.6万 - 项目类别:
Standard Grant
FastPlex: A Fast Deep Learning Segmentation Method for Accurate Choroid Plexus Morphometry
FastPlex:一种用于精确脉络丛形态测量的快速深度学习分割方法
- 批准号:
10734956 - 财政年份:2023
- 资助金额:
$ 1.6万 - 项目类别:
Optimizing Resource Allocation through Data-Driven Patient Segmentation: A Machine Learning Approach to Enhance Outpatient and Home Transfusion Services
通过数据驱动的患者细分优化资源分配:增强门诊和家庭输血服务的机器学习方法
- 批准号:
493337 - 财政年份:2023
- 资助金额:
$ 1.6万 - 项目类别:














{{item.name}}会员




