文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
基本信息
- 批准号:09780309
- 负责人:
- 金额:$ 1.34万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)
- 财政年份:1997
- 资助国家:日本
- 起止时间:1997 至 1998
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本年度(H10年度)の前半は、昨年度(H9年度)提案した文字レベルのモデルを用いた単語分割法(文字クラスタリング)、および単語レベルのモデルを用いた品詞付与手法(HMMの改良)を組合わせる研究を行った。1つ目の組合わせは、文字レベルのモデルで文の単語分割を決定し、その後、単語レベルのモデルで品詞を付与する手法である。2つ目は、文字レベルでの単語分割を一つに決定せず、単語候補のラティスを中間段階で生成し、その中から単語(の品詞)レベルのモデルで単語分割・品詞列を決定する手法である。評価実験の結果、文字レベルで単語分割を決定する手法(1つ目)が優れていることが明らかになった。これは、文字レベルのモデルが単語の字面の情報まで使うのに比べ、単語レベルのモデルが品詞のみの情報しか用いないため、単語の分割に関して誤った解を出す傾向か強かったためである。2つ目の融合手法を改良するためには、単語レベルのモデルにも字面情報を導入するべきと考えられるが、字面情報を使うと未知語に対する頑健性が弱くなることが予想される。本年度の後半では、これを解決するためのアプローチとして(間接的にはなるが)、文字レベルの統計情報を使った自動的な辞書項目の拡張を検討した。手法としては、情報検索で使われている類似度のメジャーを任意の部分文字列に適用した単語抽出法を提案し、未知語となりやすい固有名詞等の単語(情報検索におけるキーワード)を検出できることを示した。これは、文字レベルの統計情報を用いているため、間接的ではあるが、文字レベルのモデルと単語レベルのモデルを融合する方法の一つのアプローチとなっている。今後は、この情報を動的に取り入れる形態素解析システムを検討ずる。
In the first half of this year (H10) and last year (H9), the research on the combination of word assignment methods (HMM improvement) and word segmentation methods (HMM improvement) was carried out. 1. The combination of words, characters, words, words 2. The method for determining the word sequence of a word, and the word sequence of a word. The results of the evaluation and the method (1 item) for determining the division of words and phrases are better than before. This is the first time that a word is used in a language, and the second time it is used in a language. 2. The improvement of the fusion method of the target language is that the original language is used to import the literal information, and the literal information is used to make the unknown language weak. In the second half of the year, we will discuss the issue of dictionary items automatically. The method of extracting words from any part of a text string is to extract words from a text string, such as a text string, etc. The statistical information of the text is used in the middle of the text, the indirect information is used in the middle of the text, the text is used in the text, and the text is used in the text. In the future, the information will be extracted from the morphological analysis system.
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Shuichi ITAHASHI: "Several measures for selecting suitable speech corpora" Eurospeech '97 Proceedings. Vol.4. 1751-1754 (1997)
Shuichi ITAHASHI:“选择合适语音语料库的几种措施”Eurospeech 97 Proceedings。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Mikio Yamamoto: "Using suffix arrays to compute term frequency and document frequency for all substrings in a corpus" proceedings of the 6th Workshop on Very Large Corpora. 28-37 (1998)
Mikio Yamamoto:“使用后缀数组计算语料库中所有子字符串的术语频率和文档频率”第六届超大型语料库研讨会的会议记录。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 幹雄其他文献
山本 幹雄的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 幹雄', 18)}}的其他基金
単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
- 批准号:
22K12162 - 财政年份:2022
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
- 批准号:
20K03094 - 财政年份:2020
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
- 批准号:
18700648 - 财政年份:2006
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
- 批准号:
11780249 - 财政年份:1999
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
- 批准号:
08780329 - 财政年份:1996
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
- 批准号:
X42440-----12237 - 财政年份:1967
- 资助金额:
$ 1.34万 - 项目类别:
Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
- 批准号:
X41065------1202 - 财政年份:1966
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Co-operative Research