权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

文字レベルと単語レベルの確率モデルを融合した形態素解析システム

结合字符级和词级概率模型的词法分析系统

基本信息

批准号：
09780309
负责人：
山本幹雄
金额：
$ 1.34万
依托单位：
University of Tsukuba
依托单位国家：
日本
项目类别：
Grant-in-Aid for Encouragement of Young Scientists (A)
财政年份：
1997
资助国家：
日本
起止时间：
1997 至 1998
项目状态：
已结题

项目摘要

本年度(H10年度)の前半は、昨年度(H9年度)提案した文字レベルのモデルを用いた単語分割法(文字クラスタリング)、および単語レベルのモデルを用いた品詞付与手法(HMMの改良)を組合わせる研究を行った。1つ目の組合わせは、文字レベルのモデルで文の単語分割を決定し、その後、単語レベルのモデルで品詞を付与する手法である。2つ目は、文字レベルでの単語分割を一つに決定せず、単語候補のラティスを中間段階で生成し、その中から単語(の品詞)レベルのモデルで単語分割・品詞列を決定する手法である。評価実験の結果、文字レベルで単語分割を決定する手法(1つ目)が優れていることが明らかになった。これは、文字レベルのモデルが単語の字面の情報まで使うのに比べ、単語レベルのモデルが品詞のみの情報しか用いないため、単語の分割に関して誤った解を出す傾向か強かったためである。2つ目の融合手法を改良するためには、単語レベルのモデルにも字面情報を導入するべきと考えられるが、字面情報を使うと未知語に対する頑健性が弱くなることが予想される。本年度の後半では、これを解決するためのアプローチとして(間接的にはなるが)、文字レベルの統計情報を使った自動的な辞書項目の拡張を検討した。手法としては、情報検索で使われている類似度のメジャーを任意の部分文字列に適用した単語抽出法を提案し、未知語となりやすい固有名詞等の単語(情報検索におけるキーワード)を検出できることを示した。これは、文字レベルの統計情報を用いているため、間接的ではあるが、文字レベルのモデルと単語レベルのモデルを融合する方法の一つのアプローチとなっている。今後は、この情報を動的に取り入れる形態素解析システムを検討ずる。

The first half of this year (H10 year) and the proposal for last year (H9 year) were divided using the いた単语 splitting method (character クラスタリング), および単语レベルのモデルを Use the いた word giving technique (HMMのImprovement) to study the combination of を行った. 1つ目のcombinationわせは、文レベルのモデルで文の単语 splitをdeterminationし, その后, 単语レベルのモデルで品词を给する Technique である. 2つ目は、文　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　uation 四で生成し、その中から単(の品词)レベルのモデルで単语 division・品词组をdeterminationする Techniqueである. Comments on the result of the evaluation, the character segmentation method (1 item), the character segmentation method (1 item), and the result of the evaluation.これは、文レベルのモデルが単语のliteral informationまで使うのに比べ、単语レベルのモデルが品词のみのInformationしか用いないため、単语の分に关してErrorったsolvedを出す强かったためである. 2つ目のfusion techniqueを Improvementするためには、単语レベルのモデルにもLiteral informationをIntroductionするべきと考えられるが, literal information を使うとUNKNOWN 语に対する强性が weak くなることが yu think される. This year's second half of the year, the resolution of the problem (indirect solution)るが), character レベルのstatistical information をmake ったautomatic なdictionary project の拡张を検question した. Technique としては、Information 検検で使われているsimilarity のメジャーをarbitrary partial character string にapplicable した単语 extracting method を提Case し, unknown language となりやすい proper nouns, etc. の単语 (Information 検SO におけるキーワード) を検出できることを Show した.これは, Script レベルのstatistical information を Use いているため, INDIRECT ではあるが, 字レベルのモデルと単语レベルのモデルをfusion するmethodの一つのアプローチとなっている. From now on, the information will be analyzed in the form of morphological analysis.