文字レベルと単語レベルの確率モデルを融合した形態素解析システム

结合字符级和词级概率模型的词法分析系统

基本信息

  • 批准号:
    09780309
  • 负责人:
  • 金额:
    $ 1.34万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1997
  • 资助国家:
    日本
  • 起止时间:
    1997 至 1998
  • 项目状态:
    已结题

项目摘要

本年度(H10年度)の前半は、昨年度(H9年度)提案した文字レベルのモデルを用いた単語分割法(文字クラスタリング)、および単語レベルのモデルを用いた品詞付与手法(HMMの改良)を組合わせる研究を行った。1つ目の組合わせは、文字レベルのモデルで文の単語分割を決定し、その後、単語レベルのモデルで品詞を付与する手法である。2つ目は、文字レベルでの単語分割を一つに決定せず、単語候補のラティスを中間段階で生成し、その中から単語(の品詞)レベルのモデルで単語分割・品詞列を決定する手法である。評価実験の結果、文字レベルで単語分割を決定する手法(1つ目)が優れていることが明らかになった。これは、文字レベルのモデルが単語の字面の情報まで使うのに比べ、単語レベルのモデルが品詞のみの情報しか用いないため、単語の分割に関して誤った解を出す傾向か強かったためである。2つ目の融合手法を改良するためには、単語レベルのモデルにも字面情報を導入するべきと考えられるが、字面情報を使うと未知語に対する頑健性が弱くなることが予想される。本年度の後半では、これを解決するためのアプローチとして(間接的にはなるが)、文字レベルの統計情報を使った自動的な辞書項目の拡張を検討した。手法としては、情報検索で使われている類似度のメジャーを任意の部分文字列に適用した単語抽出法を提案し、未知語となりやすい固有名詞等の単語(情報検索におけるキーワード)を検出できることを示した。これは、文字レベルの統計情報を用いているため、間接的ではあるが、文字レベルのモデルと単語レベルのモデルを融合する方法の一つのアプローチとなっている。今後は、この情報を動的に取り入れる形態素解析システムを検討ずる。
The first half of this year (H10 year) and the proposal for last year (H9 year) were divided using the いた単语 splitting method (character クラスタリング), および単语レベルのモデルを Use the いた word giving technique (HMMのImprovement) to study the combination of を行った. 1つ目のcombinationわせは、文レベルのモデルで文の単语 splitをdeterminationし, その后, 単语レベルのモデルで品词を给する Technique である. 2つ目は、文                                 uation 四で生成し、その中から単(の品词)レベルのモデルで単语 division・品词组をdeterminationする Techniqueである. Comments on the result of the evaluation, the character segmentation method (1 item), the character segmentation method (1 item), and the result of the evaluation.これは、文レベルのモデルが単语のliteral informationまで使うのに比べ、単语レベルのモデルが品词のみのInformationしか用いないため、単语の分に关してErrorったsolvedを出す强かったためである. 2つ目のfusion techniqueを Improvementするためには、単语レベルのモデルにもLiteral informationをIntroductionするべきと考えられるが, literal information を使うとUNKNOWN 语に対する强性が weak くなることが yu think される. This year's second half of the year, the resolution of the problem (indirect solution)るが), character レベルのstatistical information をmake ったautomatic なdictionary project の拡张を検question した. Technique としては、Information 検検で使われているsimilarity のメジャーをarbitrary partial character string にapplicable した単语 extracting method を提Case し, unknown language となりやすい proper nouns, etc. の単语 (Information 検SO におけるキーワード) を検出できることを Show した.これは, Script レベルのstatistical information を Use いているため, INDIRECT ではあるが, 字レベルのモデルと単语レベルのモデルをfusion するmethodの一つのアプローチとなっている. From now on, the information will be analyzed in the form of morphological analysis.

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Shuichi ITAHASHI: "Several measures for selecting suitable speech corpora" Eurospeech '97 Proceedings. Vol.4. 1751-1754 (1997)
Shuichi ITAHASHI:“选择合适语音语料库的几种措施”Eurospeech 97 Proceedings。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Mikio Yamamoto: "Using suffix arrays to compute term frequency and document frequency for all substrings in a corpus" proceedings of the 6th Workshop on Very Large Corpora. 28-37 (1998)
Mikio Yamamoto:“使用后缀数组计算语料库中所有子字符串的术语频率和文档频率”第六届超大型语料库研讨会的会议记录。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 幹雄其他文献

山本 幹雄的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 幹雄', 18)}}的其他基金

単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
  • 批准号:
    22K12162
  • 财政年份:
    2022
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
  • 批准号:
    20K03094
  • 财政年份:
    2020
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
  • 批准号:
    18700648
  • 财政年份:
    2006
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
  • 批准号:
    11780249
  • 财政年份:
    1999
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
  • 批准号:
    08780329
  • 财政年份:
    1996
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
  • 批准号:
    X42440-----12237
  • 财政年份:
    1967
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
  • 批准号:
    X41065------1202
  • 财政年份:
    1966
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Co-operative Research
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了