タグなしコーパスからの形態素解析情報の抽出

从未标记的语料库中提取形态分析信息

基本信息

  • 批准号:
    08780329
  • 负责人:
  • 金额:
    $ 0.64万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1996
  • 资助国家:
    日本
  • 起止时间:
    1996 至 无数据
  • 项目状态:
    已结题

项目摘要

本研究では、自然言語処理において最も基本的な形態素解析(文中の単語、品詞や活用型など同定する)に関する確率的なルールをタグなしのコーパスから学習する方法を検討した。大きく2つの手法を提案し、評価実験を行った。1つ目の手法は、本研究以前に既に提案されている1次マルコモデルを推定する方法と異なり、隠れマルコフモデルを推定する手法である。隠れマルコフモデルは2次マルコフモデルに近い性能を少ないパラメータで実現できるため、そのロバスト性において優れている。これまでの研究では実用的には1次マルコフモデルを推定できるのみであったが、より高性能なモデルをタグなしコーパスから推定することが可能となった。また、タグなしコーパスから確率モデルを推定する場合ノズルが大きな問題となるが、本研究では2つ目の提案として信頼性係数を導入し、ノイズによる影響の軽減を試みた。これは、タグなしコーパスから抽出された可能な単語連鎖に信頼性を付与することによって、信頼性の低い連鎖によるノイズを低減する手法である。以上2つの手法を実際の日本語形態素解析システムに応用し、評価を行った。この結果、信頼性係数はマルコフモデル、隠れマルコフモデルどちらのモデルに対してもタグなしコーパスから推定する場合に有効であることが分かった。また、信頼性係数を使わない状態で隠れマルコフモデルと1次マルコフモデルを比較した場合は、1次マルコフモデルの方が性能が高かった。しかし、信頼性係数が使われてある程度ノイズが押えられるとこの関係は逆転した。これは、隠れマルコフモデルは1次マルコフモデルよりもパラメータ数が多く精密なモデルであるため、ノイズに弱いためであると考えられる。
This study explores the most basic morpheme analysis methods for natural speech processing, which are related to the accuracy of speech processing. 2. Make proposals and comments. 1. The method proposed in the previous study is different from that proposed in the previous study. The second time, the second time, the third time, the third time, the fourth time, the fourth time, the fourth This study was carried out with the help of a high performance computer. In this study, we propose to introduce and reduce the influence of reliability coefficient. The method of reducing the linkage between the two groups is to reduce the linkage between the two groups. The above 2 techniques are used and evaluated in real time in Japanese morpheme analysis. The result is that the information coefficient is equal to the number of points in the case where the information coefficient is equal to the number of points in the case. For example, if you want to make a comparison, you can make a comparison between the first order and the second order. The relationship between the degree of reliability and the degree of reliability is reversed. The number of people who are interested in the game is very high.

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mikio Yamamoto: "A re-estimation method for stochastic language modeling from ambiguous observations" Proceedings of the Fourth Workshop on Very Large Corpora. 155-167 (1996)
Mikio Yamamoto:“根据模糊观察进行随机语言建模的重新估计方法”第四届超大型语料库研讨会论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 幹雄其他文献

山本 幹雄的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 幹雄', 18)}}的其他基金

単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
  • 批准号:
    22K12162
  • 财政年份:
    2022
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
  • 批准号:
    20K03094
  • 财政年份:
    2020
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
  • 批准号:
    18700648
  • 财政年份:
    2006
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
  • 批准号:
    11780249
  • 财政年份:
    1999
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
  • 批准号:
    09780309
  • 财政年份:
    1997
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
  • 批准号:
    X42440-----12237
  • 财政年份:
    1967
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
  • 批准号:
    X41065------1202
  • 财政年份:
    1966
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Co-operative Research

相似海外基金

人間の言語処理過程に基づき未知語意味推定をする日本語形態素解析アルゴリズムの作成
创建日语形态分析算法,根据人类语言处理过程估计未知单词的含义
  • 批准号:
    04858008
  • 财政年份:
    1992
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了