コーパスに基づく自然言語の曖昧性解消に関する研究

基于语料库的自然语言消歧研究

基本信息

  • 批准号:
    07780312
  • 负责人:
  • 金额:
    $ 0.7万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1995
  • 资助国家:
    日本
  • 起止时间:
    1995 至 无数据
  • 项目状态:
    已结题

项目摘要

本研究では英語の前置詞句の係り先の曖昧性に関する問題を取り上げ,コーパスから自動的に得られた知識を利用してこの曖昧性を解消する手法の提案を行なった.本研究でアピールする点,特に関連する研究との差異に注目した特徴は,以下の3点である.1.品詞づけされたテキストから解消に必要な情報の抽出を行っている.大量のテキストから曖昧性の解消に役立つ情報の抽出を行う場合,多くの研究は構文解析されたテキストを用いて,情報の抽出を行っている.しかし既存の構文解析システムが解析に必要な知識を十分に備えていないことから,コーパスの種類が限定されたり,また人手により構文解析結果を作成している.本研究では,品詞づけされたコーパスの入力とし,そこから解消に必要な知識の抽出を行っているため,これらの問題を回避できる.2.語の頻度数が少ない語に関しては類推を行うことにより意味的な関係の抽出を行っている.曖昧性の解消を行う際,コーパスに出現する頻度が少ない語は,抽出した知識が適用できない場合がある.そういった語に対しては類推,つまりその語と最も意味的に近い語を,抽出した知識から選び出すことで,曖昧性の解消を行っている。この手法の提案により,正解率が、40%増加するという結果が得られた。3.本手法は,関係代名詞節のスコープの曖昧性の問題や名詞句の係り先の問題にも適用可能である.コーパスから情報の抽出を行う場合,意味的な関係の強さを計算するための尺度として2語間の意味的な関係を抽出する手法が従来より多く提案されている.しかしこの尺度では曖昧性の解消には不十分であることからN語の意味的な関係を計算する計算式を提案した.この手法の提案により前置詞句の係り先の曖昧性の解消率が上がるだけでなく,さらに多数の語の情報を必要とする関係代名詞節のスコープや,名詞句の係り先といった複雑な問題にも適用可能となる.実験では,前置詞として‘for',‘in',‘with'を用い,曖昧性の解消に用いる情報として2語の意味的な関係と3語の意味的な関係を用いた場合とで比較実験を行った結果,前者が49%の正解率であるのに対し,後者は70.1%の正解率が得られた(論文1参照).また類推の比較としてDaganが提案したsmoothing methodと本手法との比較実験を行った結果,前者は57.6%の正解率に対し,本手法は,63.5%の正解率が得られた(論文2参照).
This paper proposes a method for solving the problem of ambiguity in English pre-sentence system. This study focuses on the following three points: 1. A large number of research papers are used to analyze ambiguous information and extract information. The necessary knowledge for analysis of the existing structure analysis system is very well prepared, and the types of the system are limited, and the results of the structure analysis are prepared manually. This study is aimed at finding ways to avoid the problem of knowledge extraction. 2. The frequency of words is less than that of words. Ambiguity and resolution of the line, the frequency of occurrence of the word is less, the extraction of knowledge is applicable to the situation. The most important thing is to extract knowledge and to eliminate ambiguity. The correct solution rate increased by 40%. 3. This method is applicable to the problem of ambiguity in relation to pronouns. In the case of extracting information, the strength of the relationship between meanings is calculated. The scale of ambiguity is not very clear. The relationship between language and meaning is calculated. This method of proposal is based on the premise that the ambiguity of the sentence is resolved in the first place, and the information of most of the sentences is necessary to the relationship of the pronoun section. In this paper, we compare the results of the former and the latter, and find that the former has a correct rate of 49% and the latter has a correct rate of 70.1% respectively. Compared with the smoothing method proposed by Dagan, the former method has a correct solution rate of 57.6%, while the present method has a correct solution rate of 63.5%(see paper 2).

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
福本文代: "3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消" 情報処理学会自然言語処理研究会. 67-74 (1995)
Fumiyo Fukumoto:“使用三个单词的共现频率消除介词短语依赖的歧义”日本信息处理学会自然语言处理研究组 67-74(1995)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
F. Fukumoto: "Disambiguating Prepositional Phrase Attachments by using Statistical Information about Word Triplets" Natiral Language Processing Pacific Rim Symposium'95. 2. 752-757 (1995)
F. Fukumoto:“使用有关单词三元组的统计信息消除介词短语附件的歧义”自然语言处理环太平洋研讨会95。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

福本 文代其他文献

知的情報検索のための大規模言語データの利用
利用大规模语言数据进行智能信息检索
witterを用いた絵文字の感性と感情ラベル付与
使用 witter 对表情符号进行敏感度和情感标记
否定の焦点コーパスの構築と自動検出器の試作
否定焦点语料库构建及原型自动检测器
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大槻諒;松吉俊;福本 文代
  • 通讯作者:
    福本 文代
距離学習に基づくリフレーミング辞書の構築
基于远程学习的重构词典的构建
音声想起時脳波(EEG)の音素認識に関する検討
语音回忆过程中利用脑电图(EEG)进行音素识别的研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    李 紀飛;郷 健太郎;木下 雄一朗;李 吉屹;福本 文代;山尾 元陽,入部 百合絵,田口 亮,桂田 浩一,新田 恒雄
  • 通讯作者:
    山尾 元陽,入部 百合絵,田口 亮,桂田 浩一,新田 恒雄

福本 文代的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('福本 文代', 18)}}的其他基金

分野依存語義,及びテキストの首尾一貫性に基づく暗黙的情動モデルの構築
基于场相关词义和文本连贯性的内隐情感模型构建
  • 批准号:
    24K15085
  • 财政年份:
    2024
  • 资助金额:
    $ 0.7万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Multi-label short text classification based on domain specific-senses and its relation
基于领域特定意义的多标签短文本分类及其关系
  • 批准号:
    21K12026
  • 财政年份:
    2021
  • 资助金额:
    $ 0.7万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
コーパスに基づく語義の曖昧さ解消とテキスト要約への適用
基于语料库的词语消歧及其在文本摘要中的应用
  • 批准号:
    11780258
  • 财政年份:
    1999
  • 资助金额:
    $ 0.7万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
語義の曖昧性解消に基づく文書の自動分類とその分類名の自動生成
基于词义消歧的文档自动分类及分类名称自动生成
  • 批准号:
    09780322
  • 财政年份:
    1997
  • 资助金额:
    $ 0.7万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
辞書の語義文を利用したコーパスの自動細分類と文の対象分野同定への応用
利用词典中的意义句子对语料库进行自动子分类及其在句子目标领域识别中的应用
  • 批准号:
    08780342
  • 财政年份:
    1996
  • 资助金额:
    $ 0.7万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了