辞書の語義文を利用したコーパスの自動細分類と文の対象分野同定への応用

利用词典中的意义句子对语料库进行自动子分类及其在句子目标领域识别中的应用

基本信息

  • 批准号:
    08780342
  • 负责人:
  • 金额:
    $ 0.58万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1996
  • 资助国家:
    日本
  • 起止时间:
    1996 至 无数据
  • 项目状态:
    已结题

项目摘要

本研究ではコーパスの自動分類に関する手法の提案を行なった.本研究でアピールする点,特に関連する研究との差異に注目した特徴は以下の通りである.・分野が限定されているコーパスをさらに細かく分類するために,多義語の解消と名詞同士のリンク付けを行なっている.新聞記事,百科事典など,広範囲の分野を対象とした研究は従来から数多く行なわれている.これらの多くは頻度情報を基に語の統計的な情報を用いて分類を行なっている.しかし,予め分野が限定されているコーパスにおいて,これらの手法を用いて各文書の特徴を表現することは難しい.本研究ではこの問題に対処するため,名詞の多義解消と名詞同士のリンク付け(意味的に近い名詞同士をクラスでまとめる)を提案し,これを用いることで文書の分類を行なっている(論文1参照).実験では,先ず本手法で用いられている多義の解消と名詞間のリンク付けが文書のクラスタリングに対して有効であるかどうかを検証するため,1.単語の重み付けに頻度を用いて文書のクラスタリングを行なう手法,2.多義の解消のみを行なう手法,3.名詞間のリンク付けのみを行なう手法,4.多義の解消と名詞間のリンク付けを行なう手法(本手法)の実験を行なった.その結果,それぞれ,47.5%,52.5%,57.5%,72.5%の正解率が得られた.次に,湯浅らの提案した名詞間の共起関係を利用した文書の分類方法と比較した結果,湯浅らの手法が平均65.0%に対し,本手法では,72.5%の正解率を得た(論文2参照).
This study proposes a new approach to automatic classification. This study focuses on the following characteristics of the differences in research: The definition of polysemy and the definition of noun are the same. News, encyclopedias, research, etc. The frequency information is based on statistical information. It is difficult to express the characteristics of each document by means of dividing the fields. In this paper, we propose a new approach to the problem of polysemy, noun polysemy, noun homonym, noun homonym. In fact, this method is based on the following: 1. The frequency of single language's heavy payment is based on the frequency of single language's heavy payment; 2. The method of polysemy's elimination; 3. The method of noun's heavy payment. 4. The polysemous solution and the noun between the words are divided into two parts. As a result, the correct solution rate was 47.5%, 52.5%, 57.5%, 72.5%. Secondly, by comparing the classification methods of the two methods, the average correct solution rate of the two methods was 65.0%, while the correct solution rate of the two methods was 72.5%(see paper 2).

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
F.Fukumoto,Y.Suzuki: "Aoutomatic Clustering of Articles Using Dictionary Definitions" 16th International Conference on Computational Linguistics (COLING'96). 406-411 (1996)
F.Fukumoto、Y.Suzuki:“使用字典定义的文章自动聚类”第 16 届国际计算语言学会议 (COLING96)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
福本文代,鈴木良弥,福本淳一: "辞書の語義文を用いた文書の自動分類" 情報処理学会論文誌. 37・10. 1789-1799 (1996)
Fumiyo Fukumoto、Yoshiya Suzuki、Junichi Fukumoto:“使用字典含义自动分类文档”日本信息处理学会汇刊 37・10(1996 年)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

福本 文代其他文献

知的情報検索のための大規模言語データの利用
利用大规模语言数据进行智能信息检索
witterを用いた絵文字の感性と感情ラベル付与
使用 witter 对表情符号进行敏感度和情感标记
否定の焦点コーパスの構築と自動検出器の試作
否定焦点语料库构建及原型自动检测器
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大槻諒;松吉俊;福本 文代
  • 通讯作者:
    福本 文代
距離学習に基づくリフレーミング辞書の構築
基于远程学习的重构词典的构建
音声想起時脳波(EEG)の音素認識に関する検討
语音回忆过程中利用脑电图(EEG)进行音素识别的研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    李 紀飛;郷 健太郎;木下 雄一朗;李 吉屹;福本 文代;山尾 元陽,入部 百合絵,田口 亮,桂田 浩一,新田 恒雄
  • 通讯作者:
    山尾 元陽,入部 百合絵,田口 亮,桂田 浩一,新田 恒雄

福本 文代的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('福本 文代', 18)}}的其他基金

分野依存語義,及びテキストの首尾一貫性に基づく暗黙的情動モデルの構築
基于场相关词义和文本连贯性的内隐情感模型构建
  • 批准号:
    24K15085
  • 财政年份:
    2024
  • 资助金额:
    $ 0.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Multi-label short text classification based on domain specific-senses and its relation
基于领域特定意义的多标签短文本分类及其关系
  • 批准号:
    21K12026
  • 财政年份:
    2021
  • 资助金额:
    $ 0.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
コーパスに基づく語義の曖昧さ解消とテキスト要約への適用
基于语料库的词语消歧及其在文本摘要中的应用
  • 批准号:
    11780258
  • 财政年份:
    1999
  • 资助金额:
    $ 0.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
語義の曖昧性解消に基づく文書の自動分類とその分類名の自動生成
基于词义消歧的文档自动分类及分类名称自动生成
  • 批准号:
    09780322
  • 财政年份:
    1997
  • 资助金额:
    $ 0.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
コーパスに基づく自然言語の曖昧性解消に関する研究
基于语料库的自然语言消歧研究
  • 批准号:
    07780312
  • 财政年份:
    1995
  • 资助金额:
    $ 0.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了