コーパスからの動詞句型慣用表現の自動抽出
从语料库中自动提取动词短语惯用表达
基本信息
- 批准号:07780302
- 负责人:
- 金额:$ 0.51万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)
- 财政年份:1995
- 资助国家:日本
- 起止时间:1995 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究の目的は「あごで使う」や「名をあげる」といった動詞句型慣用表現をコーパスから自動抽出する手法を提案することであった.本年度は上記問題に対して2つの手法を考案し,それぞれを学会誌に発表した。1つはコーパスから得られた共起データを使って,名詞と動詞の共起の強さを測る新たな手法を提案し,その測定方法によって慣用表現を抽出した.具体的には「NをVする」というタイプの表現をコーパスから収集し,Vを固定した場合に,共起するNの頻度分布から「NをVする」の共起の強さ(Type1)を測る.また同時にNを固定した場合に,共起するVの頻度分布から「NをVする」の共起の強さ(Type2)を測る.この動詞固定の共起の強さ(Type1)と名詞固定の共起の強さ(Type2)の両者の基準各々から抽出した慣用表現は重複がほとんどなく,さらにそれぞれの基準による抽出は,従来の相互情報量による抽出と同程度の抽出力がある.つまりそれぞれの基準による抽出を加え合わせることで,従来手法よりも広い範囲の慣用表現が抽出できる.もう1つは,慣用表現の類義語への置き換え不可能性を利用した手法である.まず上記と同じようにコーパスから「NをVする」というタイプの表現を収集し,次にVを固定した場合に,Vと共起するNの集合の中で,類似関係を持たない名詞N'を選び,「N'をVとする」という表現を慣用表現として抽出する手法である.類義語の判定には分類語彙表を利用した.この手法では正解率が15%程度だが,再現率が70%弱と比較的高くなることを示した.どちらの手法も慣用表現の緩い特徴を利用しているだけなので,抽出に限界があることが明らかになった.改良としては上記手法を統合して慣用表現かどうかを判断するような手法が有効だと思われる.またどちらの手法も共起データを利用しているが,語義まで考慮した共起データでないと避けられない誤りが多く,語義まで考慮して共起データを作成することも大きな改良になる.これらの点が今後の課題である.
The purpose of this study is to propose a method of automatic extraction. This year, the two methods of solving the above problems were examined, and the two methods were reported by the Institute. 1. A new method for measuring the common origin of nouns and verbs is proposed, and a method for measuring the common origin of nouns and verbs is extracted. Specific "N" V "and" V "in the middle of the performance of the" N "V" fixed in the case, the frequency distribution of the "N" V "and the" N "V" strong (Type1) to measure. When N is fixed at the same time, the frequency distribution of the total V is measured by the total strength (Type2) of N. The verb is fixed and the common origin is strong (Type1) and the noun is fixed and the common origin is strong (Type2).つまりそれぞれの基准による抽出を加え合わせることで,従来手法よりも広い范囲の惯用表现が抽出できる. 1, idiomatic expression of the same meaning of the word In the case of V, the expression of N is similar to that of N. In the case of V, the expression of N is similar. The use of word lists for classification of semantic terms. The correct solution rate of this technique is 15%, and the reproduction rate is 70%. The characteristics of slow motion in the performance of the technique are used to extract the boundary. The method of improving the memory is to judge the habit. In addition, the method of "common origin" is used to avoid errors, and the semantic consideration is used to improve the method of "common origin".これらの点が今后の课题である.
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
新納浩幸,井左原均: "片方向の共起性による述語型定型表現の自動抽出" 言語処理学会. 2. 73-86 (1995)
Hiroyuki Niino、Hitoshi Isahara:“使用单向共现自动提取谓词类型固定表达式”,日本语言处理学会 2. 73-86 (1995)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
新納浩幸,井左原均: "語義の特異性を利用した慣用表現の自動抽出" 情報処理学会論文誌. 36-2. 1845-1854 (1995)
Hiroyuki Niino、Hitoshi Isahara:“利用词义的特殊性自动提取惯用表达”,《日本信息处理学会汇刊》1845-1854 年(1995 年)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
新納 浩幸其他文献
順方向多層 LSTM と分散表現を用いた教師あり学習による語義曖昧性解消
使用前向多层 LSTM 和分布式表示通过监督学习进行词义消歧
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
新納 浩幸;古宮 嘉那子;佐々木 稔 - 通讯作者:
佐々木 稔
All-words WSDとfine-tuningを利用した分類語彙表の語義の分散表現の構築
使用 All-words WSD 和微调构建分类词典中单词含义的分布式表示
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
柳沼 大輝;古宮 嘉那子;新納 浩幸 - 通讯作者:
新納 浩幸
画像キャプション生成における複数形表現の統一
图像标题生成中复数表示的统一
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
鈴木類;古宮 嘉那子;浅原 正幸;佐々木 稔;新納 浩幸;西友佑 新納 浩幸 古宮 嘉那子 佐々木 稔, - 通讯作者:
西友佑 新納 浩幸 古宮 嘉那子 佐々木 稔,
新納 浩幸的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('新納 浩幸', 18)}}的其他基金
常識推論タスク CommonGen のための文の非常識度合いの推定と常識的文への再生成
估计句子的荒谬程度并将其重新生成常识句子,用于常识推理任务 CommonGen
- 批准号:
23K11212 - 财政年份:2023
- 资助金额:
$ 0.51万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
半教師有りクラスタリング手法を用いた語義別用例の収集
使用半监督聚类方法按词义收集示例
- 批准号:
19011001 - 财政年份:2007
- 资助金额:
$ 0.51万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
情報抽出を目的とした定型パターンの自動構築に関する研究
信息抽取固定模式自动构建研究
- 批准号:
11780247 - 财政年份:1999
- 资助金额:
$ 0.51万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
既存知能を利用した小規模コーパスからの知識獲得
使用现有智能从小型语料库中获取知识
- 批准号:
09780308 - 财政年份:1997
- 资助金额:
$ 0.51万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
多義語を考慮した単語間の共起性の測定
考虑多义词测量单词之间的共现
- 批准号:
08780327 - 财政年份:1996
- 资助金额:
$ 0.51万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
日常会話で用いられる慣用表現の日仏対照研究
日语和法语日常会话中惯用语的比较研究
- 批准号:
24K04135 - 财政年份:2024
- 资助金额:
$ 0.51万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
慣用表現の形式的・意味的変化に関する統合的分析モデルの構築
惯用表达形式语义变化综合分析模型的构建
- 批准号:
09J01276 - 财政年份:2009
- 资助金额:
$ 0.51万 - 项目类别:
Grant-in-Aid for JSPS Fellows
内因性精神病患者の比喩的慣用表現理解力の実験心理学的測定
内源性精神病患者比喻和惯用表达理解能力的实验心理测量
- 批准号:
07770781 - 财政年份:1995
- 资助金额:
$ 0.51万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)














{{item.name}}会员




