情報抽出を目的とした定型パターンの自動構築に関する研究
信息抽取固定模式自动构建研究
基本信息
- 批准号:11780247
- 负责人:
- 金额:$ 1.34万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)
- 财政年份:1999
- 资助国家:日本
- 起止时间:1999 至 2000
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究の目的は、情報抽出で利用される定型パターンを自動構築する手法を提案することである。情報抽出では、パターンマッチングの処理によって情報を抽出する手法が有効である。ただしこの手法は、パターン作成のコストが高いため、パターンの自動構築技術が望まれている。自動構築するために、基本的には、機械学習の一種である「教師付き学習」を用いる。またブートストラップの手法も併用する。これによって多大な訓練データを用意する必要がなくなる。パターンの自動構築には、まず、パターンの表現形式の設計が必要である。それによって学習手法が決まる。ここではWhiskの手法で用いられたパターンの記述形式を利用した。概略Perlのパターンマッチの構文を利用いている。ただしWhiskの対象は英語であるため、日本語用に拡張する必要があった。またそのパターンの表現形式では、固有表現抽出を予め実行しておく必要がある。そのために固有表現抽出システムを試作した。基本的にはChunkingに対する機械学習を用いた。ここでは学習器として決定リストを用いた。次にパターンの自動構築を行うために、教師付き学習により、いくつかの代表的な規則を作った。ただしこれだけでは非常に抽出率が悪い。そこでこれをseedにしてブートストラップの手法を用いて、パターンを増やす戦略を試みた。ここではブートストラップの手法としてCo-trainingの手法が有望であると考え、それらの調査を行い、その適用を行った。試作したシステムでは幾つかのパターンを自動構築できたが、抽出したパターンの有効性は未確認である。今後はその点も考慮しつつ、自動構築の手法を改良していく予定である。
The purpose of this study is to propose a method for information extraction and automatic construction. Information extraction is a very effective way of processing information. The technology of automatic construction is expected to be improved. Automatic construction, basic, mechanical learning is a kind of "teacher pays for learning" The best way to do this is to use the right tools. How much training is necessary? It is necessary to design the expression form of the automatic construction of the image. The study method is determined. The use of Whisk's technique in the form of description A brief overview of Perl's structure. English is the language of choice. It is necessary to extract the inherent expression from the expression form of the disease. The original performance of the company was extracted from the list. Basic Chunking Machine Learning This is the first time I've ever been to a school. Next, the automatic construction of ーンis carried out, teachers pay attention to learning, and the rules represented by are made. It's a very good idea. This is the first time I've ever seen a woman. The method of Co-training is expected to be carried out in the investigation and application. Try to make a list of items that are automatically constructed, extracted and unconfirmed In the future, we will consider and improve the automatic construction method.
项目成果
期刊论文数量(18)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Hiroyuki Shinnou et al.: "Correction of Word Segmentation Errors Through Character-based HMM"PACLING-99. 131-136 (1999)
Hiroyuki Shinnou 等人:“通过基于字符的 HMM 纠正分词错误”PACLING-99。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Hiroyuki Shinnou: "Detection of Japanese Homophone Errors by a Decision List Including a Written Word as a Default Evidence"EACL-99. 180-187 (1999)
Hiroyuki Shinnou:“通过包含书面文字作为默认证据的决策列表检测日语同音词错误”EACL-99。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
新納浩幸: "日本語単語分割へのタグなしコーパスとタグ付きコーパスの利用"情報処理学会自然言語処理研究会. NL-140. 1-8 (2000)
Hiroyuki Niino:“使用未标记和标记语料库进行日语分词”日本信息处理学会自然语言处理研究组 NL-140 (2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
新納浩幸: "決定リストを弱学習器としたアダブーストによる日本語単語分割"自然言語処理. 8-2(掲載予定). (2001)
Hiroyuki Niino:“使用决策列表作为弱学习器的日语分词”自然语言处理(即将出版)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
新納浩幸: "日本語形態素解析のクラス分類問題への変換とその解法"情報処理学会自然言語処理研究会. NL-135. 149-156 (2000)
Hiroyuki Niino:“日语形态分析到分类问题的转换及其解决方案”日本信息处理学会自然语言处理研究组NL-135(2000)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
新納 浩幸其他文献
All-words WSDとfine-tuningを利用した分類語彙表の語義の分散表現の構築
使用 All-words WSD 和微调构建分类词典中单词含义的分布式表示
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
柳沼 大輝;古宮 嘉那子;新納 浩幸 - 通讯作者:
新納 浩幸
順方向多層 LSTM と分散表現を用いた教師あり学習による語義曖昧性解消
使用前向多层 LSTM 和分布式表示通过监督学习进行词义消歧
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
新納 浩幸;古宮 嘉那子;佐々木 稔 - 通讯作者:
佐々木 稔
画像キャプション生成における複数形表現の統一
图像标题生成中复数表示的统一
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
鈴木類;古宮 嘉那子;浅原 正幸;佐々木 稔;新納 浩幸;西友佑 新納 浩幸 古宮 嘉那子 佐々木 稔, - 通讯作者:
西友佑 新納 浩幸 古宮 嘉那子 佐々木 稔,
新納 浩幸的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('新納 浩幸', 18)}}的其他基金
常識推論タスク CommonGen のための文の非常識度合いの推定と常識的文への再生成
估计句子的荒谬程度并将其重新生成常识句子,用于常识推理任务 CommonGen
- 批准号:
23K11212 - 财政年份:2023
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
半教師有りクラスタリング手法を用いた語義別用例の収集
使用半监督聚类方法按词义收集示例
- 批准号:
19011001 - 财政年份:2007
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
既存知能を利用した小規模コーパスからの知識獲得
使用现有智能从小型语料库中获取知识
- 批准号:
09780308 - 财政年份:1997
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
多義語を考慮した単語間の共起性の測定
考虑多义词测量单词之间的共现
- 批准号:
08780327 - 财政年份:1996
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
コーパスからの動詞句型慣用表現の自動抽出
从语料库中自动提取动词短语惯用表达
- 批准号:
07780302 - 财政年份:1995
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)














{{item.name}}会员




