日本語の特性を利用した書誌データ,ウェブページ等のテキスト自動分類法の基礎的研究
利用日语特性对书目数据、网页等进行自动文本分类方法的基础研究
基本信息
- 批准号:16700241
- 负责人:
- 金额:$ 2.05万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2004
- 资助国家:日本
- 起止时间:2004 至 2006
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究は、図書の目録データやウェブページなどの日本語テキストを自動分類するシステムを開発することが目的である。本年度は、目録データを用いて、書名に日本十進分類法に基づく分類記号を付与する際に、複数の分類手法を組み合わせた分類手法の適用可能性について検討した。まず、テキスト自動分類の代表的な分類手法であるSupport Vector Machine(SVM)とナイーブベイズを用いた手法、さらに相対出現率による重み付けを用いた手法を用いて分類し、分類結果を分析した。その結果、それぞれの分類結果を段階的に採用することで、単独の手法で最も精度が高かった相対出現率手法を用いた場合よりも1.5%程度高い精度が得られることがわかった。精度向上のために更なる分析は必要であるが、分類手法にはそれぞれ特徴があり、分類結果を組み合わせることによって、各手法の弱点を補えることが明らかになった。各分類手法における精度を向上させれば、組み合わせる効果がより見込まれる。また、ウェブページに対する分類の一つとして、ウェブコンテンツ中からの日本語の学術論文のPDFファイルを判定するシステム構築を目指した。SVM、ナイーブベイズなど、多くの手法を用いて自動判定実験を行った。自動判定の手がかりとなる属性群としてはファイル中に出現する語と経験的なルール群を用いた。実験から、SVMでは高い精度、ナイーブベイズでは高い再現率が得られ、段階的な論文判定を行うことで、学術論文のPDFファイルの自動判定は実現可能であることが示唆された。さらに、52万件の未判定であるPDFファイル集合の自動判別を試みた。複数の分類手法によって学術論文であると判定されたファイルをプーリングし、各々の手法の性能比較を行った結果、プーリングによる評価について一定の有効性が示された。
In this study, the purpose of this study is to discuss the purpose of this study. In this study, the purpose of this study is to conduct an auto-classification program in Japan. This year, this year, the Japanese decimal classification method, the Japanese decimal classification method, the basic classification record number, the complex classification method and the possibility classification method are used in this year. The method of automatic classification represented by the automatic classification Support Vector Machine (SVM), the classification method, the classification method, the The results of the experiment, the results of the classification of the results, the most accurate and the most accurate of the two methods, the highest accuracy, the high accuracy of 1.5%, the highest accuracy and the highest accuracy of 1.5%. Precision up-to-date analysis of the necessary information, classification methods, classification results, the results of classification results, and the weakness of each method. The accuracy of each classification method is improved, and the group is combined to improve the accuracy. The information is divided into two categories, namely, the Japanese Academy of Science and Technology, the Japanese Academy of Science and Technology, the PDF Institute of Science and Technology, and the Japanese Academy of Sciences. The methods of SVM, automatic decision and multi-agent are used to determine the accuracy of the test. It is automatically determined that the attribute group of the mobile phone is used to determine the usage of the user group of the mobile phone. High accuracy, high accuracy There are 520000 undetermined items in the collection of undetermined PDF documents. The multiplicative classification method is used to determine that the performance of each method is better than that of the results, and there must be significant differences in the performance of each method.
项目成果
期刊论文数量(15)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
図書館・情報学研究入門「第3章 3.4 テキスト自動分類」
图书情报科学研究概论《第3章 3.4 自动文本分类》
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:汐暗順子;國本千裕;三根慎二;石田栄美;倉田敬子;上田修一;三田図書館・情報学会編
- 通讯作者:三田図書館・情報学会編
エビデンスベーストライブラリアンシップの再検討
重新考虑循证图书馆管理
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:三根慎二;國本千裕;汐崎順子;宮田洋輔;林佐和子;石田栄美;倉田敬子;上田修一
- 通讯作者:上田修一
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
石田 栄美其他文献
石田 栄美的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('石田 栄美', 18)}}的其他基金
デジタルヒューマニティーズを促進するオープンデータ環境およびシステム基盤の構築
构建促进数字人文的开放数据环境和系统基础设施
- 批准号:
18K18508 - 财政年份:2018
- 资助金额:
$ 2.05万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)