Integrated Ensemble Learning with Embedded Vectors in Authorship Attribution
作者归属中使用嵌入式向量的集成集成学习
基本信息
- 批准号:22K12726
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本年度は、まず深層学習理論に基づいた埋め込みベクトルの一種であるBERTについて、日本語の大規模データを用いた事前学習済みの数種類(京大BERT、東北大BERT、NICT BERT、朝日BERT、青空文庫BERT、青空文庫+WikipediaBERTなど)モデルを収集し、実装実験を行った。同時に著者推定タスクにおいて異なる事前学習データに基づいて構築された複数のBERTの性能比較を行うため、必要となるコーパス(青空文庫から10人、それぞれ20篇の小説、青空文庫外の文豪による小説10人それぞれ20篇を電子化)を作成した。続いて、収集した事前学習済みのBERTモデルについて、著者推定タスクのために作成したコーパスを用いて比較分析を行った。その結果、以下のことを明らかにした。(1)事前学習済みのBERTは著者推定タスクに有効であるが、本タスクに適応できないBERTがある。(2)青空文庫内の著者の推定においては青空文庫から構築されたBERTの精度が高い。(3)青空文庫外の著者の推定においては、青空文庫から構築されたBERTの精度は(2)の青空文庫内の結果と比べて低くい。(4)いずれの実験コーパスにおいてWikipedia、日本語ビジネスニュース記事で学習されたBERTより、青空文庫で学習させたBERTの精度が高い。(5)事前学習データが個別タスクを解く際のモデルの性能に影響を与えている。(6)異なるコーパスで学習したBERTをアンサンブル学習することにより精度を向上させることが可能である。
This year, we need to learn more about this year. This year, we will learn more about several kinds of things (Peking University BERT, Peking University BERT, NICT BERT, Asahi BERT, Asahi Library BERT, Blue Space Database BERT, Blue Space Database + WikipediaBERT database) in advance, such as Peking University BERT, Peking University NICT BERT, Asahi Library BERT, Blue Space Database + WikipediaBERT database. At the same time, the author assumes that the performance of the BERT is better than that of the bank, and that it is necessary to do so (10 people in the Qingkong database, 20 essays in the database, and 20 essays in the Qingkongwen database, and 20 essays in the Qing Kong text database.). The author presupposes that the BERT should be analyzed in advance, and the author assumes that the data will be analyzed by the author. The results are as follows. The following information is clear. (1) the author presupposes that there is a BERT in advance. The author presupposes that there is an error in the BERT. (2) the authors of Qingkongwen presumed that the accuracy of Qingkongwen database was very high and that of BERT. (3) the authors of the Qingkongwen database are presumed to have a lower BERT accuracy than the Qingkongwen database. (2) the results in the Qingkongwen database are lower than those in the Qingkong database. (4) the accuracy of BERT database is higher than that of Wikipedia, Japan and Japan. (5) learn in advance to understand the relationship between performance and performance. (6) in order to improve the precision, it is possible to improve the accuracy of the BERT.
项目成果
期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A review on authorship attribution in text mining
- DOI:10.1002/wics.1584
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Wanwan Zheng;Mingzhe Jin
- 通讯作者:Wanwan Zheng;Mingzhe Jin
Improving the Performance of Feature Selection Methods with Low-Sample-Size Data
- DOI:10.1093/comjnl/bxac033
- 发表时间:2022-04
- 期刊:
- 影响因子:0
- 作者:Wanwan Zheng;Mingzhe Jin
- 通讯作者:Wanwan Zheng;Mingzhe Jin
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
金 明哲其他文献
「ではないか」「のではないか」の談話機能 ―3種のコーパスに基づいて―
“奈奈卡”和“野奈卡”的话语功能 -基于三种语料库-
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
柳 燁佳;金 明哲;野田春美;野田春美 - 通讯作者:
野田春美
金 明哲的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('金 明哲', 18)}}的其他基金
携帯メールの書き手の同定に関する統計的研究
移动电子邮件作者识别的统计研究
- 批准号:
19650067 - 财政年份:2007
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research














{{item.name}}会员




