Integrated Ensemble Learning with Embedded Vectors in Authorship Attribution
作者归属中使用嵌入式向量的集成集成学习
基本信息
- 批准号:22K12726
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本年度は、まず深層学習理論に基づいた埋め込みベクトルの一種であるBERTについて、日本語の大規模データを用いた事前学習済みの数種類(京大BERT、東北大BERT、NICT BERT、朝日BERT、青空文庫BERT、青空文庫+WikipediaBERTなど)モデルを収集し、実装実験を行った。同時に著者推定タスクにおいて異なる事前学習データに基づいて構築された複数のBERTの性能比較を行うため、必要となるコーパス(青空文庫から10人、それぞれ20篇の小説、青空文庫外の文豪による小説10人それぞれ20篇を電子化)を作成した。続いて、収集した事前学習済みのBERTモデルについて、著者推定タスクのために作成したコーパスを用いて比較分析を行った。その結果、以下のことを明らかにした。(1)事前学習済みのBERTは著者推定タスクに有効であるが、本タスクに適応できないBERTがある。(2)青空文庫内の著者の推定においては青空文庫から構築されたBERTの精度が高い。(3)青空文庫外の著者の推定においては、青空文庫から構築されたBERTの精度は(2)の青空文庫内の結果と比べて低くい。(4)いずれの実験コーパスにおいてWikipedia、日本語ビジネスニュース記事で学習されたBERTより、青空文庫で学習させたBERTの精度が高い。(5)事前学習データが個別タスクを解く際のモデルの性能に影響を与えている。(6)異なるコーパスで学習したBERTをアンサンブル学習することにより精度を向上させることが可能である。
今年,我们首先收集了几种预先培训的模型(京都大学Bert,Tohoku University Bert,Nict Bert,Asahi Bert,Asahi Bert,Aozora Bunko Bert,Aozora Bunko + Wikipedia Bert等),Bert的一种基于深度学习理论的嵌入式媒介,使用大型日本数据实现的一种嵌入式媒介,并实现了实验。同时,为了比较作者估计任务中基于不同的预训练数据构建的多个BERT的性能,我们创建了必要的语料库(来自Aozora Bunko的10个人,每本20本小说,每本十本小说,每本书是Aozora Bunko外面的文学人物)数字化的。随后,使用为作者估计任务创建的语料库对收集的审计BERT模型进行比较分析。结果,揭示了以下内容:(1)预训练的BERT对作者估计任务有效,但是有一些BERT不能适应此任务。 (2)作者在Aozora Bunko中的估计是,由Aozora Bunko构建的Bert非常准确。 (3)在估计Aozora Bunko以外的作者时,由Aozora Bunko构建的BERT的准确性低于(2)中的结果。 (4)在Aozora Bunko中学到的BERT的准确性高于Wikipedia和Japanese Business News在任何一个实验语料库中学到的知识。 (5)预处理数据在解决各个任务时会影响模型的性能。 (6)通过在不同语料库中学到的Berts的合奏学习可以提高准确性。
项目成果
期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A review on authorship attribution in text mining
- DOI:10.1002/wics.1584
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Wanwan Zheng;Mingzhe Jin
- 通讯作者:Wanwan Zheng;Mingzhe Jin
Improving the Performance of Feature Selection Methods with Low-Sample-Size Data
- DOI:10.1093/comjnl/bxac033
- 发表时间:2022-04
- 期刊:
- 影响因子:0
- 作者:Wanwan Zheng;Mingzhe Jin
- 通讯作者:Wanwan Zheng;Mingzhe Jin
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
金 明哲其他文献
「ではないか」「のではないか」の談話機能 ―3種のコーパスに基づいて―
“奈奈卡”和“野奈卡”的话语功能 -基于三种语料库-
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
柳 燁佳;金 明哲;野田春美;野田春美 - 通讯作者:
野田春美
金 明哲的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('金 明哲', 18)}}的其他基金
携帯メールの書き手の同定に関する統計的研究
移动电子邮件作者识别的统计研究
- 批准号:
19650067 - 财政年份:2007
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
相似海外基金
Deformation on equivariant completions of vector groups into Fano varieties and K-stability
向量组等变完成变形为 Fano 簇和 K 稳定性
- 批准号:
23K03047 - 财政年份:2023
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Study on embedding representations of financial entities based on price and texts
基于价格和文本的金融实体嵌入表示研究
- 批准号:
21H03493 - 财政年份:2021
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Can Distributed Representations of Disease Learned from Academic Journal Abstracts Represent the Distance Between Diseases?
从学术期刊摘要中了解到的疾病的分布式表示可以代表疾病之间的距离吗?
- 批准号:
21K17848 - 财政年份:2021
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Does the Word Embeddings of Medical Terms by Word2Vec Quantitatively Represent the Mathematical Distance between Diseases?
Word2Vec 的医学术语词嵌入是否定量表示了疾病之间的数学距离?
- 批准号:
19K16941 - 财政年份:2019
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Process of co-creation and co-evolution of brand identity by service suppliers and consumers
服务供应商和消费者共同创造和共同进化品牌形象的过程
- 批准号:
18K01891 - 财政年份:2018
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)