Integrated Ensemble Learning with Embedded Vectors in Authorship Attribution

作者归属中使用嵌入式向量的集成集成学习

基本信息

  • 批准号:
    22K12726
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

本年度は、まず深層学習理論に基づいた埋め込みベクトルの一種であるBERTについて、日本語の大規模データを用いた事前学習済みの数種類(京大BERT、東北大BERT、NICT BERT、朝日BERT、青空文庫BERT、青空文庫+WikipediaBERTなど)モデルを収集し、実装実験を行った。同時に著者推定タスクにおいて異なる事前学習データに基づいて構築された複数のBERTの性能比較を行うため、必要となるコーパス(青空文庫から10人、それぞれ20篇の小説、青空文庫外の文豪による小説10人それぞれ20篇を電子化)を作成した。続いて、収集した事前学習済みのBERTモデルについて、著者推定タスクのために作成したコーパスを用いて比較分析を行った。その結果、以下のことを明らかにした。(1)事前学習済みのBERTは著者推定タスクに有効であるが、本タスクに適応できないBERTがある。(2)青空文庫内の著者の推定においては青空文庫から構築されたBERTの精度が高い。(3)青空文庫外の著者の推定においては、青空文庫から構築されたBERTの精度は(2)の青空文庫内の結果と比べて低くい。(4)いずれの実験コーパスにおいてWikipedia、日本語ビジネスニュース記事で学習されたBERTより、青空文庫で学習させたBERTの精度が高い。(5)事前学習データが個別タスクを解く際のモデルの性能に影響を与えている。(6)異なるコーパスで学習したBERTをアンサンブル学習することにより精度を向上させることが可能である。
This year, we need to learn more about this year. This year, we will learn more about several kinds of things (Peking University BERT, Peking University BERT, NICT BERT, Asahi BERT, Asahi Library BERT, Blue Space Database BERT, Blue Space Database + WikipediaBERT database) in advance, such as Peking University BERT, Peking University NICT BERT, Asahi Library BERT, Blue Space Database + WikipediaBERT database. At the same time, the author assumes that the performance of the BERT is better than that of the bank, and that it is necessary to do so (10 people in the Qingkong database, 20 essays in the database, and 20 essays in the Qingkongwen database, and 20 essays in the Qing Kong text database.). The author presupposes that the BERT should be analyzed in advance, and the author assumes that the data will be analyzed by the author. The results are as follows. The following information is clear. (1) the author presupposes that there is a BERT in advance. The author presupposes that there is an error in the BERT. (2) the authors of Qingkongwen presumed that the accuracy of Qingkongwen database was very high and that of BERT. (3) the authors of the Qingkongwen database are presumed to have a lower BERT accuracy than the Qingkongwen database. (2) the results in the Qingkongwen database are lower than those in the Qingkong database. (4) the accuracy of BERT database is higher than that of Wikipedia, Japan and Japan. (5) learn in advance to understand the relationship between performance and performance. (6) in order to improve the precision, it is possible to improve the accuracy of the BERT.

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
現代小説の文末表現における通時変化の統計モデリングと分析
现代小说句尾历时变化的统计建模与分析
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    李広微;金明哲.
  • 通讯作者:
    金明哲.
A review on authorship attribution in text mining
Improving the Performance of Feature Selection Methods with Low-Sample-Size Data
  • DOI:
    10.1093/comjnl/bxac033
  • 发表时间:
    2022-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wanwan Zheng;Mingzhe Jin
  • 通讯作者:
    Wanwan Zheng;Mingzhe Jin
テキストデータマネジメント
文本数据管理
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    波多野 賢治;天笠 俊之;鈴木 優;宮崎 純;楠 和馬;金明哲(総監修)
  • 通讯作者:
    金明哲(総監修)
異ジャンル文章が混在した場合における著者識別分析
不同体裁文本混合时的作者识别分析
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

金 明哲其他文献

持続可能な都市農業経営のための経営戦略
可持续都市农业管理的管理策略
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    [4]柳 燁佳;金 明哲;八木洋憲
  • 通讯作者:
    八木洋憲
都市農業の持続可能性と継続可能性
都市农业的可持续发展
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    [4]柳 燁佳;金 明哲;八木洋憲;八木洋憲
  • 通讯作者:
    八木洋憲
「ではないか」「のではないか」の談話機能 ―3種のコーパスに基づいて―
“奈奈卡”和“野奈卡”的话语功能 -基于三种语料库-
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    柳 燁佳;金 明哲;野田春美;野田春美
  • 通讯作者:
    野田春美
判別分析による宇野浩二と同時代作家の比較分析
使用判别分析对宇野浩二与当代作家进行比较分析
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    劉 雪琴;金 明哲
  • 通讯作者:
    金 明哲
トピックモデルに基づく宇野浩二の創作時期についての検討
基于话题模型的宇野浩二创作时期考察
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    劉 雪琴;金 明哲
  • 通讯作者:
    金 明哲

金 明哲的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('金 明哲', 18)}}的其他基金

携帯メールの書き手の同定に関する統計的研究
移动电子邮件作者识别的统计研究
  • 批准号:
    19650067
  • 财政年份:
    2007
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了