Integrated Ensemble Learning with Embedded Vectors in Authorship Attribution

作者归属中使用嵌入式向量的集成集成学习

基本信息

  • 批准号:
    22K12726
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

本年度は、まず深層学習理論に基づいた埋め込みベクトルの一種であるBERTについて、日本語の大規模データを用いた事前学習済みの数種類(京大BERT、東北大BERT、NICT BERT、朝日BERT、青空文庫BERT、青空文庫+WikipediaBERTなど)モデルを収集し、実装実験を行った。同時に著者推定タスクにおいて異なる事前学習データに基づいて構築された複数のBERTの性能比較を行うため、必要となるコーパス(青空文庫から10人、それぞれ20篇の小説、青空文庫外の文豪による小説10人それぞれ20篇を電子化)を作成した。続いて、収集した事前学習済みのBERTモデルについて、著者推定タスクのために作成したコーパスを用いて比較分析を行った。その結果、以下のことを明らかにした。(1)事前学習済みのBERTは著者推定タスクに有効であるが、本タスクに適応できないBERTがある。(2)青空文庫内の著者の推定においては青空文庫から構築されたBERTの精度が高い。(3)青空文庫外の著者の推定においては、青空文庫から構築されたBERTの精度は(2)の青空文庫内の結果と比べて低くい。(4)いずれの実験コーパスにおいてWikipedia、日本語ビジネスニュース記事で学習されたBERTより、青空文庫で学習させたBERTの精度が高い。(5)事前学習データが個別タスクを解く際のモデルの性能に影響を与えている。(6)異なるコーパスで学習したBERTをアンサンブル学習することにより精度を向上させることが可能である。
This year, we have collected and implemented a number of types of advance learning tools (Kyoto University BERT, Tohoku University BERT, NICT BERT, Asahi BERT, Aozora Library BERT, Aozora Library +WikipediaBERT) for deep learning theory. At the same time, the author estimates that there are different types of pre-learning and basic construction, and the performance comparison of BERT is necessary.(There are 10 people in the Qingkong Library, 20 novels in the Qingkong Library, and 20 novels in the Qingkong Library.) In addition, the author estimates that the author has made a comparative analysis of the results. The results are as follows: (1) If you study carefully in advance, you will be able to infer that the original service is effective, and the original service is appropriate. (2) The accuracy of BERT construction in Qingkong library is high. (3) The accuracy of the estimation of the author outside the Qingkong library is lower than that of the construction of the BERT inside the Qingkong library. (4) The accuracy of this article is high in Wikipedia, Japanese, Chinese and English. (5) Prior to learning, the performance of the individual is affected by the problem. (6) Different from each other, learning is possible.

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
現代小説の文末表現における通時変化の統計モデリングと分析
现代小说句尾历时变化的统计建模与分析
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    李広微;金明哲.
  • 通讯作者:
    金明哲.
A review on authorship attribution in text mining
Improving the Performance of Feature Selection Methods with Low-Sample-Size Data
  • DOI:
    10.1093/comjnl/bxac033
  • 发表时间:
    2022-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wanwan Zheng;Mingzhe Jin
  • 通讯作者:
    Wanwan Zheng;Mingzhe Jin
テキストデータマネジメント
文本数据管理
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    波多野 賢治;天笠 俊之;鈴木 優;宮崎 純;楠 和馬;金明哲(総監修)
  • 通讯作者:
    金明哲(総監修)
異ジャンル文章が混在した場合における著者識別分析
不同体裁文本混合时的作者识别分析
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

金 明哲其他文献

持続可能な都市農業経営のための経営戦略
可持续都市农业管理的管理策略
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    [4]柳 燁佳;金 明哲;八木洋憲
  • 通讯作者:
    八木洋憲
都市農業の持続可能性と継続可能性
都市农业的可持续发展
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    [4]柳 燁佳;金 明哲;八木洋憲;八木洋憲
  • 通讯作者:
    八木洋憲
「ではないか」「のではないか」の談話機能 ―3種のコーパスに基づいて―
“奈奈卡”和“野奈卡”的话语功能 -基于三种语料库-
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    柳 燁佳;金 明哲;野田春美;野田春美
  • 通讯作者:
    野田春美
判別分析による宇野浩二と同時代作家の比較分析
使用判别分析对宇野浩二与当代作家进行比较分析
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    劉 雪琴;金 明哲
  • 通讯作者:
    金 明哲
トピックモデルに基づく宇野浩二の創作時期についての検討
基于话题模型的宇野浩二创作时期考察
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    劉 雪琴;金 明哲
  • 通讯作者:
    金 明哲

金 明哲的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('金 明哲', 18)}}的其他基金

携帯メールの書き手の同定に関する統計的研究
移动电子邮件作者识别的统计研究
  • 批准号:
    19650067
  • 财政年份:
    2007
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了