权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

Scholar2Vec: 研究者の多様な活動情報を埋め込める深層潜在空間の構築

Scholar2Vec：构建深层潜在空间，可以嵌入研究人员多样化活动的信息

基本信息

批准号：
20H04484
负责人：
桂井麻里衣
金额：
$ 11.56万
依托单位：
Doshisha University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (B)
财政年份：
2020
资助国家：
日本
起止时间：
2020-04-01 至 2025-03-31
项目状态：
未结题

项目摘要

本研究の目的は、ビッグデータ化の進む学術情報から研究内容の特徴軸をデータドリブンに発見し、個々の研究者の専門興味を多元的に表現する技術を構築することである。具体的には、大規模論文集合に高度な意味解析を導入し、研究者の多様な活動情報を埋め込める深層潜在空間を構築する。これにより、研究活動情報に対し固定次元ベクトルを出力するモデルを構築する。２０２２年度は研究代表者の休業に伴い研究を一時中断したため、当初の研究期間を1年延長することとなった。研究再開後は研究者埋め込みの算出方法について検討と実験を進めた。並行してインターネット上の研究者情報を大規模収集する手法を構築した。ウェブページのカテゴリ分類手法を導入し、学術データベースに収録されていない研究業績を補うことを試みた。以上の内容は2023年度に発表予定である。研究成果情報から埋め込みを構築するにあたり、学術ドメインに特化した日本語のモデルが必要であり、和文論文抄録を用いて事前訓練モデルを構築した。具体的には、テキスト分類などの利用を想定した事前訓練済みエンコーダモデルと、テキスト生成などの利用を想定した事前訓練済みエンコーダ・デコーダモデルをそれぞれ用意した。文分類、文対分類、ヘッドライン生成モデルはウェブ上で公開済みである。モデルの応用として、本研究課題により得られた知見は様々なウェブデータの学習に生かしており、その一例として動画プラットフォームに関する文書集合を用いてBERTを事前訓練し、下流タスクにおける性能を評価した。この成果は2023年度に発表予定である。

はの purpose, this study ビッグデータ change の into む academic intelligence から research content の, 徴 shaft をデータドリブンに発し, a 々の researchers の専 door tumblers を multivariate に performance すをる technology to construct することである. Specific には, large-scale paper collection に highly analytical をな means import し, researchers の others な activity intelligence を buried め込めるを deep potential space to construct する. <s:1> れによれによ, research activity intelligence に contributes to the <s:1> fixed dimension ベ, ト, を, を, するモデ, を and する. 2022 は study represent a closed on のに with いを temporarily interrupt したため, をの study period 1 year to extend original することとなった. After the study was reopened, the researchers of め込み calculated the method にめ込みて検て検て検 sought と experiment を into めた. Parallel ててをタタネットネット the researcher information を large-scale collection する techniques を construct たた. ウェブページのカテゴリ classification technique を import し, academic データベースに収 recorded されていない research results fill をうことを try みた. The above content is に for the year 2023 and is subject to である. Research intelligence から buried め込みを build するにあたり, academic ドメインに specialized した Japanese のモデルが necessary であり, and paper transcribing をいて prior training モデルを build した. Specific には, テキスト classification などの using を scenarios した prior training 済みエンコーダモデルと, テキスト generated などの using を scenarios した prior training 済みエンコーダ · デコーダモデルをそれぞれ intention した. The text classification, text-to-text classification, and ヘッドラヘッドラヘッドラ are used to generate モデモデウェブウェブ that is publicly available on で. モデルの応 with として, this research topic により have られた knowledge は others 々なウェブデータの learning に raw かしており, その case として animation プラットフォームに masato する document collection を with いて BERT をし prior training, obscene タスクにおけるを performance evaluation 価した. The results of に for the year 2023 have been confirmed as である.

项目成果

期刊论文数量（15）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

A Japanese Masked Language Model for Academic Domain

DOI：
发表时间：
2022
期刊：
影响因子：
0
作者：
Hiroki Yamauchi;Tomoyuki Kajiwara;Marie Katsurai;Ikki Ohmukai;Takashi Ninomiya
通讯作者：
Hiroki Yamauchi;Tomoyuki Kajiwara;Marie Katsurai;Ikki Ohmukai;Takashi Ninomiya

SolutionTailor: Scientific Paper Recommendation Based on Fine-Grained Abstract Analysis

SolutionTailor：基于细粒度摘要分析的科技论文推荐