Scholar2Vec: 研究者の多様な活動情報を埋め込める深層潜在空間の構築

Scholar2Vec:构建深层潜在空间,可以嵌入研究人员多样化活动的信息

基本信息

  • 批准号:
    20H04484
  • 负责人:
  • 金额:
    $ 11.56万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

本研究の目的は、ビッグデータ化の進む学術情報から研究内容の特徴軸をデータドリブンに発見し、個々の研究者の専門興味を多元的に表現する技術を構築することである。具体的には、大規模論文集合に高度な意味解析を導入し、研究者の多様な活動情報を埋め込める深層潜在空間を構築する。これにより、研究活動情報に対し固定次元ベクトルを出力するモデルを構築する。2022年度は研究代表者の休業に伴い研究を一時中断したため、当初の研究期間を1年延長することとなった。研究再開後は研究者埋め込みの算出方法について検討と実験を進めた。並行してインターネット上の研究者情報を大規模収集する手法を構築した。ウェブページのカテゴリ分類手法を導入し、学術データベースに収録されていない研究業績を補うことを試みた。以上の内容は2023年度に発表予定である。研究成果情報から埋め込みを構築するにあたり、学術ドメインに特化した日本語のモデルが必要であり、和文論文抄録を用いて事前訓練モデルを構築した。具体的には、テキスト分類などの利用を想定した事前訓練済みエンコーダモデルと、テキスト生成などの利用を想定した事前訓練済みエンコーダ・デコーダモデルをそれぞれ用意した。文分類、文対分類、ヘッドライン生成モデルはウェブ上で公開済みである。モデルの応用として、本研究課題により得られた知見は様々なウェブデータの学習に生かしており、その一例として動画プラットフォームに関する文書集合を用いてBERTを事前訓練し、下流タスクにおける性能を評価した。この成果は2023年度に発表予定である。
は の purpose, this study ビ ッ グ デ ー タ change の into む academic intelligence か ら research content の, 徴 shaft を デ ー タ ド リ ブ ン に 発 し, a 々 の researchers の 専 door tumblers を multivariate に performance す を る technology to construct す る こ と で あ る. Specific に は, large-scale paper collection に highly analytical を な means import し, researchers の others な activity intelligence を buried め 込 め る を deep potential space to construct す る. <s:1> れによ れによ, research activity intelligence に contributes to the <s:1> fixed dimension ベ, ト, を, を, するモデ, を and する. 2022 は study represent a closed on の に with い を temporarily interrupt し た た め, を の study period 1 year to extend original す る こ と と な っ た. After the study was reopened, the researchers of め込み calculated the method に め込み て検 て検 て検 sought と experiment を into めた. Parallel て て を タ タ ネット ネット the researcher information を large-scale collection する techniques を construct た た. ウ ェ ブ ペ ー ジ の カ テ ゴ リ classification technique を import し, academic デ ー タ ベ ー ス に 収 recorded さ れ て い な い research results fill を う こ と を try み た. The above content is に for the year 2023 and is subject to である. Research intelligence か ら buried め 込 み を build す る に あ た り, academic ド メ イ ン に specialized し た Japanese の モ デ ル が necessary で あ り, and paper transcribing を い て prior training モ デ ル を build し た. Specific に は, テ キ ス ト classification な ど の using を scenarios し た prior training 済 み エ ン コ ー ダ モ デ ル と, テ キ ス ト generated な ど の using を scenarios し た prior training 済 み エ ン コ ー ダ · デ コ ー ダ モ デ ル を そ れ ぞ れ intention し た. The text classification, text-to-text classification, and ヘッドラ ヘッドラ ヘッドラ are used to generate モデ モデ ウェブ ウェブ that is publicly available on で. モ デ ル の 応 with と し て, this research topic に よ り have ら れ た knowledge は others 々 な ウ ェ ブ デ ー タ の learning に raw か し て お り, そ の case と し て animation プ ラ ッ ト フ ォ ー ム に masato す る document collection を with い て BERT を し prior training, obscene タ ス ク に お け る を performance evaluation 価 し た. The results of に for the year 2023 have been confirmed as である.

项目成果

期刊论文数量(15)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A Japanese Masked Language Model for Academic Domain
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hiroki Yamauchi;Tomoyuki Kajiwara;Marie Katsurai;Ikki Ohmukai;Takashi Ninomiya
  • 通讯作者:
    Hiroki Yamauchi;Tomoyuki Kajiwara;Marie Katsurai;Ikki Ohmukai;Takashi Ninomiya
SolutionTailor: Scientific Paper Recommendation Based on Fine-Grained Abstract Analysis
SolutionTailor:基于细粒度摘要分析的科技论文推荐
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tetsuya Takahashi;Marie Katsurai
  • 通讯作者:
    Marie Katsurai
University of Kentucky(米国)
肯塔基大学(美国)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Adoption of Data Mining Methods in the Discipline of Library and Information Science
  • DOI:
    10.6182/jlis.202106_19(1).001
  • 发表时间:
    2021-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Marie Katsurai;Soohyung Joo
  • 通讯作者:
    Marie Katsurai;Soohyung Joo
Multilingual author matching across different academic databases: a case study on KAKEN, DBLP, and PubMed
  • DOI:
    10.1007/s11192-020-03861-3
  • 发表时间:
    2021-02
  • 期刊:
  • 影响因子:
    3.9
  • 作者:
    Yuto Chikazawa;Marie Katsurai;I. Ohmukai
  • 通讯作者:
    Yuto Chikazawa;Marie Katsurai;I. Ohmukai
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

桂井 麻里衣其他文献

エントレインメントスコアを用いた応答リランキングとその自動評価
使用夹带分数进行响应重排序及其自动评估
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    金崎 翔大;河野 誠也;湯口 彰重;桂井 麻里衣;吉野 幸一郎
  • 通讯作者:
    吉野 幸一郎
学術データに基づく研究者の特徴表現
基于学术数据的研究人员特征表征
対話行為予測とエントレインメント予測に基づいたマルチモーダル対話システム
基于对话行为预测和夹带预测的多模态对话系统
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    金崎 翔大;渡邉 寛大;河野 誠也;湯口 彰重;桂井 麻里衣;吉野 幸一郎
  • 通讯作者:
    吉野 幸一郎
Diversification of scholarly communication: Transformation of refereed journals’ four key functions
学术传播多元化:参考期刊四大关键功能的转变
ハイパワーレーザーとXFELを用いた惑星構成物質圧縮挙動の探索
利用高功率激光和 XFEL 探索行星构成材料的压缩行为
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    山本あかね,佐藤友子;船守展正;若林大佑;浦川啓;服部高典;桂井 麻里衣;佐藤友子
  • 通讯作者:
    佐藤友子

桂井 麻里衣的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('桂井 麻里衣', 18)}}的其他基金

Scholar2Vec: 研究者の多様な活動情報を埋め込める深層潜在空間の構築
Scholar2Vec:构建深层潜在空间,可以嵌入研究人员多样化活动的信息
  • 批准号:
    23K20410
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
マルチメディアデータを情報源とした時系列概念ネットワークの構築とその応用
以多媒体数据为信息源的时序概念网络构建及其应用
  • 批准号:
    13J01688
  • 财政年份:
    2013
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

ナラティブはどのようにして生じるのか?-自然言語処理技術を用いた検討-
叙事是如何出现的?
  • 批准号:
    24K16786
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
言語流暢性課題の定性的分析方法の構築:語彙特性と自然言語処理の応用
构建语言流畅性任务的定性分析方法:词汇特征和自然语言处理的应用
  • 批准号:
    24K10484
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
自然言語処理に最適な語彙と分割の仕方を自動で獲得する人工知能の創出
创建自动获取自然语言处理最佳词汇和切分方法的人工智能
  • 批准号:
    24K20852
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
能動学習を用いた、放射線科所見文重要度推定用自然言語処理システムの開発
开发自然语言处理系统,使用主动学习来评估放射学结果的重要性
  • 批准号:
    24K18797
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
自然言語処理技術を用いた食物アレルゲン性予測システム構築
利用自然语言处理技术构建食物过敏性预测系统
  • 批准号:
    24K01707
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
自然言語処理を用いた重粒子線治療の適応判定のための自動チャットシステムの開発
开发自动聊天系统,利用自然语言处理确定重离子放射治疗的适用性
  • 批准号:
    24K18821
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
自然言語処理を活用した皮質脳波解析による長文読解の神経ネットワーク基盤の解明
通过自然语言处理的皮层脑电图分析阐明长句阅读的神经网络基础
  • 批准号:
    24K18686
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
自然言語処理技術を用いた教授学習支援システムの開発
利用自然语言处理技术开发教学支持系统
  • 批准号:
    24K16768
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
自然言語処理を利用した1910-30年代の日本文芸批評の研究
利用自然语言处理研究 1910 年代至 1930 年代的日本文学批评
  • 批准号:
    24K15991
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
教師が客観的に授業を自己評価するための自然言語処理による新しい発話分析法の開発
使用自然语言处理开发一种新的语音分析方法,供教师客观地自我评估他们的课程
  • 批准号:
    23K12785
  • 财政年份:
    2023
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了