汎言語的単語分割・並び替えに基づく多様な言語・タスクに適用可能な多言語モデル

基于泛语言分词和排序的适用于多种语言和任务的多语言模型

基本信息

  • 批准号:
    20J13810
  • 负责人:
  • 金额:
    $ 1.34万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-24 至 2022-03-31
  • 项目状态:
    已结题

项目摘要

本研究では、自然言語処理技術を幅広い言語において適用可能とするための技術開発を行った。近年広く用いられている深層学習などの統計的手法は莫大な言語資源を必要とし、言語資源の少ない言語においては適用できない。そこで既存研究においては、複数言語の単一のモデルで扱う多言語モデルを活用することで、言語資源の言語横断的な活用を可能とし、資源の少ない言語での処理性能の向上を目指している。しかし、特に言語学的に距離の遠い言語間では多言語モデルの性能が大きく低下することが知られている。多言語モデルの本質的な精度向上のため、どのような言語間の差異が多言語モデルの精度低下を招くのかを深く理解する必要がある。そのため、本研究では、文法・単語分割・単語の多義性の3つの言語の側面について、擬似的なコーパスを活用しそれぞれが多言語モデルに与える影響を評価した。具体的には、一つの英語の生コーパスを2つに分割し、一方に対して特定の側面のみを変化させるような編集を行い、擬似的な言語の生コーパスを作成した。これらのコーパス上で多言語モデルの学習・評価を行うことで、各言語的側面の与える影響を評価した。ここで得られた知見をもとに多言語モデルの獲得手法を構築することで、より高性能な多言語モデルの獲得が可能になると期待される。また、言語間の文法の差を吸収することで多言語モデルの性能向上を目指す研究を行った。具体的には、事前学習済みの多言語BERTモデルに、文法構造を処理する特別なモジュールを追加することで、モデルが言語依存性の低い係り受け構造を活用することを促進し、文法の差の影響を軽減する手法の開発を行った。更に、昨年度までの研究において開発した多言語モデルの性能向上手法を、機械翻訳のドメイン適応に応用する研究を行い、特に離れたドメイン間で機械翻訳モデルのドメイン適用を可能とする手法を構築した。
This research is based on the possible application of natural language processing technology and the application of natural language processing technology. In recent years, 広く has been using deep learning and statistical techniques to learn and use statistics, and the language resources are very necessary and the language resources are small and the language is applicable.そこでExisting research においては, plural language の単一のモデルでうmulti-language モデルをflexible use することで, 语The possible use of language resources and language transversal are possible, and the improvement of language processing performance is the improvement of language resources.しかし、Special linguistics にdistance のFar between words では Multilingual モデルのperformance が大きくlow することが知られている. The essence of multilingual language is that the accuracy is high, and the difference between languages ​​is that the multilingual language is low in accuracy, and the understanding is necessary.そのため、This studyでは、Grammar·Silk segmentation·Simultaneous polysemyの3つの语のlateral sideについて, The similar なコーパスを uses the しそれぞれがmulti-language モデルに and the える influence を Comment価した. Specific には、一つのEnglishの生コーパスを2つにdividedし、One side に対してspecific のlateral The surface of the face is changed, the story is edited, and the story of the similar language is made.これらのコーパス上でmulti-lingual モデルの学・综合価を行 うことで, the side の and えるimpact を価した of each language.ここで得られた知见をもとにmultilingual モデルのgetting techniqueをconstruct することで、よりHigh-performance multi-language モデルのReceived がpossibleになるとLooking forward to される.また, grammatical difference between languages ​​​​absorbs することでmulti-language モデルのperformance upward をocular finger す research を行った. Specific instructions, advance learning of the multi-lingual BERT program, grammatical structure processing program, special program, additional programs,モデルがThe language dependence is low and the system is influenced by the structure and the structure is utilized and promoted, and the grammar is affected by the difference and the technique is opened and the line is opened. Update, last year's research on the multi-language multi-language performance improvement method, mechanical translation of the new technology Use the する research を line い, the special に れたドメインでMechanical translation 訳モデルのドメイン applicable を とする technique を construction した.

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Vocabulary Adaptation for Domain Adaptation in Neural Machine Translation
  • DOI:
    10.18653/v1/2020.findings-emnlp.381
  • 发表时间:
    2020-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shoetsu Sato;Jin Sakuma;Naoki Yoshinaga;Masashi Toyoda;M. Kitsuregawa
  • 通讯作者:
    Shoetsu Sato;Jin Sakuma;Naoki Yoshinaga;Masashi Toyoda;M. Kitsuregawa
Cross-lingual transfer learning considering word order difference
考虑词序差异的跨语言迁移学习
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Haosen Zhan;Jin Sakuma;Naoki Yoshinaga;Masashi Toyoda
  • 通讯作者:
    Masashi Toyoda
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

佐久間 仁其他文献

佐久間 仁的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('佐久間 仁', 18)}}的其他基金

セロイジン包埋ヒト側頭骨標本を用いた内耳交感神経系についての免疫組織化学的観察
使用赛璐珞包埋的人颞骨标本对内耳交感神经系统进行免疫组织化学观察
  • 批准号:
    10770898
  • 财政年份:
    1998
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
チオ憐酸オリゴヌクレオチド(Sオリゴ)の角膜ヘルペスにおける抗ウィルス作用
硫醇酸寡核苷酸(Soligo)对角膜疱疹的抗病毒作用
  • 批准号:
    04771373
  • 财政年份:
    1992
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Computational approach to security dilemma: understanding state rivalry through multilingual longitudinal analysis of foreign news
解决安全困境的计算方法:通过外国新闻的多语言纵向分析来理解国家竞争
  • 批准号:
    23K25490
  • 财政年份:
    2024
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
ELOQUENCE - Multilingual and Cross-cultural interactions for context-aware, and bias-controlled dialogue systems for safety-critical applications
ELOQUENCE - 用于安全关键应用的上下文感知和偏差控制对话系统的多语言和跨文化交互
  • 批准号:
    10092660
  • 财政年份:
    2024
  • 资助金额:
    $ 1.34万
  • 项目类别:
    EU-Funded
Preparing Science Teachers To Engage Multilingual Learners in Scientific Argumentation Through Mixed-Reality Simulations
让科学教师做好准备,通过混合现实模拟让多语言学习者参与科学论证
  • 批准号:
    2321205
  • 财政年份:
    2024
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Standard Grant
The role of English in multilingual online transgender communities
英语在多语言在线变性人社区中的作用
  • 批准号:
    2873142
  • 财政年份:
    2023
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Studentship
The polyglot writer: what multilingual texts reveal about writers' emotional attachment to the languages they speak
多语言作家:多语言文本揭示了作家对其所讲语言的情感依恋
  • 批准号:
    2887779
  • 财政年份:
    2023
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Studentship
Expanding sixth-grade youth's understanding of engineering through critical multilingual journalism
通过批判性的多语言新闻扩大六年级青少年对工程的理解
  • 批准号:
    2300726
  • 财政年份:
    2023
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Continuing Grant
Unifying Pre-training and Multilingual Semantic Representation Learning for Low-resource Neural Machine Translation
统一预训练和多语言语义表示学习以实现低资源神经机器翻译
  • 批准号:
    22KJ1843
  • 财政年份:
    2023
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Expanding Access to Care for Marginalized Caregivers through Innovative Methods for Multicultural and Multilingual Adaptation of AI-Based Health Technologies
通过基于人工智能的医疗技术的多文化和多语言适应创新方法,扩大边缘化护理人员获得护理的机会
  • 批准号:
    10741177
  • 财政年份:
    2023
  • 资助金额:
    $ 1.34万
  • 项目类别:
Multilingual corpus construction and domain adaptation for low-resource machine translation
低资源机器翻译的多语言语料库构建和领域适应
  • 批准号:
    22KJ1724
  • 财政年份:
    2023
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Research on multilingual data integration for digital archives of Japanese culture
日本文化数字档案多语言数据集成研究
  • 批准号:
    23K11780
  • 财政年份:
    2023
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了