品質推定に基づく半教師あり機械翻訳

基于质量估计的半监督机器翻译

基本信息

  • 批准号:
    20K19861
  • 负责人:
  • 金额:
    $ 2.58万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本研究では、自然言語処理モデルによる出力文を正解文なしで自動評価する品質推定に取り組み、これを活用して半教師ありの設定で機械翻訳をはじめとするテキスト生成モデルを訓練する。今年度は、品質推定の研究に取り組むとともに、品質推定などの評価の技術を機械翻訳の訓練に活用するための強化学習の研究にも取り組んだ。(i) Encoderモデルに基づく機械翻訳の品質推定:複数言語のデータを用いて単語穴埋めの事前学習を行ったマスク言語モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、マスク言語モデルから得られる文ベクトルを、言語情報を表す言語ベクトルと意味情報を表す意味ベクトルに分離した。特に、言語情報と意味情報の分離を促すために、敵対的学習を行い、意味ベクトルから入力言語を判別できないように工夫した。この意味ベクトルを用いて、入力文と出力文の間の意味的類似度推定を行うことで、正解文や人手評価値を使用しない教師なし設定での品質推定を実現した。実験の結果、Encoderモデルに基づく機械翻訳の教師なし品質推定において、最高性能を達成した。(ii) Encoder-Decoderモデルに基づく機械翻訳の品質推定:複数言語のデータを用いて単語穴埋めの事前学習を行った系列変換モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、入力文から出力文を生成する際の文生成確率に基づき、正解文や人手評価値を使用しない教師なし設定での品質推定を実現した。実験の結果、特に多資源言語対において、Encoderモデルに基づく品質推定の性能を上回ることを確認した。(iii) 機械翻訳のための強化学習:様々な評価指標を報酬として機械翻訳の強化学習を行った。実験の結果、マスク言語モデルに基づく評価指標を報酬とすることで、機械翻訳の品質を改善できることを確認した。
在这项研究中,我们将研究质量估计,该质量估计会使用自然语言处理模型自动评估输出句子,而无需正确的答案,并使用它来训练文本生成模型,例如半监督的设置中的机器翻译。今年,我们还研究了质量估计的研究,以及有关强化学习的研究,以利用评估技术,例如机器翻译培训中的质量估计。 (i)基于编码器模型的机器翻译质量估计:基于戴着掩盖的语言模型,该模型已鉴定为使用来自多种语言的数据填充单词差距,我们构建了跨语言的语义语义相似性估计模型。在提出的方法中,从蒙版语言模型获得的句子向量分为表示语言信息和代表语义信息的语义向量的语言向量。特别是,为了鼓励语言信息和语义信息分开,进行了敌对的学习,并且不能将输入语言与语义向量区分开。通过使用此语义向量,估算了输入和输出句子之间的语义相似性,并且在不使用正确的答案语句或手动评估值的情况下,在无监督的设置中实现了质量估计。基于编码器模型的机器翻译质量估计,实验在无监督的质量估计中取得了最高的性能。 (ii)基于编码器模型的机器翻译质量估计:基于鉴定用于使用多种语言数据填充单词空白的串联转换模型,我们构建了一个跨语言的互相语义相似性估计模型。所提出的方法通过无监督的设置来实现质量估计,该设置基于句子的产生概率在从输入语句中生成输出语句时,该设置不使用正确的答案语句或手动评估值。实验结果证实,基于编码器模型的质量估计的性能优于多资源语言对的性能。 (iii)用于机器翻译的增强学习:使用各种评估指标作为奖励进行了机器翻译加固学习。该实验证实,可以通过使用掩盖语言模型的评估指标作为奖励来提高机器翻译质量。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
TMUOU Submission for WMT20 Quality Estimation Shared Task
TMUOU 提交 WMT20 质量评估共享任务
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Akifumi Nakamachi;Hiroki Shimanaka;Tomoyuki Kajiwara;Mamoru Komachi
  • 通讯作者:
    Mamoru Komachi
Unsupervised Quality Estimation via Multilingual Denoising Autoencoder
通过多语言去噪自动编码器进行无监督质量估计
  • DOI:
    10.5715/jnlp.29.669
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西原哲郎;岩本裕司;吉仲真人;梶原智之;荒瀬由紀;二宮崇
  • 通讯作者:
    二宮崇
SOME: Reference-less Sub-Metrics Optimized for Manual Evaluations of Grammatical Error Correction
一些:针对语法错误纠正的手动评估而优化的无参考子指标
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ryoma Yoshimura;Masahiro Kaneko;Tomoyuki Kajiwara;Mamoru Komachi
  • 通讯作者:
    Mamoru Komachi
Adversarial Training on Disentangling Meaning and Language Representations for Unsupervised Quality Estimation
用于无监督质量估计的解开意义和语言表示的对抗性训练
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yuto Kuroda;Tomoyuki Kajiwara;Yuki Arase;Takashi Ninomiya
  • 通讯作者:
    Takashi Ninomiya
Text Simplification with Reinforcement Learning using Supervised Rewards on Grammaticality, Meaning Preservation, and Simplicity
使用语法性、意义保存和简单性方面的监督奖励通过强化学习来简化文本
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Akifumi Nakamachi;Tomoyuki Kajiwara;Yuki Arase
  • 通讯作者:
    Yuki Arase
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

梶原 智之其他文献

Imaging chorioretinal microcirculation using adaptive optics and OCT angiography
使用自适应光学和 OCT 血管造影对脉络膜视网膜微循环进行成像
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chenhui Chu;梶原 智之;中島 悠太;長原 一;渡辺 理和;大久保 規子;宇治彰人
  • 通讯作者:
    宇治彰人
集史に現れる「ブルカン・カルドゥン」と「ブダ・オンドル」について
关于史书中出现的“布尔坎合勒敦”和“布达暖炕”
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤川 隆男;Chenhui Chu;長原 一;梶原 智之;小野浩
  • 通讯作者:
    小野浩
Hie-BART: Abstractive Summarization by Hierarchical BART
Hie-BART:分层 BART 的抽象概括
  • DOI:
    10.5715/jnlp.29.835
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    秋山 和輝;田村 晃裕;二宮 崇;梶原 智之
  • 通讯作者:
    梶原 智之
異なる難易度の参照文を用いる多段階難易度制御翻訳
使用不同难度级别的参考句进行多级难度控制翻译
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    谷 和樹;湯浅 亮也;田村 晃裕;梶原 智之;二宮 崇;加藤 恒夫
  • 通讯作者:
    加藤 恒夫
歴史研究におけるビッグデータの活用
大数据在历史研究中的运用
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤川 隆男;Chenhui Chu;長原 一;梶原 智之
  • 通讯作者:
    梶原 智之

梶原 智之的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('梶原 智之', 18)}}的其他基金

スタイル制御を伴う複合的なテキスト生成
具有样式控制的复杂文本生成
  • 批准号:
    24K20840
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists

相似海外基金

深層学習による言語生成の評価データセットの構築と品質推定
使用深度学习构建评估数据集和语言生成质量评估
  • 批准号:
    23K24907
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
既存住宅の維持管理の状態を考慮した資産価値評価手法の開発
开发考虑现有住房维护状况的资产价值评估方法
  • 批准号:
    22K01480
  • 财政年份:
    2022
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Construction of an Evaluation Dataset and Quality Estimation for Neural Language Generation
神经语言生成评估数据集的构建和质量评估
  • 批准号:
    22H03651
  • 财政年份:
    2022
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
溶接モニタリングと深層学習の融合による溶接品質その場推定と判断根拠の可視化
焊接监控与深度学习相结合的现场焊接质量评估及判断依据可视化
  • 批准号:
    21K03806
  • 财政年份:
    2021
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Innovative human "emotion / preference / satisfaction" estimation system realized by wearable devices
可穿戴设备实现的创新人类“情感/偏好/满意度”评估系统
  • 批准号:
    21K11902
  • 财政年份:
    2021
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了