品質推定に基づく半教師あり機械翻訳

基于质量估计的半监督机器翻译

基本信息

批准号：
20K19861
负责人：
梶原智之
金额：
$ 2.58万
依托单位：
Ehime University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Early-Career Scientists
财政年份：
2020
资助国家：
日本
起止时间：
2020-04-01 至 2024-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-20K19861/
关键词：
機械翻訳品質推定強化学習自然言語処理知能情報学

项目摘要

本研究では、自然言語処理モデルによる出力文を正解文なしで自動評価する品質推定に取り組み、これを活用して半教師ありの設定で機械翻訳をはじめとするテキスト生成モデルを訓練する。今年度は、品質推定の研究に取り組むとともに、品質推定などの評価の技術を機械翻訳の訓練に活用するための強化学習の研究にも取り組んだ。(i) Encoderモデルに基づく機械翻訳の品質推定：複数言語のデータを用いて単語穴埋めの事前学習を行ったマスク言語モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、マスク言語モデルから得られる文ベクトルを、言語情報を表す言語ベクトルと意味情報を表す意味ベクトルに分離した。特に、言語情報と意味情報の分離を促すために、敵対的学習を行い、意味ベクトルから入力言語を判別できないように工夫した。この意味ベクトルを用いて、入力文と出力文の間の意味的類似度推定を行うことで、正解文や人手評価値を使用しない教師なし設定での品質推定を実現した。実験の結果、Encoderモデルに基づく機械翻訳の教師なし品質推定において、最高性能を達成した。(ii) Encoder-Decoderモデルに基づく機械翻訳の品質推定：複数言語のデータを用いて単語穴埋めの事前学習を行った系列変換モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、入力文から出力文を生成する際の文生成確率に基づき、正解文や人手評価値を使用しない教師なし設定での品質推定を実現した。実験の結果、特に多資源言語対において、Encoderモデルに基づく品質推定の性能を上回ることを確認した。(iii) 機械翻訳のための強化学習：様々な評価指標を報酬として機械翻訳の強化学習を行った。実験の結果、マスク言語モデルに基づく評価指標を報酬とすることで、機械翻訳の品質を改善できることを確認した。

在这项研究中，我们将研究质量估计，该质量估计会使用自然语言处理模型自动评估输出句子，而无需正确的答案，并使用它来训练文本生成模型，例如半监督的设置中的机器翻译。今年，我们还研究了质量估计的研究，以及有关强化学习的研究，以利用评估技术，例如机器翻译培训中的质量估计。（i）基于编码器模型的机器翻译质量估计：基于戴着掩盖的语言模型，该模型已鉴定为使用来自多种语言的数据填充单词差距，我们构建了跨语言的语义语义相似性估计模型。在提出的方法中，从蒙版语言模型获得的句子向量分为表示语言信息和代表语义信息的语义向量的语言向量。特别是，为了鼓励语言信息和语义信息分开，进行了敌对的学习，并且不能将输入语言与语义向量区分开。通过使用此语义向量，估算了输入和输出句子之间的语义相似性，并且在不使用正确的答案语句或手动评估值的情况下，在无监督的设置中实现了质量估计。基于编码器模型的机器翻译质量估计，实验在无监督的质量估计中取得了最高的性能。（ii）基于编码器模型的机器翻译质量估计：基于鉴定用于使用多种语言数据填充单词空白的串联转换模型，我们构建了一个跨语言的互相语义相似性估计模型。所提出的方法通过无监督的设置来实现质量估计，该设置基于句子的产生概率在从输入语句中生成输出语句时，该设置不使用正确的答案语句或手动评估值。实验结果证实，基于编码器模型的质量估计的性能优于多资源语言对的性能。（iii）用于机器翻译的增强学习：使用各种评估指标作为奖励进行了机器翻译加固学习。该实验证实，可以通过使用掩盖语言模型的评估指标作为奖励来提高机器翻译质量。