Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors

开发针对高龄老人的端到端语音识别技术，可处理识别错误的原因

基本信息

批准号：
22K12084
负责人：
山本一公
金额：
$ 2.66万
依托单位：
Chubu University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2025-03-31
项目状态：
未结题

项目摘要

音声認識技術が広く一般に普及してきたが，見守りロボットの対象となっている超高齢者に対しては認識精度が非常に悪く，精度改善が課題となっている。最近の高精度音声認識技術は，入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが，E2E音声認識で用いられるNNは非常に巨大で，大量の学習用音声データが必要となる。しかし，大量の超高齢者音声を収集することは非常に困難であり，従来法のように少量データから推定した超高齢者音声の特徴を直接モデルに反映できる手法が望まれるが，E2E音声認識手法はそのような変更が容易でない。そこで，E2E音声認識におけるNNの入力層付近（特徴抽出）と出力層付近（出力ラベル）を分けることで，従来の音声認識研究の知見を包含したE2E音声認識技術を開発することが本研究の目的である。2022年度の研究では，研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を，研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。山本は超高齢者の少量の学習データにより安定的に話者適応化することで，超高齢者音声認識性能を向上させる研究を行った。これまでは入力層であるガンマトーンフィルタバンクのパラメータだけで話者適応化を行っていたが，入力層だけでなく，周辺のパラメータを同時に話者適応化することで，学習データが少量の場合でも安定的に話者適応化が行えるようになった。西崎は，日本語wav2vec 2.0をベースに音素（単位）モデルを訓練する際に，異なる音素同士をより識別するための距離学習を導入する方法を開発した。複数言語音声でモデルを検証したところ，高い音素識別性能を持つモデルが訓練できることが分かった。

语音识别技术已经广泛流行，但是对于超级善良的人来说，识别精度极为差，监控机器人的目标和提高准确性是一个挑战。最近的高精度语音识别技术已成为“端到端（E2E）语音识别”方法的主流，该方法直接生成由神经网络（NN）引起的输入特征引起的角色字符串，但是E2E语音识别中使用的NN非常庞大，需要大量学习的语音数据。但是，很难收集大量的超级言语，尽管像常规方法可以直接反映从模型中少量数据估算的超埃尔德语音的特征，但值得注意的是，E2E语音识别方法的这种变化并不容易。因此，这项研究的目的是开发E2E语音识别技术，其中包括通过E2E语音识别中NN的近输入层（特征提取）和NN的近输出层（输出标签）进行分开的传统语音识别研究知识。在2022年的研究中，主要研究人员山本对NNS输入层附近的错误解释进行了研究，而研究人员Nishizaki进行了研究，研究了在输出层附近使错误解释成为可能的研究。 Yamamoto进行了研究，以通过稳定地适应扬声器的少量学习数据，从而提高超级居住者的语音识别表现。到目前为止，仅使用伽马音过滤器库的参数（即输入层）进行调整，而是通过同时调整输入层，而且还适应周围的参数，即使有少量的学习数据也可以稳定地进行扬声器适应。 Nishizaki开发了一种介绍远程学习的方法，以更好地识别基于日本WAV2VEC 2.0的音素（单元）模型时，可以更好地识别不同的音素。当我们使用多种语言语音验证模型时，发现具有高音素识别性能的模型可以训练。