複数センサの融合による発声動作からの発話内容の推定と発声補助デバイスへの応用

通过融合多个传感器并应用于语音辅助设备来估计声音运动的语音内容

基本信息

批准号：
21K11941
负责人：
大田健紘
金额：
$ 2.58万
依托单位：
Nippon Institute of Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2021
资助国家：
日本
起止时间：
2021-04-01 至 2024-03-31
项目状态：
已结题

项目摘要

本研究では、音声を発することなく口の動きをもとに発話内容を推定する技術（以降、無発声音声認識）について検討する。本研究では、声帯を除去するなど発声が困難となった人の発話を補助することや、既存の音声認識を補助することを目的としている。令和３年度には、正面以外の様々な方向を向いた状態での無発声音声認識や複数のセンサーを利用した無発声音声認識を実現する手法を検討した。そして、令和4年度は、「無発声音声認識を実用的なものとするために、文章での認識の可能性について検討すること」を目的として研究を行った。令和３年度に構築した無発声音声認識システムは単語単位での認識であったため、令和４年度は連続音声認識でも用いられている深層ニューラルネットワークを導入し、音素単位での無発声音声認識の性能を明らかにする。令和４年度の成果は以下の通りである。連続音声認識でも用いられている深層ニューラルネットワークとしてDeepSpeech2を採用した。ただし、無発声音声認識に適用するにあたり、層の数を追加・削除することでより認識精度の高いネットワークを検討した。さらに、深層ニューラルネットワークの学習及び認識精度の評価に用いる話者数を増やし、学習データの話者と評価データの話者が異なる条件での評価も行った。その結果、未知の話者であっても約30%の誤差率が実現できた。ただし、認識結果の詳細を確認したところ、単語ごとに認識率に偏りがあったため、学習に用いた音素に偏りがあると考えられる。

在这项研究中，我们将研究一项技术，该技术在不发出语音的情况下根据口腔运动估算语音的内容（以下称为非言语语音识别）。这项研究旨在帮助遇到困难的人，例如删除声带，并协助现有的语音识别。在2021财政年度，我们研究了在面对前面以外的各个方向以及使用多个传感器的非声音识别的方法时，我们研究了实现非声音识别的方法。在2022年，进行了研究，目的是“检查文本中识别的可能性，以使无声的语音识别实用”。逐字化建立了建立在2021年的非声音识别系统，因此在2022年，引入了深层神经网络，也用于连续的语音识别，以阐明以音素为基础的非综合语音识别的性能。 2022财政年度的结果如下。 DeepSpeech2被用作深神网络，也用于连续的语音识别。但是，将其应用于非声音语音识别时，我们通过添加和删除层数来研究一个具有更高识别精度的网络。此外，增加了用于评估深神经网络学习和识别准确性的说话者的数量增加了，并且在不同条件下对学习数据和评估数据的说话者进行了评估。结果，即使对于未知的说话者，也达到了约30％的错误率。但是，当我们检查识别结果的细节时，我们发现每个单词的识别率都存在偏见，因此人们认为使用用于学习的音素存在偏见。