Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors

开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因

基本信息

  • 批准号:
    22K12084
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

音声認識技術が広く一般に普及してきたが,見守りロボットの対象となっている超高齢者に対しては認識精度が非常に悪く,精度改善が課題となっている。最近の高精度音声認識技術は,入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが,E2E音声認識で用いられるNNは非常に巨大で,大量の学習用音声データが必要となる。しかし,大量の超高齢者音声を収集することは非常に困難であり,従来法のように少量データから推定した超高齢者音声の特徴を直接モデルに反映できる手法が望まれるが,E2E音声認識手法はそのような変更が容易でない。そこで,E2E音声認識におけるNNの入力層付近(特徴抽出)と出力層付近(出力ラベル)を分けることで,従来の音声認識研究の知見を包含したE2E音声認識技術を開発することが本研究の目的である。2022年度の研究では,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。山本は超高齢者の少量の学習データにより安定的に話者適応化することで,超高齢者音声認識性能を向上させる研究を行った。これまでは入力層であるガンマトーンフィルタバンクのパラメータだけで話者適応化を行っていたが,入力層だけでなく,周辺のパラメータを同時に話者適応化することで,学習データが少量の場合でも安定的に話者適応化が行えるようになった。西崎は,日本語wav2vec 2.0をベースに音素(単位)モデルを訓練する際に,異なる音素同士をより識別するための距離学習を導入する方法を開発した。複数言語音声でモデルを検証したところ,高い音素識別性能を持つモデルが訓練できることが分かった。
语音识别技术已经广泛流行,但是对于超级善良的人来说,识别精度极为差,监控机器人的目标和提高准确性是一个挑战。最近的高精度语音识别技术已成为“端到端(E2E)语音识别”方法的主流,该方法直接生成由神经网络(NN)引起的输入特征引起的角色字符串,但是E2E语音识别中使用的NN非常庞大,需要大量学习的语音数据。但是,很难收集大量的超级言语,尽管像常规方法可以直接反映从模型中少量数据估算的超埃尔德语音的特征,但值得注意的是,E2E语音识别方法的这种变化并不容易。因此,这项研究的目的是开发E2E语音识别技术,其中包括通过E2E语音识别中NN的近输入层(特征提取)和NN的近输出层(输出标签)进行分开的传统语音识别研究知识。在2022年的研究中,主要研究人员山本对NNS输入层附近的错误解释进行了研究,而研究人员Nishizaki进行了研究,研究了在输出层附近使错误解释成为可能的研究。 Yamamoto进行了研究,以通过稳定地适应扬声器的少量学习数据,从而提高超级居住者的语音识别表现。到目前为止,仅使用伽马音过滤器库的参数(即输入层)进行调整,而是通过同时调整输入层,而且还适应周围的参数,即使有少量的学习数据也可以稳定地进行扬声器适应。 Nishizaki开发了一种介绍远程学习的方法,以更好地识别基于日本WAV2VEC 2.0的音素(单元)模型时,可以更好地识别不同的音素。当我们使用多种语言语音验证模型时,发现具有高音素识别性能的模型可以训练。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 一公其他文献

超高齢者音声コーパスEARSの構築と音声認識へ利用の予備的検討
高龄语音语料库EARS的构建及其用于语音识别的初步研究
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福田 芽衣子;入部 百合絵;西崎 博光;山本 一公;西村 良太;北岡 教英
  • 通讯作者:
    北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲
  • 通讯作者:
    中村 哲

山本 一公的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 一公', 18)}}的其他基金

話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発
开发对语速波动具有鲁棒性的声学模型,用于口语语音识别
  • 批准号:
    16700171
  • 财政年份:
    2004
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
  • 批准号:
    13780274
  • 财政年份:
    2001
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似国自然基金

卫星互联网端到端安全传输模型与安全路由协议研究
  • 批准号:
    62302389
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向多模态的端到端的无偏关系检测算法研究
  • 批准号:
    62306064
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于可变焦超透镜的端到端计算内窥成像技术
  • 批准号:
    62305092
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于时空注意力的端到端点云目标跟踪方法研究
  • 批准号:
    62306049
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
端到端优化的智能视频编解码关键技术
  • 批准号:
    62371008
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

Error Detection of Utterances for Non-native Speakers Using Deep Anomaly Detection Technology
使用深度异常检测技术对非母语人士的话语进行错误检测
  • 批准号:
    23K11238
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
実用性の高いEnd-to-End音声認識に向けた研究
高实用性端到端语音识别研究
  • 批准号:
    22KJ2898
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
End-to-End Model for Task-Independent Speech Understanding and Dialogue
与任务无关的语音理解和对话的端到端模型
  • 批准号:
    20H00602
  • 财政年份:
    2020
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Evaluation of human motor performance based on arm dynamics
基于手臂动力学的人体运动性能评估
  • 批准号:
    20K23279
  • 财政年份:
    2020
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
End-to-End音声合成とEnd-to-End音声認識の統合システム
端到端语音合成和端到端语音识别集成系统
  • 批准号:
    19J21031
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了