複数センサの融合による発声動作からの発話内容の推定と発声補助デバイスへの応用
通过融合多个传感器并应用于语音辅助设备来估计声音运动的语音内容
基本信息
- 批准号:21K11941
- 负责人:
- 金额:$ 2.58万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では、音声を発することなく口の動きをもとに発話内容を推定する技術(以降、無発声音声認識)について検討する。本研究では、声帯を除去するなど発声が困難となった人の発話を補助することや、既存の音声認識を補助することを目的としている。令和3年度には、正面以外の様々な方向を向いた状態での無発声音声認識や複数のセンサーを利用した無発声音声認識を実現する手法を検討した。そして、令和4年度は、「無発声音声認識を実用的なものとするために、文章での認識の可能性について検討すること」を目的として研究を行った。令和3年度に構築した無発声音声認識システムは単語単位での認識であったため、令和4年度は連続音声認識でも用いられている深層ニューラルネットワークを導入し、音素単位での無発声音声認識の性能を明らかにする。令和4年度の成果は以下の通りである。連続音声認識でも用いられている深層ニューラルネットワークとしてDeepSpeech2を採用した。ただし、無発声音声認識に適用するにあたり、層の数を追加・削除することでより認識精度の高いネットワークを検討した。さらに、深層ニューラルネットワークの学習及び認識精度の評価に用いる話者数を増やし、学習データの話者と評価データの話者が異なる条件での評価も行った。その結果、未知の話者であっても約30%の誤差率が実現できた。ただし、認識結果の詳細を確認したところ、単語ごとに認識率に偏りがあったため、学習に用いた音素に偏りがあると考えられる。
在这项研究中,我们将研究一项技术,该技术在不发出语音的情况下根据口腔运动估算语音的内容(以下称为非言语语音识别)。这项研究旨在帮助遇到困难的人,例如删除声带,并协助现有的语音识别。在2021财政年度,我们研究了在面对前面以外的各个方向以及使用多个传感器的非声音识别的方法时,我们研究了实现非声音识别的方法。在2022年,进行了研究,目的是“检查文本中识别的可能性,以使无声的语音识别实用”。逐字化建立了建立在2021年的非声音识别系统,因此在2022年,引入了深层神经网络,也用于连续的语音识别,以阐明以音素为基础的非综合语音识别的性能。 2022财政年度的结果如下。 DeepSpeech2被用作深神网络,也用于连续的语音识别。但是,将其应用于非声音语音识别时,我们通过添加和删除层数来研究一个具有更高识别精度的网络。此外,增加了用于评估深神经网络学习和识别准确性的说话者的数量增加了,并且在不同条件下对学习数据和评估数据的说话者进行了评估。结果,即使对于未知的说话者,也达到了约30%的错误率。但是,当我们检查识别结果的细节时,我们发现每个单词的识别率都存在偏见,因此人们认为使用用于学习的音素存在偏见。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
機械読唇における三次元モデルを用いたデータ拡張が認識精度に与える影響
使用 3D 模型进行数据增强对机器唇读识别精度的影响
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:木村一馬;大田健紘
- 通讯作者:大田健紘
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
大田 健紘其他文献
大田 健紘的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似国自然基金
人类语言学习的神经机制:婴儿音素学习关键期的脑功能影像追踪研究
- 批准号:32100867
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
汉语神经分析系统模型与行为研究
- 批准号:61373065
- 批准年份:2013
- 资助金额:76.0 万元
- 项目类别:面上项目
具有多音素过渡与韵律特征的电子喉元音/辅音异位等效嗓音源合成理论方法与应用实验研究
- 批准号:11274250
- 批准年份:2012
- 资助金额:85.0 万元
- 项目类别:面上项目
藏语音素拼读法文语转换技术研究
- 批准号:61262051
- 批准年份:2012
- 资助金额:45.0 万元
- 项目类别:地区科学基金项目
发音错误自动检测方法的研究及其在语言学习中的应用
- 批准号:60772165
- 批准年份:2007
- 资助金额:25.0 万元
- 项目类别:面上项目
相似海外基金
音響信号の振幅位相関係を考慮した複素スペクトル領域音声強調と応用
考虑声信号幅相关系的复谱域语音增强及其应用
- 批准号:
20K19827 - 财政年份:2020
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
将来型宇宙輸送に向けた革新的スクラムジェットの熱空力解析と統合最適化
用于未来太空运输的创新超燃冲压发动机的热空气动力学分析和集成优化
- 批准号:
17K20144 - 财政年份:2019
- 资助金额:
$ 2.58万 - 项目类别:
Fund for the Promotion of Joint International Research (Home-Returning Researcher Development Research)
Automatic acquisition of optimized acoustic model unit for automatic speech recognition using deep learning
使用深度学习自动获取用于自动语音识别的优化声学模型单元
- 批准号:
19K12027 - 财政年份:2019
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of a completely non-invasive real-time imaging blood flow measuring device capable of various measurements
开发可进行多种测量的完全无创实时成像血流测量装置
- 批准号:
19K12855 - 财政年份:2019
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of L2 speech training infrastructure for objective measurement of speech comprehensibility based on native speakers' shadowing
开发 L2 语音训练基础设施,用于基于母语者的影子客观测量语音可理解性
- 批准号:
18H04107 - 财政年份:2018
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (A)