Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
基本信息
- 批准号:22K12084
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
音声認識技術が広く一般に普及してきたが,見守りロボットの対象となっている超高齢者に対しては認識精度が非常に悪く,精度改善が課題となっている。最近の高精度音声認識技術は,入力特徴に対してニューラルネットワーク(NN) で直接認識結果文字列を生成する「End-to-End(E2E)音声認識」方式が主流となってきているが,E2E音声認識で用いられるNNは非常に巨大で,大量の学習用音声データが必要となる。しかし,大量の超高齢者音声を収集することは非常に困難であり,従来法のように少量データから推定した超高齢者音声の特徴を直接モデルに反映できる手法が望まれるが,E2E音声認識手法はそのような変更が容易でない。そこで,E2E音声認識におけるNNの入力層付近(特徴抽出)と出力層付近(出力ラベル)を分けることで,従来の音声認識研究の知見を包含したE2E音声認識技術を開発することが本研究の目的である。2022年度の研究では,研究代表者である山本がNNの入力層付近での誤り説明可能化に関する研究を,研究分担者である西崎が出力層付近での誤り説明可能化に関する研究を行った。山本は超高齢者の少量の学習データにより安定的に話者適応化することで,超高齢者音声認識性能を向上させる研究を行った。これまでは入力層であるガンマトーンフィルタバンクのパラメータだけで話者適応化を行っていたが,入力層だけでなく,周辺のパラメータを同時に話者適応化することで,学習データが少量の場合でも安定的に話者適応化が行えるようになった。西崎は,日本語wav2vec 2.0をベースに音素(単位)モデルを訓練する際に,異なる音素同士をより識別するための距離学習を導入する方法を開発した。複数言語音声でモデルを検証したところ,高い音素識別性能を持つモデルが訓練できることが分かった。
Audio, intellectual and technical schools are generally popularized, and those who are super-high-level are very sensitive to the accuracy of knowledge, and the accuracy of the problem is improved. Recently, in the field of high-precision audio technology, the use of high-precision audio technology has led to the direct production of "End-to-End (E2E) sound knowledge" in the text series. "End-to-End (E2E) sound knowledge" is very popular. The use of audio technology in E2E is very expensive, and a large number of students need to learn to use sound. The sound of a large number of ultra-high-pitched voices is very difficult to understand, and it is easier to detect a small number of people who are presumed to be super-high-pitched, and to reflect the direct reflection of their voice. In recent years, E2E acoustics, NN, knowledge, technology, technology, knowledge, technology, etc. In the study of 2022, the representative of the research, Yamamoto NN, paid close attention to the research, and the research contributor, Nishizaki, contributed to the research. A small number of Yamamoto super-high-level people learn to learn from stable ones, while those who are super-high-level have an upward study of their voice performance. Do not pay any attention to the number of people who do not care about it. They do not know how to do it. At the same time, they do not know what to do at the same time. They should learn to use a small number of people who are safe and stable to help them. Nishizaki Nishizaki, Japan, wav2vec 2.0. The phonemes (bits) are different from each other in the same way. The number of words, sounds, sounds, sounds and sounds.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 一公其他文献
超高齢者音声コーパスEARSの構築と音声認識へ利用の予備的検討
高龄语音语料库EARS的构建及其用于语音识别的初步研究
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
福田 芽衣子;入部 百合絵;西崎 博光;山本 一公;西村 良太;北岡 教英 - 通讯作者:
北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲 - 通讯作者:
中村 哲
山本 一公的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 一公', 18)}}的其他基金
話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発
开发对语速波动具有鲁棒性的声学模型,用于口语语音识别
- 批准号:
16700171 - 财政年份:2004
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
- 批准号:
13780274 - 财政年份:2001
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
実用性の高いEnd-to-End音声認識に向けた研究
高实用性端到端语音识别研究
- 批准号:
22KJ2898 - 财政年份:2023
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows
End-to-End音声合成とEnd-to-End音声認識の統合システム
端到端语音合成和端到端语音识别集成系统
- 批准号:
19J21031 - 财政年份:2019
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows