実用性の高いEnd-to-End音声認識に向けた研究
高实用性端到端语音识别研究
基本信息
- 批准号:22KJ2898
- 负责人:
- 金额:$ 1.41万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2023
- 资助国家:日本
- 起止时间:2023-03-08 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
音声を使ったインターフェースの実用性を向上させるために、高速で高精度な音声認識技術の開発を進めている。これまでの研究では、マスク言語モデルに基づいた非自己回帰型のEnd-to-End音声認識モデルを構築し、従来モデルと遜色ない認識精度を実現しつつ、推論速度を大幅に高速化できることを示してきた。本年度は、提案モデルに大規模汎用言語モデルを取り入れることで、認識精度をさらに向上できることを明らかにした。また、提案モデルのストリーミング音声認識における有効性を確認した。音声認識において正確な文を生成するには、単語間の依存関係を捉えることが重要となるが、これを音声情報のみから抽出するのは容易でない。これに対し、大規模言語モデルであるBERTから得られる汎用的な言語知識を、音声処理の過程に組み込むことで、出力の文脈情報を効果的に捉えられる音声認識手法を考案した。様々な言語や発話スタイル、学習データ量を用いた音声認識実験において提案手法を評価した結果、従来モデルよりもも高い認識精度が得られることを確認した。また、これまでに開発した推論アルゴリズムと組み合わせることで、認識速度を大幅に高速化できることも明らかとなった。当該成果は、自然言語処理の主要会議であるEmpirical Methods inNatural Language Processing (EMNLP 2022)のFindings、および音声処理の主要会議であるIEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)などに採択された。
The development of sound recognition technology with high speed and high precision This research shows that the speed of inference is greatly increased due to the fact that the speech recognition is based on the End-to-End sound recognition of the non-self-return type. This year's proposal is for large-scale universal speech acquisition, recognition accuracy, and transparency. To confirm the validity of the proposal Sound recognition is the key to correct text generation and easy to extract sound information. For example, large-scale speech recognition techniques are used in speech knowledge and sound processing. The results of the evaluation of the proposed method of speech recognition, the accuracy of speech recognition, and the accuracy of speech recognition are confirmed. The speed of cognition has been greatly accelerated. This work was presented at the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023).
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
End-to-End音声認識のための粒度の異なるサブワード単位に基づく階層的な条件づけ
基于不同粒度子字单元的分层调节端到端语音识别
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Hiroki Kato;Itsuki Musha;Masaaki Komatsuda;Kei Muto;Junichiro Yamaguchi;下田千華;下田千華;Yifan Peng;Brian Yan;Yosuke Higuchi;Yosuke Higuchi;Yosuke Higuchi;Yosuke Higuchi;Keqi Deng;Masao Someki;Yosuke Higuchi;趙懐博;Keqi Deng;樋口陽祐;樋口陽祐;Yosuke Higuchi;Hirofumi Inaguma;Pengcheng Guo;Shinji Watanabe;Yosuke Higuchi;Huaibo Zhao;Yosuke Higuchi;チョウカイハク;樋口陽祐
- 通讯作者:樋口陽祐
A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text Generation
- DOI:10.1109/asru51503.2021.9688157
- 发表时间:2021-10
- 期刊:
- 影响因子:0
- 作者:Yosuke Higuchi;Nanxin Chen;Yuya Fujita;H. Inaguma;Tatsuya Komatsu;Jaesong Lee;Jumon Nozaki;Tianzi W
- 通讯作者:Yosuke Higuchi;Nanxin Chen;Yuya Fujita;H. Inaguma;Tatsuya Komatsu;Jaesong Lee;Jumon Nozaki;Tianzi W
Improving Non-Autoregressive End-to-End Speech Recognition with Pre-Trained Acoustic and Language Models
- DOI:10.1109/icassp43922.2022.9746316
- 发表时间:2022-01
- 期刊:
- 影响因子:0
- 作者:Keqi Deng;Zehui Yang;Shinji Watanabe;Yosuke Higuchi;Gaofeng Cheng;Pengyuan Zhang
- 通讯作者:Keqi Deng;Zehui Yang;Shinji Watanabe;Yosuke Higuchi;Gaofeng Cheng;Pengyuan Zhang
A Study on the Integration of Pre-Trained SSL, ASR, LM and SLU Models for Spoken Language Understanding
口语理解中预训练 SSL、ASR、LM 和 SLU 模型集成的研究
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Hiroki Kato;Itsuki Musha;Masaaki Komatsuda;Kei Muto;Junichiro Yamaguchi;下田千華;下田千華;Yifan Peng
- 通讯作者:Yifan Peng
The 2020 ESPnet Update: New Features, Broadened Applications, Performance Improvements, and Future Plans
- DOI:10.1109/dslw51110.2021.9523402
- 发表时间:2020-12
- 期刊:
- 影响因子:0
- 作者:Shinji Watanabe;Florian Boyer;Xuankai Chang;Pengcheng Guo;Tomoki Hayashi;Yosuke Higuchi;Takaaki Hori;Wen-Chin Huang;H. Inaguma;Naoyuki Kamo;Shigeki Karita;Chenda Li;Jing Shi;A. Subramanian;Wangyou Zhang
- 通讯作者:Shinji Watanabe;Florian Boyer;Xuankai Chang;Pengcheng Guo;Tomoki Hayashi;Yosuke Higuchi;Takaaki Hori;Wen-Chin Huang;H. Inaguma;Naoyuki Kamo;Shigeki Karita;Chenda Li;Jing Shi;A. Subramanian;Wangyou Zhang
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
樋口 陽祐其他文献
樋口 陽祐的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似国自然基金
时空分辨核酸生物传感在亚细胞水平光电双模态精准测量
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
水凝胶改性陶瓷人工关节牢固结合界面的构筑与减磨润滑机理研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
锆酸铅基反铁电体畴动力学及其调控机理研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
USP7维持FADS2蛋白质稳态调控线粒体重编程驱动三阴性乳腺癌的转移
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
载铁生物炭对土壤镉污染的吸附固定及微生物协同作用机制研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
SREBP转录因子BbSre1负调控球孢白僵菌抗真菌物质产生的机制研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
面向截肢患者运动感知重建的肌电假肢手关节运动反馈时变编码研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
载鸢尾素层层自组装二氧化钛纳米管材料促进糖尿病骨缺损修复及机制研
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
多源数据融合的内外激励耦合下电驱动系统非平稳非高斯服役载荷谱高保
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
面向水质应急快检的碳点/微流控限域增强发光传感研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
相似海外基金
脳神経疾患による構音障害を克服するための,音声認識および音声合成AIシステムの開発
开发语音识别与语音合成AI系统,克服脑神经疾病引起的构音障碍
- 批准号:
24K10630 - 财政年份:2024
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
画像認識と音声認識の複合AIによる災害状況認識ユニットの基礎研究
图像识别与语音识别相结合的AI灾情识别单元基础研究
- 批准号:
23K23017 - 财政年份:2024
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
画像・音声認識と料理データベースによる食事記録システム開発、及び疫学研究での応用
基于图像/语音识别和烹饪数据库的用餐记录系统的开发及其在流行病学研究中的应用
- 批准号:
23K20170 - 财政年份:2024
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
非母語話者のスマートフォン音声認識機能での誤認識傾向を考慮した発音学習システム
使用智能手机语音识别功能,考虑到非母语人士的误识别倾向的发音学习系统。
- 批准号:
24K06231 - 财政年份:2024
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
自動音声認識を利用したbilingual speech-to-textシステム構築と授業分析への応用
自动语音识别双语语音转文本系统的构建及其在课程分析中的应用
- 批准号:
24K04125 - 财政年份:2024
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声認識のデータ拡張のための音声合成との密統合
与语音合成紧密集成,用于语音识别的数据增强
- 批准号:
23K16944 - 财政年份:2023
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
画像認識と音声認識の複合AIによる災害状況認識ユニットの基礎研究
图像识别与语音识别相结合的AI灾情识别单元基础研究
- 批准号:
22H01749 - 财政年份:2022
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
日常生活音を活用した構音障害者のための音響監視および音声認識システムの研究
使用日常声音对构音障碍患者进行声学监测和语音识别系统的研究
- 批准号:
22K12168 - 财政年份:2022
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
自動音声認識と機械学習による新たな医学教育システムの創出
使用自动语音识别和机器学习创建新的医学教育系统
- 批准号:
22K10459 - 财政年份:2022
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
インクルーシブ環境で学ぶ難聴児への音声認識アプリを活用した支援の検討
考虑使用语音识别应用程序支持听障儿童在包容性环境中学习
- 批准号:
22H04126 - 财政年份:2022
- 资助金额:
$ 1.41万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists