End-to-End音声合成とEnd-to-End音声認識の統合システム
端到端语音合成和端到端语音识别集成系统
基本信息
- 批准号:19J21031
- 负责人:
- 金额:$ 1.98万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2019
- 资助国家:日本
- 起止时间:2019-04-25 至 2022-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
研究の目的はEnd-to-End音声合成とEnd-to-End音声認識を統合することで、適用対象(タスク、ドメイン)のテキストのみがある条件でも音声との対データを構成し、一括で学習するシステムを実現することである。今年度は音声認識と音声合成を効率的に統合でき、かつ音声認識の性能の低下が少ない表現を構成する方法の研究を行った。音声認識の性能の低下の原因のひとつとして挙げられるのが、実際に人間が話した音声(自然音声)と音声合成システムが生成した音声(合成音声)に差があることである。音声合成においては、通常テキストから人が聞くことのできる音声波形を作るのに必要な周波数スペクトル特徴量を予測するモデルを用いた後に、その周波数スペクトル特徴量を音声波形に変換するモデルを用いて、音声波形を生成する。周波数スペクトル特徴量は音声認識の訓練データとしても用いられ、生成された音声波形を再び周波数スペクトル特徴量に変換し、音声認識に用いる。音声波形に変換するモデルには自然音声と合成音声の差異を埋める効果があるが、この波形生成に非常に時間がかかるという問題がある。そこで今年度は音声波形に変換するモデルを用いずに周波数スペクトル特徴量上で直接差異を埋めるネットワークを構築した。提案手法では、生成された周波数スペクトル特徴量だけでなく、音声合成のタスクで利用可能な発話の音素系列情報も用いる。評価実験から、提案手法が音声波形に変換するよりも少ない処理時間で音声認識の拡張の効果が高いことを示し、また、発話の音素系列情報の利用も改善に重要であることを示した。
The purpose of this study is to integrate End-to-End sound synthesis and End-to-End sound recognition, to apply the conditions of object (s) and object (s), and to construct and learn the conditions of object (s) and object (s). This year, the research on the integration of sound recognition and sound synthesis efficiency, the improvement of sound recognition performance and the composition of sound synthesis performance is carried out. The reasons for the low performance of sound recognition are endless. In reality, there is a huge difference between the sound of human speech (natural sound) and the sound generated by the sound synthesis system (synthetic sound). Sound synthesis in general, sound waveform generation, sound waveform generation, sound signal generation, sound waveform generation, sound Frequency selection feature quantity is used in training of sound recognition, generation of sound waveform and frequency selection feature quantity is used in sound recognition. The difference between natural sound and synthetic sound is caused by the change of sound waveform. This year's acoustic waveform changes the number of cycles, the number of features, and the number of features. The proposed method is to generate the number of cycles, select the feature quantity, and synthesize the sound by using the phoneme series information that may be transmitted. The evaluation method is important for improving the utilization of phoneme series information such as sound waveform conversion, sound processing time and sound recognition.
项目成果
期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Phone-informed refinement of synthesized mel spectrogram for data augmentation in speech recognition.
语音识别中数据增强的合成梅尔谱图的电话通知细化。
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Manami Hagihara;Tomoya Miyazaki;Kouichi Hirata;S.Ueno and T.Kawahara.
- 通讯作者:S.Ueno and T.Kawahara.
Wave2word: 音声波形を入力とする単語単位end-to-end音声認識
Wave2word:使用语音波形作为输入的逐字端到端语音识别
- DOI:
- 发表时间:2019
- 期刊:
- 影响因子:0
- 作者:上乃聖;三村正人;坂井信輔;河原達也
- 通讯作者:河原達也
wav2vec 2.0を用いた音声合成による音声認識のデータ拡張
使用wav2vec 2.0通过语音合成进行语音识别的数据扩展
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:上乃聖;河原達也
- 通讯作者:河原達也
vq-wav2vecによる離散IDを扱う音声認識のデータ拡張
使用 vq-wav2vec 处理离散 ID 的语音识别数据扩展
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:上乃聖;三村正人;河原達也
- 通讯作者:河原達也
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
上乃 聖其他文献
上乃 聖的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('上乃 聖', 18)}}的其他基金
音声認識のデータ拡張のための音声合成との密統合
与语音合成紧密集成,用于语音识别的数据增强
- 批准号:
23K16944 - 财政年份:2023
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
相似海外基金
インターネットデータの活用によるテキスト音声合成の感情表現力向上
利用互联网数据提高文本语音合成的情感表现力
- 批准号:
24KJ0860 - 财政年份:2024
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for JSPS Fellows
脳神経疾患による構音障害を克服するための,音声認識および音声合成AIシステムの開発
开发语音识别与语音合成AI系统,克服脑神经疾病引起的构音障碍
- 批准号:
24K10630 - 财政年份:2024
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
話者・地域・スタイルモーフィング音声合成による実環境リスニング学習支援
使用说话者/区域/风格变形语音合成来支持真实世界的听力学习
- 批准号:
23K21945 - 财政年份:2024
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
顔画像から声を再現するクロスモーダルボイスクローニング音声合成技術の研究
从面部图像再现声音的跨模态克隆语音合成技术研究
- 批准号:
24K02959 - 财政年份:2024
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
非侵襲型脳波を用いた言語・非言語音声合成による次世代コミュニケーション技術の確立
通过使用非侵入性脑电波进行言语/非言语语音合成来建立下一代通信技术
- 批准号:
24H00715 - 财政年份:2024
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
音声認識のデータ拡張のための音声合成との密統合
与语音合成紧密集成,用于语音识别的数据增强
- 批准号:
23K16944 - 财政年份:2023
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
話者・地域・スタイルモーフィング音声合成による実環境リスニング学習支援
使用说话者/区域/风格变形语音合成来支持真实世界的听力学习
- 批准号:
22H00673 - 财政年份:2022
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
eスポーツ理解に向けた実況解説音声の分析及び音声合成アルゴリズムの開発
分析现场解说音频并开发理解电子竞技的语音合成算法
- 批准号:
22K17945 - 财政年份:2022
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
複数の調音運動データを中間情報とするマルチモーダル音声合成
使用多个发音运动数据作为中间信息的多模态语音合成
- 批准号:
22K12100 - 财政年份:2022
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
基于DNN的高质量表达情感和个性的语音合成方法研究
- 批准号:
21K11963 - 财政年份:2021
- 资助金额:
$ 1.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)