Speech Processing Based on Deep Gaussian Process With Stochastic Differential Equation Layers
基于随机微分方程层深度高斯过程的语音处理
基本信息
- 批准号:21K11955
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
近年主流となっている深層ニューラルネットワーク(Deep neural network, DNN)に基づく音声情報処理は,大量の音声データを用いて大量のパラメータを学習する手法である.しかし,音声は言語・方言や話者,話し方や周囲の環境など多様性が非常に高いため,あらゆる音声を収録することは非常に困難である.そのため,例えば収録音声を十分に用意できない話者の音声を生成するone-shot音声合成のように,大量のパラメータを用いることに適さない音声情報処理が多く存在する.そこで本研究の目的は,少量のパラメータであっても複雑な関数を表現可能である,層の微分方程式表現を用いたいわゆる無限層の深層学習に基づく音声情報処理,特に音声合成における有効性を調査することである.今年度は,深層ガウス過程に基づく音声合成における畳み込み層の有効性を示した.これによって,DNNと同様の機能を持つ層を,より性能の高いDGPでも実現できることを示した.また,時間的な連続性を表現するための前段階として,長文音声合成の基盤作成を行った.具体的には,長文の中で知覚的な影響の大きいポーズを,事前学習済み言語モデルを用いて予測する手法を提案し,より自然な長文音声合成を実現することに成功した.この成果により,テキストと音声の時間軸方向の伸縮を適切に行うことの重要性が明らかになり,層の深層方向および時間軸方向のモデル化への指針が示された.
In recent years, the main stream of information is that there is a lot of information about the sound and emotion of Deep neural network, DNN, and so on. In recent years, a large number of people have used a lot of equipment to learn how to do it. In recent years, they have used a lot of information, and in the dialect of words and phrases, the environment is very high-quality. The sound is very difficult, the sound is very poor, the sound is very serious, for example, the sound is very intentional, the voice of the person is very intentional, the synthesis of one-shot sound is generated, and a large number of people use it to make sense of the sound. A small number of copies of the data show that it is possible to use the differential equation to show that it is possible to use the differential equation to learn the meaning of sound and sound. This year, in the course of this year, there are significant differences in the process of sound synthesis. The same machine of the DNN machine can maintain the performance, and the performance of the DGP system will show that the performance of the computer will show that there is a problem in the front segment of the clock, and the sound synthesis of the long text will be made into a line. For a specific example, the movie that is known to you in the long text will lead to an error, and you will learn in advance that the speech will be used in advance to make a proposal. The sound synthesis of natural long text shows that the sound is successful. The results are good, the sound time is extended, the line is important, the importance is clear, the direction is deep, the direction is time, and the direction is clear.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
More differentiated pause insertion for phoneme-based multi-speaker TTS models
基于音素的多说话人 TTS 模型的更差异化的暂停插入
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Dong Yang;Tomoki Koriyama;Yuki Saito;Takaaki Saeki;Detai Xin;Hiroshi Saruwatari
- 通讯作者:Hiroshi Saruwatari
Duration-Aware Pause Insertion Using Pre-Trained Language Model for Multi-Speaker Text-To-Speech
- DOI:10.1109/icassp49357.2023.10096402
- 发表时间:2023-02
- 期刊:
- 影响因子:0
- 作者:D. Yang;Tomoki Koriyama;Yuki Saito;Takaaki Saeki;Detai Xin;H. Saruwatari
- 通讯作者:D. Yang;Tomoki Koriyama;Yuki Saito;Takaaki Saeki;Detai Xin;H. Saruwatari
Pause Prediction Using BERT-based Features for Long-form Text-to-speech Synthesis
使用基于 BERT 的特征进行长格式文本到语音合成的暂停预测
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:楊 棟,郡山 知樹,齋藤 佑樹,佐伯 高明,辛 徳泰;猿渡 洋;中村 泰貴,郡山 知樹,猿渡 洋;楊 棟,郡山 知樹,猿渡 洋
- 通讯作者:楊 棟,郡山 知樹,猿渡 洋
Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer
- DOI:10.21437/interspeech.2021-896
- 发表时间:2021-08
- 期刊:
- 影响因子:0
- 作者:Taiki Nakamura;Tomoki Koriyama;H. Saruwatari
- 通讯作者:Taiki Nakamura;Tomoki Koriyama;H. Saruwatari
深層ガウス過程音声合成における畳み込み・self-attention・リカレント構造の評価
深度高斯过程语音合成中卷积、自注意力和循环结构的评估
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:楊 棟,郡山 知樹,齋藤 佑樹,佐伯 高明,辛 徳泰;猿渡 洋;中村 泰貴,郡山 知樹,猿渡 洋
- 通讯作者:中村 泰貴,郡山 知樹,猿渡 洋
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
郡山 知樹其他文献
インタラクション分析に基づく科学コミュニケーションのリ・デザイン.
基于交互分析重新设计科学传播。
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
増子 理菜;郡山 知樹;小林 隆夫;高梨克也 - 通讯作者:
高梨克也
音声合成のためのCRF/HMMに基づく自動アクセント推定の評価
基于CRF/HMM的语音合成自动口音估计评估
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
増子 理菜;郡山 知樹;小林 隆夫 - 通讯作者:
小林 隆夫
Moment-matching networkに基づく一期一会音声合成における発話間ゆらぎの評価
基于矩匹配网络的千载难逢的语音合成中话语间波动评估
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
高道 慎之介;郡山 知樹;齋藤 佑樹;猿渡 洋 - 通讯作者:
猿渡 洋
郡山 知樹的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('郡山 知樹', 18)}}的其他基金
自然なヒューマンコンピュータインタラクションのための話し言葉会話音声合成
自然人机交互的口语对话语音合成
- 批准号:
13J08776 - 财政年份:2013
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
ハイパースペクトラルイメージングと深層学習を用いた皮膚病変鑑別システムの開発
利用高光谱成像和深度学习开发皮肤病变判别系统
- 批准号:
24K15777 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
深層学習を用いた超音波画像からのSPIDDM診断支援システムの開発
使用深度学习从超声图像开发 SPIDDM 诊断支持系统
- 批准号:
24K15775 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
深層学習を用いた拡散テンソル画像による腰椎疾患における疼痛の自動診断システム
基于深度学习的弥散张量图像腰椎疾病疼痛自动诊断系统
- 批准号:
24K15787 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
幾何学的深層学習による非線形力学系のグレーボックスモデル化技術の創出
使用几何深度学习创建非线性动力系统灰盒建模技术
- 批准号:
24K15105 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
アナログ回路に基づく進化計算手法による深層学習モデルの最適化
基于模拟电路的进化计算方法优化深度学习模型
- 批准号:
24K15115 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
ダイナミクス情報を考慮した深層学習技術による天然変性タンパク質複合体構造予測
使用深度学习技术考虑动力学信息预测自然变性蛋白质复合物的结构
- 批准号:
24K15183 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
地域連携プログラミング初等教育における深層学習やVRを用いた対話的学習支援システム
区域协作编程 在基础教育中使用深度学习和 VR 的交互式学习支持系统
- 批准号:
24K15230 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
深層学習とドローンを用いた温室トマトの株毎の生育データモニタリングシステム
使用深度学习和无人机的每个温室番茄植株的生长数据监测系统
- 批准号:
24K15072 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Developing and Visualising a Retrieval-Augmented Deep Learning Model for Population Health Management
开发和可视化用于人口健康管理的检索增强深度学习模型
- 批准号:
2905946 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Studentship
Navigating Chemical Space with Natural Language Processing and Deep Learning
利用自然语言处理和深度学习驾驭化学空间
- 批准号:
EP/Y004167/1 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Research Grant