Speech Processing Based on Deep Gaussian Process With Stochastic Differential Equation Layers
基于随机微分方程层深度高斯过程的语音处理
基本信息
- 批准号:21K11955
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
近年主流となっている深層ニューラルネットワーク(Deep neural network, DNN)に基づく音声情報処理は,大量の音声データを用いて大量のパラメータを学習する手法である.しかし,音声は言語・方言や話者,話し方や周囲の環境など多様性が非常に高いため,あらゆる音声を収録することは非常に困難である.そのため,例えば収録音声を十分に用意できない話者の音声を生成するone-shot音声合成のように,大量のパラメータを用いることに適さない音声情報処理が多く存在する.そこで本研究の目的は,少量のパラメータであっても複雑な関数を表現可能である,層の微分方程式表現を用いたいわゆる無限層の深層学習に基づく音声情報処理,特に音声合成における有効性を調査することである.今年度は,深層ガウス過程に基づく音声合成における畳み込み層の有効性を示した.これによって,DNNと同様の機能を持つ層を,より性能の高いDGPでも実現できることを示した.また,時間的な連続性を表現するための前段階として,長文音声合成の基盤作成を行った.具体的には,長文の中で知覚的な影響の大きいポーズを,事前学習済み言語モデルを用いて予測する手法を提案し,より自然な長文音声合成を実現することに成功した.この成果により,テキストと音声の時間軸方向の伸縮を適切に行うことの重要性が明らかになり,層の深層方向および時間軸方向のモデル化への指針が示された.
In recent years, the mainstream of the Deep neural network (DNN) is based on sound information processing. For example, if you want to talk to someone, you have to talk to them. For example, the sound of a recorded sound is generated by one-shot sound synthesis, and a large number of sound information processing are available. The purpose of this study is to investigate the feasibility of a small number of complex equations, the application of infinite layers of differential equations, the fundamental acoustic information processing, and especially the acoustic synthesis. This year, the deep layer of the sound synthesis process, the deep layer of the sound synthesis process, the deep layer of the sound synthesis process. The DNN and the same function are maintained at different levels, and the performance of the DGP is high. The first stage of the continuous performance of the long text and sound synthesis is made. Specific, long text in the knowledge of the impact of large number of problems, prior to learning speech problems, use of prediction methods to propose, natural long text sound synthesis to achieve success. The results of this research show the importance of the extension of the sound Timeline direction and the pointer of the depth direction of the sound Timeline direction.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
More differentiated pause insertion for phoneme-based multi-speaker TTS models
基于音素的多说话人 TTS 模型的更差异化的暂停插入
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Dong Yang;Tomoki Koriyama;Yuki Saito;Takaaki Saeki;Detai Xin;Hiroshi Saruwatari
- 通讯作者:Hiroshi Saruwatari
Duration-Aware Pause Insertion Using Pre-Trained Language Model for Multi-Speaker Text-To-Speech
- DOI:10.1109/icassp49357.2023.10096402
- 发表时间:2023-02
- 期刊:
- 影响因子:0
- 作者:D. Yang;Tomoki Koriyama;Yuki Saito;Takaaki Saeki;Detai Xin;H. Saruwatari
- 通讯作者:D. Yang;Tomoki Koriyama;Yuki Saito;Takaaki Saeki;Detai Xin;H. Saruwatari
Pause Prediction Using BERT-based Features for Long-form Text-to-speech Synthesis
使用基于 BERT 的特征进行长格式文本到语音合成的暂停预测
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:楊 棟,郡山 知樹,齋藤 佑樹,佐伯 高明,辛 徳泰;猿渡 洋;中村 泰貴,郡山 知樹,猿渡 洋;楊 棟,郡山 知樹,猿渡 洋
- 通讯作者:楊 棟,郡山 知樹,猿渡 洋
Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer
- DOI:10.21437/interspeech.2021-896
- 发表时间:2021-08
- 期刊:
- 影响因子:0
- 作者:Taiki Nakamura;Tomoki Koriyama;H. Saruwatari
- 通讯作者:Taiki Nakamura;Tomoki Koriyama;H. Saruwatari
深層ガウス過程音声合成における畳み込み・self-attention・リカレント構造の評価
深度高斯过程语音合成中卷积、自注意力和循环结构的评估
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:楊 棟,郡山 知樹,齋藤 佑樹,佐伯 高明,辛 徳泰;猿渡 洋;中村 泰貴,郡山 知樹,猿渡 洋
- 通讯作者:中村 泰貴,郡山 知樹,猿渡 洋
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
郡山 知樹其他文献
インタラクション分析に基づく科学コミュニケーションのリ・デザイン.
基于交互分析重新设计科学传播。
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
増子 理菜;郡山 知樹;小林 隆夫;高梨克也 - 通讯作者:
高梨克也
音声合成のためのCRF/HMMに基づく自動アクセント推定の評価
基于CRF/HMM的语音合成自动口音估计评估
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
増子 理菜;郡山 知樹;小林 隆夫 - 通讯作者:
小林 隆夫
Moment-matching networkに基づく一期一会音声合成における発話間ゆらぎの評価
基于矩匹配网络的千载难逢的语音合成中话语间波动评估
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
高道 慎之介;郡山 知樹;齋藤 佑樹;猿渡 洋 - 通讯作者:
猿渡 洋
郡山 知樹的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('郡山 知樹', 18)}}的其他基金
自然なヒューマンコンピュータインタラクションのための話し言葉会話音声合成
自然人机交互的口语对话语音合成
- 批准号:
13J08776 - 财政年份:2013
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
CAREER: Adaptive Deep Learning Systems Towards Edge Intelligence
职业:迈向边缘智能的自适应深度学习系统
- 批准号:
2338512 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Continuing Grant
CRII: OAC: A Compressor-Assisted Collective Communication Framework for GPU-Based Large-Scale Deep Learning
CRII:OAC:基于 GPU 的大规模深度学习的压缩器辅助集体通信框架
- 批准号:
2348465 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Standard Grant
Deep Learningを活用した超音波ガイドによる安全な静脈穿刺法の開発
利用深度学习的超声引导开发安全静脉穿刺方法
- 批准号:
24K13362 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
確率統計学を用いた深層学習モデルの汎化性能の解析
使用概率统计分析深度学习模型的泛化性能
- 批准号:
24KJ0933 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows
嚥下障害診療における深層学習を用いた嚥下内視鏡検査AI診断補助システムの開発
利用深度学习开发吞咽内窥镜人工智能诊断支持系统来治疗吞咽困难
- 批准号:
24K12677 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
MFB: Better Homologous Folding using Computational Linguistics and Deep Learning
MFB:使用计算语言学和深度学习更好的同源折叠
- 批准号:
2330737 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Standard Grant
深層学習による膠原病肺の新規画像分類の確立
利用深度学习建立一种新的胶原病肺部图像分类方法
- 批准号:
24K11624 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
深層学習を活用した3次元CT-like血管壁MRI画像による頸動脈プラーク解析法の開発
利用深度学习,利用类 3D CT 血管壁 MRI 图像开发颈动脉斑块分析方法
- 批准号:
24K10834 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
胸膜肺実質線維弾性症の線維化を正確に捉える空間的深層学習モデルの構築
构建准确捕捉胸膜肺实质弹力纤维变性纤维化的空间深度学习模型
- 批准号:
24K10145 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
ハイパースペクトラルイメージングと深層学習を用いた皮膚病変鑑別システムの開発
利用高光谱成像和深度学习开发皮肤病变判别系统
- 批准号:
24K15777 - 财政年份:2024
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)














{{item.name}}会员




