Speech Processing Based on Deep Gaussian Process With Stochastic Differential Equation Layers

基于随机微分方程层深度高斯过程的语音处理

基本信息

项目摘要

近年主流となっている深層ニューラルネットワーク(Deep neural network, DNN)に基づく音声情報処理は,大量の音声データを用いて大量のパラメータを学習する手法である.しかし,音声は言語・方言や話者,話し方や周囲の環境など多様性が非常に高いため,あらゆる音声を収録することは非常に困難である.そのため,例えば収録音声を十分に用意できない話者の音声を生成するone-shot音声合成のように,大量のパラメータを用いることに適さない音声情報処理が多く存在する.そこで本研究の目的は,少量のパラメータであっても複雑な関数を表現可能である,層の微分方程式表現を用いたいわゆる無限層の深層学習に基づく音声情報処理,特に音声合成における有効性を調査することである.今年度は,深層ガウス過程に基づく音声合成における畳み込み層の有効性を示した.これによって,DNNと同様の機能を持つ層を,より性能の高いDGPでも実現できることを示した.また,時間的な連続性を表現するための前段階として,長文音声合成の基盤作成を行った.具体的には,長文の中で知覚的な影響の大きいポーズを,事前学習済み言語モデルを用いて予測する手法を提案し,より自然な長文音声合成を実現することに成功した.この成果により,テキストと音声の時間軸方向の伸縮を適切に行うことの重要性が明らかになり,層の深層方向および時間軸方向のモデル化への指針が示された.
In recent years the mainstream と な っ て い る Deep ニ ュ ー ラ ル ネ ッ ト ワ ー ク (Deep neural network, within DNN) に base づ く sounds intelligence 処 は, a large number of の sounds デ ー タ を with い て large の パ ラ メ ー タ を learning す る gimmick で あ る. し か し, sounds は や words, dialect words, words し party や weeks 囲 の environment な ど multiple others が very high に い た め, あ ら ゆ る sounds を 収 recorded す る こ と は very difficult に で あ る. そ の た め, example え ば 収 sound recording purpose を very に で き な い の sounds of the speaker's words を generated す る one - shot voice synthesis の よ う に, a large number of の パ ラ メ ー タ を with い る こ と に optimum さ な い sounds intelligence 処 Richard が す more く る. は そ こ で の this research purpose, a small amount of の パ ラ メ ー タ で あ っ て も complex 雑 な masato number を performance may で あ る, layer の differential equations show を with い た い わ ゆ る infinite deep learning に base layer の づ く sounds intelligence 処, trevor に voice synthesis に お け る have sharper sex を survey す る こ と で あ る. This year, ガウス, the deep ガウス process に basis づく sound synthesis における畳み込み layer <s:1> is effective を in demonstrating た た. こ れ に よ っ て, within DNN と with others を を hold つ の function layer, よ り high performance の い DGP で も be presently で き る こ と を shown し た. ま た, time of な even 続 を performance す る た め の earlier order と し て, long voice synthesis の base plate to finish line を っ た. Specific に は, long の で know 覚 な の affected in き い ポ ー ズ を, prior learning 済 み words モ デ ル を with い て in measuring す る を proposal し, よ り natural な long voice synthesis を be presently す る こ と に successful し た. こ の results に よ り, テ キ ス ト と sounds の time axis の telescopic を appropriate line に う こ と の importance が Ming ら か に な り, deep layer の direction お よ び time axis の モ デ ル change へ の pointer が shown さ れ た.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
More differentiated pause insertion for phoneme-based multi-speaker TTS models
基于音素的多说话人 TTS 模型的更差异化的暂停插入
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Dong Yang;Tomoki Koriyama;Yuki Saito;Takaaki Saeki;Detai Xin;Hiroshi Saruwatari
  • 通讯作者:
    Hiroshi Saruwatari
Duration-Aware Pause Insertion Using Pre-Trained Language Model for Multi-Speaker Text-To-Speech
Pause Prediction Using BERT-based Features for Long-form Text-to-speech Synthesis
使用基于 BERT 的特征进行长格式文本到语音合成的暂停预测
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    楊 棟,郡山 知樹,齋藤 佑樹,佐伯 高明,辛 徳泰;猿渡 洋;中村 泰貴,郡山 知樹,猿渡 洋;楊 棟,郡山 知樹,猿渡 洋
  • 通讯作者:
    楊 棟,郡山 知樹,猿渡 洋
Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer
  • DOI:
    10.21437/interspeech.2021-896
  • 发表时间:
    2021-08
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Taiki Nakamura;Tomoki Koriyama;H. Saruwatari
  • 通讯作者:
    Taiki Nakamura;Tomoki Koriyama;H. Saruwatari
深層ガウス過程音声合成における畳み込み・self-attention・リカレント構造の評価
深度高斯过程语音合成中卷积、自注意力和循环结构的评估
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    楊 棟,郡山 知樹,齋藤 佑樹,佐伯 高明,辛 徳泰;猿渡 洋;中村 泰貴,郡山 知樹,猿渡 洋
  • 通讯作者:
    中村 泰貴,郡山 知樹,猿渡 洋
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

郡山 知樹其他文献

インタラクション分析に基づく科学コミュニケーションのリ・デザイン.
基于交互分析重新设计科学传播。
GPR音声合成におけるスタイル適応の検討
GPR语音合成中的风格适应研究
音声合成のためのCRF/HMMに基づく自動アクセント推定の評価
基于CRF/HMM的语音合成自动口音估计评估
ガウス過程回帰に基づく音声合成システムの評価
基于高斯过程回归的语音合成系统评估
Moment-matching networkに基づく一期一会音声合成における発話間ゆらぎの評価
基于矩匹配网络的千载难逢的语音合成中话语间波动评估
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高道 慎之介;郡山 知樹;齋藤 佑樹;猿渡 洋
  • 通讯作者:
    猿渡 洋

郡山 知樹的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('郡山 知樹', 18)}}的其他基金

自然なヒューマンコンピュータインタラクションのための話し言葉会話音声合成
自然人机交互的口语对话语音合成
  • 批准号:
    13J08776
  • 财政年份:
    2013
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

ハイパースペクトラルイメージングと深層学習を用いた皮膚病変鑑別システムの開発
利用高光谱成像和深度学习开发皮肤病变判别系统
  • 批准号:
    24K15777
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
深層学習を用いた超音波画像からのSPIDDM診断支援システムの開発
使用深度学习从超声图像开发 SPIDDM 诊断支持系统
  • 批准号:
    24K15775
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
深層学習を用いた拡散テンソル画像による腰椎疾患における疼痛の自動診断システム
基于深度学习的弥散张量图像腰椎疾病疼痛自动诊断系统
  • 批准号:
    24K15787
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
幾何学的深層学習による非線形力学系のグレーボックスモデル化技術の創出
使用几何深度学习创建非线性动力系统灰盒建模技术
  • 批准号:
    24K15105
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
アナログ回路に基づく進化計算手法による深層学習モデルの最適化
基于模拟电路的进化计算方法优化深度学习模型
  • 批准号:
    24K15115
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
ダイナミクス情報を考慮した深層学習技術による天然変性タンパク質複合体構造予測
使用深度学习技术考虑动力学信息预测自然变性蛋白质复合物的结构
  • 批准号:
    24K15183
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
地域連携プログラミング初等教育における深層学習やVRを用いた対話的学習支援システム
区域协作编程 在基础教育中使用深度学习和 VR 的交互式学习支持系统
  • 批准号:
    24K15230
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
深層学習とドローンを用いた温室トマトの株毎の生育データモニタリングシステム
使用深度学习和无人机的每个温室番茄植株的生长数据监测系统
  • 批准号:
    24K15072
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Developing and Visualising a Retrieval-Augmented Deep Learning Model for Population Health Management
开发和可视化用于人口健康管理的检索增强深度学习模型
  • 批准号:
    2905946
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Studentship
Navigating Chemical Space with Natural Language Processing and Deep Learning
利用自然语言处理和深度学习驾驭化学空间
  • 批准号:
    EP/Y004167/1
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Research Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了