Next-generation audio and speech processing architectures based on deep learning

基于深度学习的下一代音频和语音处理架构

基本信息

批准号：
22H03614
负责人：
徳田恵一
金额：
$ 11.07万
依托单位：
Nagoya Institute of Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (B)
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2025-03-31
项目状态：
未结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-22H03614/
关键词：
深層学習音声生成モデル

项目摘要

従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。本研究では、深層学習に基づいて信号モデルを構成することにより、新しい形の音声信号生成技術を確立し、音声合成、音声符号化、声質変換、更には楽器音等のオーディオ音声信号生成への応用により、その有効性を検証することを目的とする。特に、多視点的・俯瞰的な観点から、音声波形生成に適したモデル構造を探求するとともに、「従来型モデル構造の部分導入」および「学習データ拡張による制御構造の内在化」のふたつのアプローチにより、従来型の音声波形生成手法の利点である「軽量性」、「制御性」を兼ね備えたモデル構造を明らかにすることを目指す。本年度に関しては、多視点的・俯瞰的な観点から、音声生成に適した深層学習モデル構造について検討を進めた。また、応用分野に依存しない形の検討を行い、続いて「音声合成・歌声合成」、「音声符号化」、「声質変換」の3つの主要応用分野に依存した検討を開始した。また、並行して、従来型のモデルの利点である「軽量性」、「制御性」の実現のため、「従来型モデル構造の部分導入」について検討し、微分可能な形の従来型の信号処理モジュールをGPU向きの並列実装することにより、ニューラルネットワークモデルと組み合わせながら、End2endに学習可能な手法を提案し、その有効性を確認した。実装のコア部分についてはオープンソースソフトウェアとして公開した。また、並行して「学習データ拡張による制御構造の内在化」に関しては、いくつかの方式について検討を進め、他手法との比較を行った。

传统的数字信号处理理论已广泛流行并被确立为与语音和音频信号处理有关的研究领域中最基本的概念，但是由于简单模型结构的局限性，其性能受到限制。这项研究旨在通过基于深度学习的信号模型来建立一种新型的语音信号生成技术，并通过应用于音频信号产生（例如语音综合，语音编码，语音质量转换，甚至乐器乐器的声音）来验证其有效性。特别是，我们将探索一种模型结构，从多视图的角度和鸟类眼睛的观点，旨在阐明一个模型结构，该模型结构结合了传统语音波形生成方法的优势，例如“部分引入传统模型结构”和“通过训练数据扩展来实现控制控制结构”。关于今年，我们一直在考虑从多视图的角度考虑适合语音生成的深度学习模型结构。我们还进行了一项不依赖应用领域的研究，然后开始考虑取决于三个主要应用领域的研究：“语音综合和唱歌语音综合”，“语音编码”和“语音质量转换”。此外，同时，为了实现常规模型的优势，“轻质”和“可控性”，我们讨论了“部分介绍常规模型结构”，并提出了一种可以在End2End中学习的方法，同时与神经网络模型相结合，通过实现与GPUS的常规信号处理模式相结合，并确认其有效性，并确认其有效性。实施的核心部分已作为开源软件发布。此外，同时，我们研究了几种有关“通过训练数据扩展进行内部化控制结构”的方法，并将其与其他方法进行了比较。

项目成果

期刊论文数量（12）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

Singing Voice Synthesis Based on a Musical Note Position-Aware Attention Mechanism

DOI：
10.1109/icassp49357.2023.10095919
发表时间：
2022-12
期刊：
ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
影响因子：
0
作者：
Yukiya Hono;Kei Hashimoto;Yoshihiko Nankaku;K. Tokuda
通讯作者：
Yukiya Hono;Kei Hashimoto;Yoshihiko Nankaku;K. Tokuda

自己教師あり学習による特徴抽出器とcoarse-fine変換を用いた少量学習データによる歌声変換

使用特征提取器使用少量训练数据进行歌声转换，使用自监督学习和粗细转换

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
田中琉聖;山田淳司;高木信二 ;橋本佳;南角吉彦;徳田恵一
通讯作者：
徳田恵一

半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成

基于使用半监督学习的分层生成模型的日语端到端语音合成

DOI：
发表时间：
2022
期刊：
影响因子：
0
作者：
藤本崇人;橋本佳;南角吉彦;徳田恵一
通讯作者：
徳田恵一

発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成

基于帧驱动注意机制的歌声合成，考虑到声音时序变化

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
西原美玖;法野行哉;橋本佳;南角吉彦;徳田恵一
通讯作者：
徳田恵一

微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討

结合可微分梅尔倒谱合成滤波器的端到端语音合成系统的研究

DOI：
发表时间：
2022
期刊：
影响因子：
0
作者：
吉村建慶;高木信二;中村和寛;大浦圭一郎;法野行哉;橋本佳;南角吉彦;徳田恵一
通讯作者：
徳田恵一

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ patent.updateTime }}

徳田恵一其他文献

分離型2次元格子HMMに基づく顔画像認識

基于可分离二维网格HMM的人脸图像识别

DOI：
发表时间：
2005
期刊：
2005年FIT講演論文集
影响因子：
0
作者：
布目哲也;南角吉彦;徳田恵一;北村正
通讯作者：
北村正

英語音声合成における韻律推定モデルと音響モデルの同時学習

英语语音合成中韵律估计模型和声学模型的同时学习

DOI：
发表时间：
2008
期刊：
影响因子：
0
作者：
大浦圭一郎;戸田智基;南角吉彦;徳田恵一;マイアハニエリ;坂井信輔;中村哲
通讯作者：
中村哲

Knowledge-based Discovery in Systems Biology using CF-Induction.

使用 CF-Induction 在系统生物学中进行基于知识的发现。

DOI：
发表时间：
2007
期刊：
New Trends in Applied Artificial Intelligence, Lecture Notes in Artificial Intelligence 4570
影响因子：
0
作者：
全柄河;南角吉彦;徳田恵一;Andrei Doncescu
通讯作者：
Andrei Doncescu