Next-generation audio and speech processing architectures based on deep learning

基于深度学习的下一代音频和语音处理架构

基本信息

  • 批准号:
    22H03614
  • 负责人:
  • 金额:
    $ 11.07万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。本研究では、深層学習に基づいて信号モデルを構成することにより、新しい形の音声信号生成技術を確立し、音声合成、音声符号化、声質変換、更には楽器音等のオーディオ音声信号生成への応用により、その有効性を検証することを目的とする。特に、多視点的・俯瞰的な観点から、音声波形生成に適したモデル構造を探求するとともに、「従来型モデル構造の部分導入」および「学習データ拡張による制御構造の内在化」のふたつのアプローチにより、従来型の音声波形生成手法の利点である「軽量性」、「制御性」を兼ね備えたモデル構造を明らかにすることを目指す。本年度に関しては、多視点的・俯瞰的な観点から、音声生成に適した深層学習モデル構造について検討を進めた。また、応用分野に依存しない形の検討を行い、続いて「音声合成・歌声合成」、「音声符号化」、「声質変換」の3つの主要応用分野に依存した検討を開始した。また、並行して、従来型のモデルの利点である「軽量性」、「制御性」の実現のため、「従来型モデル構造の部分導入」について検討し、微分可能な形の従来型の信号処理モジュールをGPU向きの並列実装することにより、ニューラルネットワークモデルと組み合わせながら、End2endに学習可能な手法を提案し、その有効性を確認した。実装のコア部分についてはオープンソースソフトウェアとして公開した。また、並行して「学習データ拡張による制御構造の内在化」に関しては、いくつかの方式について検討を進め、他手法との比較を行った。
传统的数字信号处理理论已广泛流行并被确立为与语音和音频信号处理有关的研究领域中最基本的概念,但是由于简单模型结构的局限性,其性能受到限制。这项研究旨在通过基于深度学习的信号模型来建立一种新型的语音信号生成技术,并通过应用于音频信号产生(例如语音综合,语音编码,语音质量转换,甚至乐器乐器的声音)来验证其有效性。特别是,我们将探索一种模型结构,从多视图的角度和鸟类眼睛的观点,旨在阐明一个模型结构,该模型结构结合了传统语音波形生成方法的优势,例如“部分引入传统模型结构”和“通过训练数据扩展来实现控制控制结构”。关于今年,我们一直在考虑从多视图的角度考虑适合语音生成的深度学习模型结构。我们还进行了一项不依赖应用领域的研究,然后开始考虑取决于三个主要应用领域的研究:“语音综合和唱歌语音综合”,“语音编码”和“语音质量转换”。此外,同时,为了实现常规模型的优势,“轻质”和“可控性”,我们讨论了“部分介绍常规模型结构”,并提出了一种可以在End2End中学习的方法,同时与神经网络模型相结合,通过实现与GPUS的常规信号处理模式相结合,并确认其有效性,并确认其有效性。实施的核心部分已作为开源软件发布。此外,同时,我们研究了几种有关“通过训练数据扩展进行内部化控制结构”的方法,并将其与其他方法进行了比较。

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Singing Voice Synthesis Based on a Musical Note Position-Aware Attention Mechanism
自己教師あり学習による特徴抽出器とcoarse-fine変換を用いた少量学習データによる歌声変換
使用特征提取器使用少量训练数据进行歌声转换,使用自监督学习和粗细转换
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田中琉聖;山田淳司;高木信二 ;橋本佳;南角吉彦;徳田恵一
  • 通讯作者:
    徳田恵一
半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成
基于使用半监督学习的分层生成模型的日语端到端语音合成
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤本崇人;橋本佳;南角吉彦;徳田恵一
  • 通讯作者:
    徳田恵一
発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成
基于帧驱动注意机制的歌声合成,考虑到声音时序变化
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西原美玖;法野行哉;橋本佳;南角吉彦;徳田恵一
  • 通讯作者:
    徳田恵一
微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討
结合可微分梅尔倒谱合成滤波器的端到端语音合成系统的研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    吉村建慶;高木信二;中村和寛;大浦圭一郎;法野行哉;橋本佳;南角吉彦;徳田恵一
  • 通讯作者:
    徳田恵一
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

徳田 恵一其他文献

分離型2次元格子HMMに基づく顔画像認識
基于可分离二维网格HMM的人脸图像识别
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    布目 哲也;南角 吉彦;徳田 恵一;北村 正
  • 通讯作者:
    北村 正
英語音声合成における韻律推定モデルと音響モデルの同時学習
英语语音合成中韵律估计模型和声学模型的同时学习
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大浦 圭一郎;戸田 智基;南角 吉彦;徳田 恵一;マイアハニエリ;坂井 信輔;中村 哲
  • 通讯作者:
    中村 哲
Knowledge-based Discovery in Systems Biology using CF-Induction.
使用 CF-Induction 在系统生物学中进行基于知识的发现。
Blizzar Challenge 2007のための平均声に基づくHMM音声合成システムの評価
2007 年暴雪挑战赛基于平均语音的 HMM 语音合成系统评估
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    能勢 隆;山岸 順一;全 柄河;戸田 智基;徳田 恵一
  • 通讯作者:
    徳田 恵一
F0量子化と非パラレル学習に基づく声質変換の評価
基于F0量化和非并行学习的语音质量转换评估

徳田 恵一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('徳田 恵一', 18)}}的其他基金

深層学習に基づいた新世代音声・オーディオ信号生成に関する研究
基于深度学习的新一代语音音频信号生成研究
  • 批准号:
    23K24870
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
t分布仮定に基づくロバストスペクトル推定
基于t分布假设的鲁棒谱估计
  • 批准号:
    97F00343
  • 财政年份:
    1998
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
マルチモーダル音声認識・合成によるインターフェースの構築
使用多模态语音识别和合成构建界面
  • 批准号:
    10780226
  • 财政年份:
    1998
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
隠れマルコフモデルを用いた認識ボコーダー極低ビットレート音声符号化-
使用隐马尔可夫模型进行极低比特率语音编码的识别声码器
  • 批准号:
    08780333
  • 财政年份:
    1996
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
隠れマルコフモデルを用いた音声の規則合成-喜怒哀楽の表現を目指して-
使用隐马尔可夫模型规则合成语音 - 旨在表达喜、怒、哀、乐 -
  • 批准号:
    07858043
  • 财政年份:
    1995
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
音声データ圧縮・蓄積システムの高品質・低ビットレート化に関する研究
高质量低码率音频数据压缩与存储系统研究
  • 批准号:
    06750373
  • 财政年份:
    1994
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
適応メルケプストラム分析法に基づく音声の高能率符号化法に関する研究
基于自适应梅尔倒谱分析方法的高效语音编码方法研究
  • 批准号:
    04750270
  • 财政年份:
    1992
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似国自然基金

面向远场拾音的微分声场测量理论与关键技术研究
  • 批准号:
    61901318
  • 批准年份:
    2019
  • 资助金额:
    29.0 万元
  • 项目类别:
    青年科学基金项目
通用声场空间信息捡拾与重放方法的研究
  • 批准号:
    11174087
  • 批准年份:
    2011
  • 资助金额:
    70.0 万元
  • 项目类别:
    面上项目
可压缩性对跨音边楞音的影响研究
  • 批准号:
    10802004
  • 批准年份:
    2008
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
短声及低频音刺激下声诱发短潜伏期负电位之神经来源
  • 批准号:
    30360110
  • 批准年份:
    2003
  • 资助金额:
    18.0 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

教育効果を考慮した大規模音声言語モデルに基づく教材生成AIの構築
考虑教育效果的基于大规模口语模型的教材生成人工智能构建
  • 批准号:
    24K06322
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
深層生成モデルを活用した構成的なパターン認識・理解
使用深度生成模型进行建设性模式识别和理解
  • 批准号:
    23H00490
  • 财政年份:
    2023
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
深層エネルギーベースモデルによる創造的声質変換の研究
使用深度能量模型进行创造性语音质量转换的研究
  • 批准号:
    23K11161
  • 财政年份:
    2023
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
ハーモニーの感性情報のモデル構築に基づく楽曲生成技術の研究
基于和声情感信息模型构建的音乐生成技术研究
  • 批准号:
    22K18015
  • 财政年份:
    2022
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
An ecoacoustic and agent-based model based on a fusion of real data and an evolutionary model
基于真实数据和进化模型融合的生态声学和基于代理的模型
  • 批准号:
    21K12058
  • 财政年份:
    2021
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了