Next-generation audio and speech processing architectures based on deep learning

基于深度学习的下一代音频和语音处理架构

基本信息

  • 批准号:
    22H03614
  • 负责人:
  • 金额:
    $ 11.07万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。本研究では、深層学習に基づいて信号モデルを構成することにより、新しい形の音声信号生成技術を確立し、音声合成、音声符号化、声質変換、更には楽器音等のオーディオ音声信号生成への応用により、その有効性を検証することを目的とする。特に、多視点的・俯瞰的な観点から、音声波形生成に適したモデル構造を探求するとともに、「従来型モデル構造の部分導入」および「学習データ拡張による制御構造の内在化」のふたつのアプローチにより、従来型の音声波形生成手法の利点である「軽量性」、「制御性」を兼ね備えたモデル構造を明らかにすることを目指す。本年度に関しては、多視点的・俯瞰的な観点から、音声生成に適した深層学習モデル構造について検討を進めた。また、応用分野に依存しない形の検討を行い、続いて「音声合成・歌声合成」、「音声符号化」、「声質変換」の3つの主要応用分野に依存した検討を開始した。また、並行して、従来型のモデルの利点である「軽量性」、「制御性」の実現のため、「従来型モデル構造の部分導入」について検討し、微分可能な形の従来型の信号処理モジュールをGPU向きの並列実装することにより、ニューラルネットワークモデルと組み合わせながら、End2endに学習可能な手法を提案し、その有効性を確認した。実装のコア部分についてはオープンソースソフトウェアとして公開した。また、並行して「学習データ拡張による制御構造の内在化」に関しては、いくつかの方式について検討を進め、他手法との比較を行った。
従 type to の デ ジ タ ル signal は 処 motivation theory, sounds オ ー デ ィ オ signal 処 Richard masato even の research eset に お け る も most fundamental な exam え party と し て hiroo く popularization, fixed on し て い る が, 単 pure な モ デ ル tectonic に よ る restrict の た め, そ の performance に は limit が あ っ た. This study で は, deep learning に づ い て signal モ デ ル を constitute す る こ と に よ り, new し い form の sound signal generated し を established technology, sound synthesis, sound sound symbolic, sound quality, and the variations in, more に は joy sound and other の オ ー デ ィ オ voice signal generated へ の 応 with に よ り, そ の have sharper sex を 検 card す る こ と を purpose と す る. に, multiple viewpoints of · of overlooking な 観 point か ら, voice waveform generation に optimum し た モ デ を ル structure to explore す る と と も に, type "従 モ デ ル tectonic の part import" お よ び "learning デ ー タ company, zhang に よ る suppression structure の internalization" の ふ た つ の ア プ ロ ー チ に よ り, 従 to の voice waveform generation technique の tartness で あ る "軽 quantity", "system The term "を and ね" is used to construct えたモデ, を, ら, にする, にする, とを, and refers to す. This year に masato し て は, multiple viewpoints, overlooking the な 観 point か ら, sounds generated に optimum し た deep learning モ デ ル tectonic に つ い て beg を 検 into め た. ま た, 応 eset に dependent し な い form の beg を 検 い, 続 い て song "voice synthesis, synthesis", "symbolic" sounds, sound quality, and the variations in の 3rd つ の main 応 use eset に dependent し た を 検 please start し た. ま た, parallel し て, 従 to の モ デ ル の tartness で あ る "軽 sex", "suppression" の be presently の た め, type "従 モ デ ル tectonic の part import" に つ い て beg し 検, differential may な の 従 type to の signal 処 Richard モ ジ ュ ー ル を GPU to き の is in be loaded す る こ と に よ り, ニ ュ ー ラ ル ネ ッ ト ワ ー ク モ デ ル と group み わ Youdaoplaceholder0, End2endに learning possible な techniques を proposal な, そ を effectiveness を confirmation た た. Actual equipment: コア section に に コア て て <s:1> プ プ ソ スソフトウェアと スソフトウェアと て て public: た. ま た, parallel し て "learning デ ー タ company, zhang に よ る suppression structure の internalization" に masato し て は, い く つ か の way に つ い て beg を 検 め, his technique と の is line を っ た.

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Singing Voice Synthesis Based on a Musical Note Position-Aware Attention Mechanism
半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成
基于使用半监督学习的分层生成模型的日语端到端语音合成
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤本崇人;橋本佳;南角吉彦;徳田恵一
  • 通讯作者:
    徳田恵一
自己教師あり学習による特徴抽出器とcoarse-fine変換を用いた少量学習データによる歌声変換
使用特征提取器使用少量训练数据进行歌声转换,使用自监督学习和粗细转换
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田中琉聖;山田淳司;高木信二 ;橋本佳;南角吉彦;徳田恵一
  • 通讯作者:
    徳田恵一
微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討
结合可微分梅尔倒谱合成滤波器的端到端语音合成系统的研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    吉村建慶;高木信二;中村和寛;大浦圭一郎;法野行哉;橋本佳;南角吉彦;徳田恵一
  • 通讯作者:
    徳田恵一
発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成
基于帧驱动注意机制的歌声合成,考虑到声音时序变化
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西原美玖;法野行哉;橋本佳;南角吉彦;徳田恵一
  • 通讯作者:
    徳田恵一
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

徳田 恵一其他文献

英語音声合成における韻律推定モデルと音響モデルの同時学習
英语语音合成中韵律估计模型和声学模型的同时学习
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大浦 圭一郎;戸田 智基;南角 吉彦;徳田 恵一;マイアハニエリ;坂井 信輔;中村 哲
  • 通讯作者:
    中村 哲
分離型2次元格子HMMに基づく顔画像認識
基于可分离二维网格HMM的人脸图像识别
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    布目 哲也;南角 吉彦;徳田 恵一;北村 正
  • 通讯作者:
    北村 正
Blizzar Challenge 2007のための平均声に基づくHMM音声合成システムの評価
2007 年暴雪挑战赛基于平均语音的 HMM 语音合成系统评估
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    能勢 隆;山岸 順一;全 柄河;戸田 智基;徳田 恵一
  • 通讯作者:
    徳田 恵一
Knowledge-based Discovery in Systems Biology using CF-Induction.
使用 CF-Induction 在系统生物学中进行基于知识的发现。
F0量子化と非パラレル学習に基づく声質変換の評価
基于F0量化和非并行学习的语音质量转换评估

徳田 恵一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('徳田 恵一', 18)}}的其他基金

深層学習に基づいた新世代音声・オーディオ信号生成に関する研究
基于深度学习的新一代语音音频信号生成研究
  • 批准号:
    23K24870
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
t分布仮定に基づくロバストスペクトル推定
基于t分布假设的鲁棒谱估计
  • 批准号:
    97F00343
  • 财政年份:
    1998
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
マルチモーダル音声認識・合成によるインターフェースの構築
使用多模态语音识别和合成构建界面
  • 批准号:
    10780226
  • 财政年份:
    1998
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
隠れマルコフモデルを用いた認識ボコーダー極低ビットレート音声符号化-
使用隐马尔可夫模型进行极低比特率语音编码的识别声码器
  • 批准号:
    08780333
  • 财政年份:
    1996
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
隠れマルコフモデルを用いた音声の規則合成-喜怒哀楽の表現を目指して-
使用隐马尔可夫模型规则合成语音 - 旨在表达喜、怒、哀、乐 -
  • 批准号:
    07858043
  • 财政年份:
    1995
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
音声データ圧縮・蓄積システムの高品質・低ビットレート化に関する研究
高质量低码率音频数据压缩与存储系统研究
  • 批准号:
    06750373
  • 财政年份:
    1994
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
適応メルケプストラム分析法に基づく音声の高能率符号化法に関する研究
基于自适应梅尔倒谱分析方法的高效语音编码方法研究
  • 批准号:
    04750270
  • 财政年份:
    1992
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

インターネットデータの活用によるテキスト音声合成の感情表現力向上
利用互联网数据提高文本语音合成的情感表现力
  • 批准号:
    24KJ0860
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
音声・楽器音の物理的生成過程を加味した深層音分析合成法の確立
建立考虑人声和器乐声音物理产生过程的深度声音分析和合成方法
  • 批准号:
    24KJ1236
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
グローバルコミュニケーションに資する大脳皮質の音声情報処理機能単位の解明
阐明有助于全球交流的大脑皮层声音信息处理功能单元
  • 批准号:
    24K15685
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声離散表現の超圧縮による教師なし音声言語学習の言語学的妥当性向上
通过超压缩离散语音表示提高无监督口语学习的语言有效性
  • 批准号:
    24K15087
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
超ミキシングを実現する成分選択と相互同調の研究および音声・音楽データベースの完成
研究组件选择和互调以实现超级混音,并完成音频/音乐数据库
  • 批准号:
    24K14989
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声環境を可視化可能な対話型聴導犬ロボットに関する研究
可视化音频环境的交互式助听狗机器人研究
  • 批准号:
    24K20875
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
読み書き困難児に音声に頼る学習方略を安心して奨められるようになるための環境整備
创造一个环境,鼓励有阅读和写作困难的孩子安心地使用基于音频的学习策略
  • 批准号:
    23K22301
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
多様な英語の音声理解のメカニズムの研究:アジア・アフリカの英語を中心に
各种英语语言的语音理解机制研究——以亚洲和非洲英语为中心
  • 批准号:
    23K20468
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
方言音声データの分析と検索を可能にする諸方言に普遍な音声言語処理基盤モデルの構築
构建多种方言的通用语音语言处理平台模型,实现方言语音数据的分析和检索
  • 批准号:
    24K00450
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
調音の構造的分析による東北方言音声の通時的変化の解明-30年前の全域調査との比較-
通过发音结构分析阐明东北方言语音的历时变化 - 与 30 年前全国调查的比较 -
  • 批准号:
    24K03909
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了