深層ベイズ学習に基づく歌声の認識と生成の統一理論
基于深度贝叶斯学习的歌声识别与生成统一理论
基本信息
- 批准号:19J15255
- 负责人:
- 金额:$ 1.34万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2019
- 资助国家:日本
- 起止时间:2019-04-25 至 2021-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では,音楽音響信号から歌声が担う主旋律の楽譜を推定する歌声採譜技術を扱う.主旋律は多くの楽曲の印象に密接に関連しているため,歌声採譜は認識・生成の双方向歌声解析において重要な技術である.歌声の音高軌跡(F0軌跡)はビブラートやオーバシュート等の歌唱表現よって,楽譜に記述された音符の音高や発音時刻から大きく逸脱しているため,単純な方法では音楽的に不自然な音符列が推定されてしまう.また,従来法は事前推定したF0軌跡を時間・周波数方向に離散化して楽譜を推定しているが,事前推定による誤差伝播の問題や音符のオンセット情報が欠落したF0軌跡からは同音高の連続音符の境界が判定不能という問題があるため,音楽音響信号を直接扱える手法の構築が必要であった.そこで本研究では,深層ニューラルネットワークに基づく音響モデルと従来の統計モデルに基づく言語モデルを統合した音楽音響信号の生成モデルを開発した.提案モデルにおいて,言語モデルはセミマルコフモデル(semi-Markov model; SMM)で構成され,調に依存しながら音符系列が生成される過程を表現する.また,音響モデルは畳み込みリカレントニューラルネットワーク(convolutional recurrent neural network; CRNN)で構成され,音符に基づいて観測音楽音響信号が生成される過程を表現する.提案モデルは,言語モデルに基づく音符に関する文法的な知識とCRNN音響モデルの表現力の両方を活用しながら,ビタビアルゴリズムを用いて音楽信号から直接音符を推定する.実際の音楽音響信号と合成の歌声を用いた評価実験では,従来の歌声F0軌跡に対する歌声採譜手法よりも高い性能を達成した.また,音響モデルのみ用いて推定された楽譜よりも高い性能を達成したことから,言語モデルと音響モデルを統合することの有効性も確認した.
In this study, there are で で, musical sound signals, ら, singing, が, う, main melody, <s:1>, musical score, を, する, and singing score collection techniques, を, う. Melody は more く の joy song の impression に contact に masato even し て い る た め, song transcribing は know, generate の both sides to song parsing に お い て important な technology で あ る. Song の pitch trajectory (F0 trajectory) は ビ ブ ラ ー ト や オ ー バ シ ュ ー ト の singing performance such as よ っ て, joy spectrum に account さ れ た notes の pitch や 発 sound moment か ら big き く ease off し て い る た め, 単 pure な method で は sound of joy に unnatural な notes column が presumption さ れ て し ま う. ま た 従 to law presumption は advance し た F0 trajectory を time, cycle for direction に discretization し て joy spectrum を presumption し て い る が, advance the presumption に よ 伝 sowing の る error problem や notes の オ ン セ ッ ト intelligence が owe fall し た F0 trajectory か ら は homophones high の even 続 notes の realm が judgement cannot と い う problem が あ る た め, The musical sound signal を directly handles える techniques are used to construct が necessary であった. そ こ で this study で は, deep ニ ュ ー ラ ル ネ ッ ト ワ ー ク に base づ く sound モ デ ル と 従 to の statistical モ デ ル に base づ く words モ デ ル を integration し た sound joy sound signal の generated モ デ ル を open 発 し た. Proposal モ デ ル に お い て, words モ デ ル は セ ミ マ ル コ フ モ デ ル (semi - Markov model; SMM) で constitute さ れ, adjustable に dependent し な が ら notes series が generated さ れ を る process performance す る. ま た, acoustics モ デ ル は 畳 み 込 み リ カ レ ン ト ニ ュ ー ラ ル ネ ッ ト ワ ー ク (convolutional recurrent neural network; CRNN) で constitute さ れ, notes に base づ い て 観 measuring sound joy sound signal が generated さ れ を る process performance す る. Proposal モ デ ル は, words モ デ ル に base づ く notes に masato す る grammar knowledge of な と CRNN sound モ デ ル の expressive の struck party を use し な が ら, ビ タ ビ ア ル ゴ リ ズ ム を with い て sound joy signal か ら notes directly を presumption す る. Joy be interstate の notes sound signal と synthetic を の song with い た review 価 be 験 で は, 従 to F0 の song tracks に す seaborne る song transcribing gimmick よ り も い を performance to achieve high し た. ま た, acoustics モ デ ル の み with い て presumption さ れ た joy spectrum よ り も い を performance to achieve high し た こ と か ら, speech モ デ ル と sound モ デ ル を integration す る こ と の have sharper sex も confirm し た.
项目成果
期刊论文数量(28)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
LSTM-HSMMハイブリッドモデルに基づく音楽構造解析
基于LSTM-HSMM混合模型的音乐结构分析
- DOI:
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:柴田 剛;錦見 亮;中村 栄太;吉井 和佳
- 通讯作者:吉井 和佳
Audio-to-score singing transcription based on a CRNN-HSMM hybrid model
- DOI:10.1017/atsip.2021.4
- 发表时间:2021-04
- 期刊:
- 影响因子:3.2
- 作者:Ryo Nishikimi;Eita Nakamura;Masataka Goto;Kazuyoshi Yoshii
- 通讯作者:Ryo Nishikimi;Eita Nakamura;Masataka Goto;Kazuyoshi Yoshii
ピアノ採譜のための深層学習に基づく音価と声部の同時推定
基于深度学习的钢琴转录音值和声部同步估计
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:平松 祐紀;柴田 剛;錦見 亮;中村 栄太;吉井 和佳
- 通讯作者:吉井 和佳
深層クラスタリングを用いた任意楽器パートの自動採譜
使用深度聚类自动转录任意仪器部件
- DOI:
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:田中 啓太郎;中塚 貴之;錦見 亮;吉井 和佳;森島 繁生
- 通讯作者:森島 繁生
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
錦見 亮其他文献
錦見 亮的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
形式言語理論に基づく自動採譜
基于形式语言理论的自动转录
- 批准号:
23K20392 - 财政年份:2024
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
音の三要素に基づく生成過程を考慮した深層ベイズ自動採譜
基于声音三要素考虑生成过程的深度贝叶斯自动转录
- 批准号:
22KJ2959 - 财政年份:2023
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for JSPS Fellows
難曲津軽三味線民謡(じょんがら節)の構成音素解明と高精度自動採譜手法に関する研究
津轻三味线疑难民歌构成音素解析及高精度自动转写方法研究
- 批准号:
21K11983 - 财政年份:2021
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音楽理論知識に基づく音楽信号からの自動採譜の研究
基于乐理知识的音乐信号自动转录研究
- 批准号:
26880022 - 财政年份:2014
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Research Activity Start-up