唱歌辅助系统相关技术的研究
结题报告
批准号:
61761041
项目类别:
地区科学基金项目
资助金额:
37.0 万元
负责人:
胡英
依托单位:
学科分类:
F0117.多媒体信息处理
结题年份:
2021
批准年份:
2017
项目状态:
已结题
项目参与者:
周刚、黄志华、钟秀娴、包武杰、张晶晶、许莹莹、董兴磊、王国薇、王俊超
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
本项目致力于唱歌辅助系统相关技术的研究,唱声分离、唱声旋律的自动提取、歌词自动转录和歌唱表现的合理评价亟需进一步提高性能。本项目拟研究:(1)基于非负矩阵部分联合分解和基于深度循环神经网络的单声道唱声分离算法;(2)基于唱声谐波增强,结合唱声音高的时域连续性和音高变化的平滑性的自动唱声旋律提取算法;(3)基于特征变换和频谱变换的唱声数据扩展,以深度神经网络-隐马尔可夫模型为基础的唱声建模方案,以优化序列级与识别目标更贴近的目标函数为标准的自动歌词转录算法;(4)基于与主观评价有着较高一致性的特征提取和多特征匹配模型的得分机制,提高歌唱表现的客观评价的合理性。本课题将理论分析和实验研究相结合,旨在建立唱歌辅助系统中唱声分离模型和旋律提取模型,探索有效歌词识别算法,实现唱声的有效分离、旋律的准确提取、歌词转录的准确性和鲁棒性,提高歌唱表现客观评价的合理性,为唱歌辅助系统的应用奠定理论基础。
英文摘要
This project dedicates it to the research of the technology associated with singing assistance. The following four aspect need to be further improved: singing voice separation, singing melody extraction, lyric transcription and the evaluation of singing performance. The project intends to make studies of (1) the monaural singing separation based on Non-negative Matrix Partial Co-Factorization and Deep Recurrent Neural Network; (2) the singing melody extraction based on the enhancement of singing harmonic component and the using of smoothness of pitch varying along the time. (3)the automatic lyrics transcription which includes the singing database extension based on feature transformation and spectrum transformation, and the singing modeling framework based on DNN-HMM (Deep Neural Network-Hidden Markov Model); (4) the evaluation of singing performance that combines the features highly according with the subject evaluation and the scoring mechanism based on the feature matching. This project focuses on the singing separation model and the melody extraction model, combing the theoretical analysis and experimental research, and making study of the lyrics transcription and the rational singing performance evaluation. These researches sever the theoretical foundation of singing assistance system.
本项目做了四个方面的研究,具体内容和创新成果如下:.A.唱声分离和语音分离.针对单通道歌曲唱声分离任务,提出一种基于嵌套U-Net和时频掩蔽的声分离算法,同时重构出分离的唱声和伴奏。还提出一种基于双注意力机制和多阶段混合卷积网络的分离模型,也同时输出分离的唱声和伴奏。我们提出的网络具有较小参数量,在三种数据集上获得了优异的唱声分离和伴奏分离性能。.针对单通道混合语音的多说话人语音分离任务,提出一种基于浅层特征重激活机制和多阶段混合注意力机制多说话人语音分离模型,以及一种基于门控残差卷积深度聚类的语音分离模型,这两种模型均同时输出多个目标说话人语音的时域波形。.B.音乐的音高估计.针对音乐的单音音高估计,我们提出一种数据驱动的双注意力网络的音高估计模型,直接对单音音乐的时域波形进行处理,输出一个360维向量,代表360种音高。实验结果显示,具有紧耦合模式的双注意力网络在两种数据集上达到最佳性能。.C.语音情感识别.针对对话语音的情感识别,提出了一中基于深度可分离卷积和反向残差连接的语音情感识别模型,该模型对4类情感识别任务,在语料库 IEMOCAP 和 EmoDB 上的分别达到了71.72%和 90.1%的未加权精度 UA。与目前已知参数量最少的模型相比,我们提出的模型的参数量降低了 5 倍。.提出一种基于多模态交互注意力机制的语音情感识别模型。采用音频和文本两种模态的信息实现语音情感识别已经达到了国际领先的水平,对于7类情感的分类任务,在IEMOCAP语料库的加权准确率达到72.8%,非加权准确率达到62.5%。.D.声音事件检测和声源定位.针对声音事件检测和分类,提出一种基于选择性特征融合的声音事件检测网络。提出的算法在三个指标上在DCASE2018验证集上对比国内国际同行的方法均有一定的提升。.针对声源定位和声音事件检测的联合任务,提出了一种基于自适应混合卷积和多尺度特征提取的声音事件定位与检测算法,该算法能够很好地处理噪声和混响场景下的声源定位与检测任务。与其他主流的算法相比,我们的算法在6种数据集上都取得了较好的结果。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2019
期刊:计算机工程与应用
影响因子:--
作者:许莹莹;黄浩
通讯作者:黄浩
A transfer learning approach to goodness of pronunciation based automatic mispronunciation detection
基于自动发音错误检测的发音良好度的迁移学习方法
DOI:10.1121/1.5011159
发表时间:2017
期刊:Journal of the Acoustical Society of America
影响因子:2.4
作者:Huang Hao;Xu Haihua;Hu Ying;Zhou Gang
通讯作者:Zhou Gang
DOI:10.19678/j.issn.1000-3428.0048134
发表时间:2018
期刊:计算机工程
影响因子:--
作者:王俊超;黄浩;徐海华;胡英
通讯作者:胡英
Using Deep Time Delay Neural Network for Slot Filling in Spoken Language Understanding
使用深度时延神经网络进行口语理解中的槽填充
DOI:10.3390/sym12060993
发表时间:2020
期刊:Symmetry-Basel
影响因子:2.7
作者:Zhang Zhen;Huang Hao;Wang Kai
通讯作者:Wang Kai
DOI:10.16383/j.aas.c180065
发表时间:2020
期刊:自动化学报
影响因子:--
作者:董兴磊;胡英;黄浩;吾守尔·斯拉木
通讯作者:吾守尔·斯拉木
国内基金
海外基金