基于观测图像的发音器官运动合成研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61175016
项目类别：
面上项目
资助金额：
59.0万
负责人：
魏建国
依托单位：
天津大学
学科分类：
F0605.模式识别与数据挖掘
结题年份：
2015
批准年份：
2011
项目状态：
已结题
起止时间：
2012-01-01 至2015-12-31

项目参与者：
党建武；王洪翠；李强；玄成君；黄典；吕方；张旭；
关键词：
可视语音合成声道可视化多模态语音处理生理发音模型

项目摘要

发音器官运动的可视化是进行语音学习和语音康复指导的重要辅助手段。目前可视化语音合成主要包括可见发音器官，本课题是要基于观测图像来同时合成可见及不可见发音器官运动。声道中不可见发音器官如舌头，上颚等，其数据采集非常困难并涉及多模态数据的同步与融合。本研究将利用由超声仪、高速摄像头等设备组成的多模态数据采集系统，记录发音器官的运动,并建立保证各个模态数据间同步和融合的方法。利用语音学知识作为约束来解决从高噪声的超声图像中自动提取发音器官边界等特征的难题。利用生理发音模型用仿真拟合的方法从超声图像中重构完整声道形状。最后，利用隐马尔科夫模型生成的参数轨迹来进行图像拼接单元的选取，合成基于观测图像的发音器官运动视频。

结项摘要

发音器官运动的可视化是进行语音学习和语音康复指导的重要辅助手段。在语音教学中，一直以来老师都要教授所要发音的舌位。如果在学习中能看到标准发音人的舌头、唇部运动并与自己的发音器官运动进行比较, 必将大大提高语音学习的效果。同样，对于有构音障碍的人，在语音训练中如果能够把自己发音器官与正确发音运动做比较必将大大提高语音矫正的效果、缩短语音矫正时间。然而实现基于真实图像的发音器官的可视化合成一直以来是个难点问题，主要因为不可见发音器官(如舌头,上颚等)观测困难、从记录的图像中进行特征自动提取困难、观测的声道形态有时不完整等原因。本课题对这些问题的解决方法进行了研究，从而实现基于观测数据来合成发音器官运动。目前可视化语音合成主要包括可见发音器官，本课题主要基于观测图像来同时合成可见及不可见发音器官运动。声道中不可见发音器官如舌头，上颚等，其数据采集非常困难并涉及多模态数据的同步与融合。本课题建立了由超声仪、高速摄像头、喉头仪和电磁发音记录仪（EMA）等组成的生理语音数据采集系统并开发多模态数据采集控制软件。基于该采集系统，本课题采集并构建了汉语普通话说话人数据库以及藏汉双语多模态生理语音数据库。此外，课题组赴日本国际电气通信基础技术研究所完成人体发音过程核磁共振图像（MRI）数据的采集工作。由于超声图像是高斑点噪声图像，本课题首先对其进行图像降噪处理从而提高边界自动提取的效果。虽然超声图像包含舌头发音时的主要形态，其记录的舌头表面信息却不完整，对此，在本课题中将超声图像、与EMA数据于空间进行融合进而驱动MRI图像以及生理发音模型，从而实现完整内部声道的构建。此外，课题组利用机器学习对超声图像与语音数据进行训练，从而得到超声图像与音频之间的映射模型。本课题建立了多模态生理语音数据采集系统、数据库以及对应生理、声学模型，不仅实现了发音器官可视化，为语言学习、语音康复提供帮助，更有效促进语音生理层面的研究，从而为研究生理发音机理, 进而促进语音处理的研究提供数据基础。