基于观测图像的发音器官运动合成研究
项目介绍
AI项目解读
基本信息
- 批准号:61175016
- 项目类别:面上项目
- 资助金额:59.0万
- 负责人:
- 依托单位:
- 学科分类:F0605.模式识别与数据挖掘
- 结题年份:2015
- 批准年份:2011
- 项目状态:已结题
- 起止时间:2012-01-01 至2015-12-31
- 项目参与者:党建武; 王洪翠; 李强; 玄成君; 黄典; 吕方; 张旭;
- 关键词:
项目摘要
发音器官运动的可视化是进行语音学习和语音康复指导的重要辅助手段。目前可视化语音合成主要包括可见发音器官,本课题是要基于观测图像来同时合成可见及不可见发音器官运动。声道中不可见发音器官如舌头,上颚等,其数据采集非常困难并涉及多模态数据的同步与融合。本研究将利用由超声仪、高速摄像头等设备组成的多模态数据采集系统,记录发音器官的运动,并建立保证各个模态数据间同步和融合的方法。利用语音学知识作为约束来解决从高噪声的超声图像中自动提取发音器官边界等特征的难题。利用生理发音模型用仿真拟合的方法从超声图像中重构完整声道形状。最后,利用隐马尔科夫模型生成的参数轨迹来进行图像拼接单元的选取,合成基于观测图像的发音器官运动视频。
结项摘要
发音器官运动的可视化是进行语音学习和语音康复指导的重要辅助手段。在语音教学中,一直以来老师都要教授所要发音的舌位。如果在学习中能看到标准发音人的舌头、唇部运动并与自己的发音器官运动进行比较, 必将大大提高语音学习的效果。 同样,对于有构音障碍的人,在语音训练中如果能够把自己发音器官与正确发音运动做比较必将大大提高语音矫正的效果、缩短语音矫正时间。然而实现基于真实图像的发音器官的可视化合成一直以来是个难点问题,主要因为不可见发音器官(如舌头,上颚等)观测困难、从记录的图像中进行特征自动提取困难、观测的声道形态有时不完整等原因。本课题对这些问题的解决方法进行了研究,从而实现基于观测数据来合成发音器官运动。目前可视化语音合成主要包括可见发音器官,本课题主要基于观测图像来同时合成可见及不可见发音器官运动。声道中不可见发音器官如舌头,上颚等,其数据采集非常困难并涉及多模态数据的同步与融合。本课题建立了由超声仪、高速摄像头、喉头仪和电磁发音记录仪(EMA)等组成的生理语音数据采集系统并开发多模态数据采集控制软件。基于该采集系统,本课题采集并构建了汉语普通话说话人数据库以及藏汉双语多模态生理语音数据库。此外,课题组赴日本国际电气通信基础技术研究所完成人体发音过程核磁共振图像(MRI)数据的采集工作。由于超声图像是高斑点噪声图像,本课题首先对其进行图像降噪处理从而提高边界自动提取的效果。虽然超声图像包含舌头发音时的主要形态,其记录的舌头表面信息却不完整,对此,在本课题中将超声图像、与EMA数据于空间进行融合进而驱动MRI图像以及生理发音模型,从而实现完整内部声道的构建。此外,课题组利用机器学习对超声图像与语音数据进行训练,从而得到超声图像与音频之间的映射模型。本课题建立了多模态生理语音数据采集系统、数据库以及对应生理、声学模型,不仅实现了发音器官可视化,为语言学习、语音康复提供帮助,更有效促进语音生理层面的研究,从而为研究生理发音机理, 进而促进语音处理的研究提供数据基础。
项目成果
期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(39)
专利数量(0)
Three-Dimensional Tongue Modeling Based on PCA for Visualized Pronunciation Feedback
基于PCA的三维舌头建模实现可视化发音反馈
- DOI:10.1007/978-3-642-34447-3_56
- 发表时间:2012-08
- 期刊:Communications in Computer and Information Science
- 影响因子:--
- 作者:Huang, Dian;Wang, Hongcui;Wei, Jianguo;Dang, Jianwu
- 通讯作者:Dang, Jianwu
Multi-modal recording and modeling of vocal tract movements
声道运动的多模式记录和建模
- DOI:10.1007/s11042-015-3040-4
- 发表时间:2016-05
- 期刊:Multimedia Tools and Applications
- 影响因子:3.6
- 作者:Lu, Wenhuan;Hou, Qingzhi;Fang, Qiang;Dang, Jianwu
- 通讯作者:Dang, Jianwu
Audio-visual speech recognition integrating 3D lip information obtained from the Kinect
集成从 Kinect 获得的 3D 唇形信息的视听语音识别
- DOI:10.1007/s00530-015-0499-9
- 发表时间:2016-06
- 期刊:Multimedia Systems
- 影响因子:3.9
- 作者:Wang Jianrong;Zhang Ju;Honda Kiyoshi;Wei Jianguo;Dang Jianwu
- 通讯作者:Dang Jianwu
Word Semantic Similarity Calculation Based on Domain Knowledge and HowNet
基于领域知识和知网的词语语义相似度计算
- DOI:10.11591/telkomnika.v12i2.4416
- 发表时间:2014-02
- 期刊:TELKOMNIKA Indonesian Journal of Electrical Engineering
- 影响因子:--
- 作者:Xinyuan Feng;Jianguo Wei;Wenhuan Lu;Jianwu Dang
- 通讯作者:Jianwu Dang
Mapping ultrasound-based articulatory images and vowel sounds with a deep neural network framework
使用深度神经网络框架映射基于超声的发音图像和元音声音
- DOI:10.1007/s11042-015-3038-y
- 发表时间:2016-05
- 期刊:Multimedia Tools and Applications
- 影响因子:3.6
- 作者:Zheng, Xinyuan;Lu, Wenhuan;He, Yuqing;Dang, Jianwu
- 通讯作者:Dang, Jianwu
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
磁等离子体发动机性能仿真计算
- DOI:--
- 发表时间:2015
- 期刊:通信卫星工程
- 影响因子:--
- 作者:魏建国;孙斌;余虔;赵杨;邓永锋;韩先伟;谭畅
- 通讯作者:谭畅
中国区域旅行社业效率的时空分异及驱动机制
- DOI:--
- 发表时间:2017
- 期刊:地理与地理信息科学
- 影响因子:--
- 作者:胡宇娜;梅林;魏建国
- 通讯作者:魏建国
孤立性纤维性肿瘤中GRIA2和STAT6的表达及意义
- DOI:--
- 发表时间:2018
- 期刊:临床与实验病理学杂志
- 影响因子:--
- 作者:曹 钟;魏建国;岑红兵;秦灵芝;敖启林
- 通讯作者:敖启林
沥青稳定碎石排水层配合比设计研究
- DOI:--
- 发表时间:2013
- 期刊:公路
- 影响因子:--
- 作者:郑木莲;彭磊;李延猛;魏建国
- 通讯作者:魏建国
反应流模拟的有限体积法的比较
- DOI:--
- 发表时间:2017
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:侯庆志;沈嘉渊;魏建国
- 通讯作者:魏建国
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
魏建国的其他基金
面向远场并发声学事件的深度实时分离研究
- 批准号:U1936102
- 批准年份:2019
- 资助金额:71.0 万元
- 项目类别:联合基金项目
基于自适应频率尺度变换的骨导鼾声识别关键技术研究
- 批准号:61471259
- 批准年份:2014
- 资助金额:85.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}