结合发音动作参数的统计建模语音合成方法研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
60905010
项目类别：
青年科学基金项目
资助金额：
19.0万
负责人：
凌震华
依托单位：
中国科学技术大学
学科分类：
F0605.模式识别与数据挖掘
结题年份：
2012
批准年份：
2009
项目状态：
已结题
起止时间：
2010-01-01 至2012-12-31

项目参与者：
戴礼荣；卢恒；王程程；赵天毅；雷鸣；
关键词：
发音动作参数声学参数语音合成隐马尔科夫模型

项目摘要

对语音合成系统音色特征的灵活控制是语音合成技术发展的一个重要方向。传统的大语料库拼接合成方法和基于声学统计模型的参数语音合成方法已经能够较好的解决语音合成的自然度与可懂度问题；但在语音合成的灵活性上，这两种方法会受到对训练数据的依赖性强、难以融合语音学知识等问题的制约。发音动作参数作为声学参数之外的一种语音表征方式，描述的是说话人发音过程中舌、唇等发音器官的位置与运动情况，它相比声学参数具有更加明确的生理意义，可以通过语音学发音规则直接控制，这为实现灵活可控的语音合成提供了一条新的思路。本项目旨在将发音动作参数引入基于隐马尔科夫模型的参数语音合成方面进行探索性的研究，希望通过对声学参数与发音动作参数的联合建模，将语音生成机理融入合成系统中，实现由语音学知识驱动的可控制语音合成方法，这在丰富语音信号的建模方法、促进语音学研究与言语工程的结合方面也具有重要意义。

结项摘要

本项目围绕结合发音动作参数的统计参数语音合成方法开展研究工作，旨在通过语音学知识驱动的方式提高语音合成系统的灵活可控性。经过为期三年的研究工作，项目课题组顺利完成了计划的研究内容与目标，具体包括:在声学-发音动作参数数据库建设方面，利用电磁发音仪（electromagnetic articulography，EMA）进行发音动作参数的采集，完成了国际上首个中文连续语流多发音人的声学-EMA 同步语料库；在声学-发音动作参数联合建模方法研究方面，提出了基于双流隐马尔科夫模型的声学-发音动作参数联合建模方法以及特征域的转换矩阵绑定方法，为基于发音动作参数的可控声学参数预测奠定了基础；在灵活可控的高质量声学参数生成方法研究方面，设计实现了基于声学-发音动作参数联合模型的层次化参数生成方法，提出了结合对数能量谱全局方差模型的参数生成方法以及基于最小Kullback-Leibler 距离的参数生成方法，一方面实现了对生成声学参数特征的灵活控制，另一方面提高了合成语音的音质与自然度。此外，我们还开展了基于隐马尔科夫模型的发音动作参数预测和基于共振峰参数的可控语音合成方面的研究，并完成了项目相关数据处理、模型训练以及合成演示软件的开发。项目研究成果共完成论文发表13篇，计算机软件著作权申请1项；培养博士研究生2人和硕士研究生2人。在结合发音动作参数的语音合成方面的论文发表，获得2010 年IEEE 信号处理学会最佳青年作者论文奖；项目负责人参与并集成本项目研究成果的“智能语音交互关键技术及应用开发平台”项目获得2011 年国家科技进步奖二等奖。项目课题组依托本项目，与英国爱丁堡大学语音技术研究中心合作申请2011 年度国家自然科学基金委员会-英国爱丁堡皇家学会合作交流项目并获批准（项目名称“用于灵活可控语音合成的发音动作参数-声学参数联合建模方法研究”，批准号61111130120）；共完成了4 人次的交流出访与和5 人次的外国专家来访，并完成了多篇合作论文的发表。为了在已取得研究成果基础上对本项目的研究内容进行进一步的延伸与拓展，项目负责人申请的2012年度国家自然科学基金青年-面上连续资助项目也已得到批准（项目名称“融合语音产生机理与统计声学建模的层次化语音合成方法研究”，批准号61273032）并开始项目实施。

项目成果

期刊论文数量（4）

专著数量（0）

科研奖励数量（2）

会议论文数量（9）

专利数量（0）

An Analysis of HMM-based prediction of articulatory movements

基于 HMM 的关节运动预测分析

DOI：
10.1016/j.specom.2010.06.006
发表时间：
2010-10
期刊：
SPEECH COMMUNICATION
影响因子：
3.2
作者：
Ling, Zhen-Hua;Richmond, Korin;Yamagishi, Junichi
通讯作者：
Yamagishi, Junichi

基于Viterbi 解码的中文合成音库韵律短语边界自动标注

DOI：
--
发表时间：
--
期刊：
清华大学学报(自然科学版)
影响因子：
--
作者：
杨辰雨;朱立新;凌震华;戴礼荣
通讯作者：
戴礼荣

数据更新时间：{{ journalArticles.updateTime }}

DOI：
{{ item.doi || "--"}}
发表时间：
{{ item.publish_year || "--" }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--"}}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.authors }}

数据更新时间：{{ patent.updateTime }}

其他文献

基于目标逼近特征和双向联想贮存器的情感语音基频转换

DOI：
--
发表时间：
2015
期刊：
天津大学学报
影响因子：
--
作者：
凌震华;高丽;戴礼荣
通讯作者：
戴礼荣

A Synthesis Instance Pruning Approach Based on Virtual Non-uniform Replacements(EI收录)

DOI：
--
发表时间：
--
期刊：
Tsinghua Science and Technology
影响因子：
6.6
作者：
胡国平;王仁华;张巍;凌震华
通讯作者：
凌震华

其他文献

DOI：
{{ item.doi || "--" }}
发表时间：
{{ item.publish_year || "--"}}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor || "--" }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

内容获取失败，请点击重试

重试

联系客服

开始分析

查看分析示例

此项目为已结题，我已根据课题信息分析并撰写以下内容，帮您拓宽课题思路：

AI项目思路

AI技术路线图

凌震华的其他基金

面向语音合成的神经网络声码器研究

批准号：
61871358
批准年份：
2018
资助金额：
63.0 万元
项目类别：
面上项目

融合语音产生机理与统计声学建模的层次化语音合成方法研究

批准号：
61273032
批准年份：
2012
资助金额：
80.0 万元
项目类别：
面上项目

相似国自然基金

批准号：
{{ item.ratify_no }}
批准年份：
{{ item.approval_year }}
资助金额：
{{ item.support_num }}
项目类别：
{{ item.project_type }}

相似海外基金

批准号：
{{ item.ratify_no }}
财政年份：
{{ item.approval_year }}
资助金额：
{{ item.support_num }}
项目类别：
{{ item.project_type }}

会员权益说明：

结合发音动作参数的统计建模语音合成方法研究

基本信息

项目摘要

结项摘要

项目成果

其他文献

其他文献

AI项目摘要

AI项目思路

AI技术路线图

凌震华的其他基金

相似国自然基金

相似海外基金

AI项目解读示例

AI项目摘要：

AI项目思路：

AI技术路线图