汉藏双语个性化多语种语音合成中的语言建模的研究
项目介绍
AI项目解读
基本信息
- 批准号:61263036
- 项目类别:地区科学基金项目
- 资助金额:45.0万
- 负责人:
- 依托单位:
- 学科分类:F0605.模式识别与数据挖掘
- 结题年份:2016
- 批准年份:2012
- 项目状态:已结题
- 起止时间:2013-01-01 至2016-12-31
- 项目参与者:甘振业; 郭威彤; 雒鹏; 裴东; 鲁小勇; 赵高超; 吴红利; 赵涛涛; 宋文龙;
- 关键词:
项目摘要
Polyglot speech synthesis, which can synthesize the speeches of different languages with the same speaker's voice, is a distinct field of research in multilingual speech processing. Because polyglot speech synthesis is closely related to languages, state-of-art researches are focusing on the languages such as English, Chinese and Japanese which have successfully developed speech synthesis technology, and there are lack of researches on polyglot speech synthesis for synthesizing mixed languages of Mandarin, Chinese minority languages such as Tibetan and Chinese dialects such as Lan-yin Mandarin Dialect due to the differences between different languages. In order to solve the above deficiencies, the proposal will focus on the polyglot speech synthesis of Mandarin, Tibetan which is the major minority language in Tibetan district and Gansu province, as well as Lan-yin Mandarin Dialect which is the major dialect in Gansu province. A set of language independent models will be trained by analyzing the similarities and differences between Madarin,Tibetan and Lan-yin Mandarin dialect. The target language models will be obtained from the language independent models by the language adaptation transformation. At the same time, an eigenvoice space will be learned by selecting the principal components of the voice characteristics from the speeches of different speakers. The speaker dependent model is then obtained by transforming the speaker independent model of the target language by the speaker adaptation transformat via the eigenvoice space. A Hidden Markov Model (HMM) based statictic parametric speech synthesis is realized to generate speech parameters from the speak dependent model of the target language for synthesizing the speech of Mandarin, Tibetan Lhasa Dialect, Tibetan Amdo Dialect and Lan-yin Mandarin dialect with various voice characteristics of different speakers. The proposed work will not only enrich the research on polyglot speech synthesis and develop the experimental phonetic research on Tibetan and Lan-yin dialect, but also promote the researches of language information processing in Gansu province and Tibetan region. In addition, the achievements of the work can be applied to Chinese-Tibetan spoken language processing system, Chinese-Tibetan bilingual teaching, human-computer interaction, entertainments and other fields. Therefore the research has important theoretical significance and application value.
多语种语音合成技术能够合成同一说话人说不同语言的语音,是多种语言语音处理中的重要研究内容。由于多语种语音合成的研究与语言密切相关,现有的研究主要针对语音合成技术比较成熟的汉语、日语、英语等语言展开,缺乏面向汉语普通话、少数民族语言以及方言的多语种语音合成的研究。针对此不足,本项目以普通话、藏族地区主要使用的藏语和甘肃省的兰银官话方言为对象,展开多语种语音合成的研究。通过分析多语种语音合成中语言之间的异同,建立语言独立的声学模型,利用语言自适应变换,获得目标语言模型;通过分析说话人说不同语言时的语音特征,建立表征说话人语音个性特色的特征音空间,并引入到说话人自适应变换中;利用统计参数语音合成技术,实现有个性特色的普通话、藏语和兰银官话的多语种语音合成。本项目能丰富藏语、兰银官话的语音处理研究和多语种语音合成的研究,促进藏族地区和甘肃省的语言信息处理研究的发展,有重要的理论意义和应用价值。
结项摘要
跨语言的语音合成能够利用同一个语音合成系统合成出不同语言的语音,成为了目前的研究热点,对促进方言和民族语言语音技术的发展有着重要的意义。但是,目前国内外的研究中,并没有一个完整的普通话/民族语言或普通话/方言的多语种语音合成系统。本项目以实现汉语普通话/藏语拉萨方言/兰音官话方言的跨语言语音合成为研究目标,在汉藏双语有情感表现力的个性特色语音合成、藏语可视语音合成、手语到汉藏双语转换、语音信号处理等方面取得了如下的成果。.1.实现了普通话/藏语/兰州方言跨语言语音合成上下文相关标注生成。设计了一套用于标注普通话/藏语/兰州方言声韵母的机读音标方案、一套面向统计参数语音合成的汉语/藏语/兰州方言的上下文相关的标注格式和一套用于对声学模型进行聚类的决策树问题集。提出了一种新的韵律边界预测算法。在此基础上,实现了普通话/藏语/兰州方言的上下文相关标注生成。.2.提出了一种实现普通话/藏语/兰州方言的跨语言语音合成方法。采用基于隐Markov模型的统计参数语音合成方法,以声韵母作为语音合成基元,利用多说话人的普通话大语料和单说话人的藏语/兰州方言小语料,通过说话人自适应训练获得语言无关的平均声学模型,利用说话人自适应变换获得目标语言的具有说话人个性特色的说话人相关模型,从而实现了利用同一个系统合成出不同语言和说话人的语音合成。对合成系统进行的大量的主客观评测表明,该方法能够利用少量的藏语或兰州方言的训练语句即可合成出音质较好的藏语或兰州方言语音,表明该方法对于训练语料难以获取的民族语言和方言的语音合成具有重要的意义。.3.对普通话/藏语/兰州方言的跨语言语音合成展开了应用研究。利用普通话情感训练语料实现了普通话/藏语的跨语言情感语音合成,利用该方法可实现缺少情感训练语料的语言的情感语音合成具。实现了手语到普通话/藏语的转换以及藏语可视语音合成。.4.展开了项目相关的语音信号处理算法研究。提出了一种新的语音增强算法和一种新的语音共振峰提取算法。
项目成果
期刊论文数量(15)
专著数量(0)
科研奖励数量(1)
会议论文数量(8)
专利数量(0)
Prosody Conversion of Chinese Northwest Mandarin Dialect based on Five Degree Tone Model
基于五声调模型的西北官话韵律转换
- DOI:10.4156/jdcta.vol6.issue17.35
- 发表时间:2012-09
- 期刊:International Journal of Digital Content Technology and Its Applications
- 影响因子:--
- 作者:GUO Wei-Tong;YANG Hong-Wu;PEI Dong;LIANG Qing-qing
- 通讯作者:LIANG Qing-qing
基于关键词识别的语音到手势的转换
- DOI:--
- 发表时间:2016
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:赵娜;杨鸿武
- 通讯作者:杨鸿武
基于说话人自适应训练的汉藏双语语音合成
- DOI:--
- 发表时间:2013
- 期刊:清华大学学报(自然科学版)
- 影响因子:--
- 作者:王海燕;杨鸿武;甘振业;裴东
- 通讯作者:裴东
复杂环境中多信息融合的手势识别
- DOI:--
- 发表时间:2014
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:裴东;王全州;杨鸿武;安占福
- 通讯作者:安占福
结合EMD和加权Mel倒谱的语音共振峰提取算法
- DOI:--
- 发表时间:2015
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:赵涛涛;杨鸿武
- 通讯作者:杨鸿武
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于改进混合CTC/attention架构的端到端普通话语音识别
- DOI:10.16783/j.cnki.nwnuz.2019.03.009
- 发表时间:2019
- 期刊:西北师范大学学报(自然科学版)
- 影响因子:--
- 作者:杨鸿武;周刚
- 通讯作者:周刚
一个面向言语工程的兰州方言语料库
- DOI:--
- 发表时间:--
- 期刊:西北师范大学学报(自然科学版)
- 影响因子:--
- 作者:杨鸿武;陈龙;郭威彤;梁青青;李锦珑
- 通讯作者:李锦珑
歌词到歌曲转换系统的实现
- DOI:--
- 发表时间:--
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:裴东;李锦珑;杨鸿武;刘慧娟;梁青青
- 通讯作者:梁青青
基于加权Mel倒谱系数的说话人识别
- DOI:--
- 发表时间:--
- 期刊:计算机应用与软件
- 影响因子:--
- 作者:杨鸿武;黄德智;刘亚丽
- 通讯作者:刘亚丽
基于EMD的声纹特征参数提取
- DOI:--
- 发表时间:--
- 期刊:西北师范大学学报(自然科学版)
- 影响因子:--
- 作者:宋海声;杨鸿武;周慧;刘亚丽
- 通讯作者:刘亚丽
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
杨鸿武的其他基金
藏族地区儿童国家通用语言口语智能学习的研究
- 批准号:62067008
- 批准年份:2020
- 资助金额:31 万元
- 项目类别:地区科学基金项目
基于深度学习的汉藏双语语音合成的研究
- 批准号:11664036
- 批准年份:2016
- 资助金额:42.0 万元
- 项目类别:地区科学基金项目
汉语文语转换中语义与表现力联合建模
- 批准号:60875015
- 批准年份:2008
- 资助金额:29.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}