汉藏双语个性化多语种语音合成中的语言建模的研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61263036
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    45.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0605.模式识别与数据挖掘
  • 结题年份:
    2016
  • 批准年份:
    2012
  • 项目状态:
    已结题
  • 起止时间:
    2013-01-01 至2016-12-31

项目摘要

Polyglot speech synthesis, which can synthesize the speeches of different languages with the same speaker's voice, is a distinct field of research in multilingual speech processing. Because polyglot speech synthesis is closely related to languages, state-of-art researches are focusing on the languages such as English, Chinese and Japanese which have successfully developed speech synthesis technology, and there are lack of researches on polyglot speech synthesis for synthesizing mixed languages of Mandarin, Chinese minority languages such as Tibetan and Chinese dialects such as Lan-yin Mandarin Dialect due to the differences between different languages. In order to solve the above deficiencies, the proposal will focus on the polyglot speech synthesis of Mandarin, Tibetan which is the major minority language in Tibetan district and Gansu province, as well as Lan-yin Mandarin Dialect which is the major dialect in Gansu province. A set of language independent models will be trained by analyzing the similarities and differences between Madarin,Tibetan and Lan-yin Mandarin dialect. The target language models will be obtained from the language independent models by the language adaptation transformation. At the same time, an eigenvoice space will be learned by selecting the principal components of the voice characteristics from the speeches of different speakers. The speaker dependent model is then obtained by transforming the speaker independent model of the target language by the speaker adaptation transformat via the eigenvoice space. A Hidden Markov Model (HMM) based statictic parametric speech synthesis is realized to generate speech parameters from the speak dependent model of the target language for synthesizing the speech of Mandarin, Tibetan Lhasa Dialect, Tibetan Amdo Dialect and Lan-yin Mandarin dialect with various voice characteristics of different speakers. The proposed work will not only enrich the research on polyglot speech synthesis and develop the experimental phonetic research on Tibetan and Lan-yin dialect, but also promote the researches of language information processing in Gansu province and Tibetan region. In addition, the achievements of the work can be applied to Chinese-Tibetan spoken language processing system, Chinese-Tibetan bilingual teaching, human-computer interaction, entertainments and other fields. Therefore the research has important theoretical significance and application value.
多语种语音合成技术能够合成同一说话人说不同语言的语音,是多种语言语音处理中的重要研究内容。由于多语种语音合成的研究与语言密切相关,现有的研究主要针对语音合成技术比较成熟的汉语、日语、英语等语言展开,缺乏面向汉语普通话、少数民族语言以及方言的多语种语音合成的研究。针对此不足,本项目以普通话、藏族地区主要使用的藏语和甘肃省的兰银官话方言为对象,展开多语种语音合成的研究。通过分析多语种语音合成中语言之间的异同,建立语言独立的声学模型,利用语言自适应变换,获得目标语言模型;通过分析说话人说不同语言时的语音特征,建立表征说话人语音个性特色的特征音空间,并引入到说话人自适应变换中;利用统计参数语音合成技术,实现有个性特色的普通话、藏语和兰银官话的多语种语音合成。本项目能丰富藏语、兰银官话的语音处理研究和多语种语音合成的研究,促进藏族地区和甘肃省的语言信息处理研究的发展,有重要的理论意义和应用价值。

结项摘要

跨语言的语音合成能够利用同一个语音合成系统合成出不同语言的语音,成为了目前的研究热点,对促进方言和民族语言语音技术的发展有着重要的意义。但是,目前国内外的研究中,并没有一个完整的普通话/民族语言或普通话/方言的多语种语音合成系统。本项目以实现汉语普通话/藏语拉萨方言/兰音官话方言的跨语言语音合成为研究目标,在汉藏双语有情感表现力的个性特色语音合成、藏语可视语音合成、手语到汉藏双语转换、语音信号处理等方面取得了如下的成果。.1.实现了普通话/藏语/兰州方言跨语言语音合成上下文相关标注生成。设计了一套用于标注普通话/藏语/兰州方言声韵母的机读音标方案、一套面向统计参数语音合成的汉语/藏语/兰州方言的上下文相关的标注格式和一套用于对声学模型进行聚类的决策树问题集。提出了一种新的韵律边界预测算法。在此基础上,实现了普通话/藏语/兰州方言的上下文相关标注生成。.2.提出了一种实现普通话/藏语/兰州方言的跨语言语音合成方法。采用基于隐Markov模型的统计参数语音合成方法,以声韵母作为语音合成基元,利用多说话人的普通话大语料和单说话人的藏语/兰州方言小语料,通过说话人自适应训练获得语言无关的平均声学模型,利用说话人自适应变换获得目标语言的具有说话人个性特色的说话人相关模型,从而实现了利用同一个系统合成出不同语言和说话人的语音合成。对合成系统进行的大量的主客观评测表明,该方法能够利用少量的藏语或兰州方言的训练语句即可合成出音质较好的藏语或兰州方言语音,表明该方法对于训练语料难以获取的民族语言和方言的语音合成具有重要的意义。.3.对普通话/藏语/兰州方言的跨语言语音合成展开了应用研究。利用普通话情感训练语料实现了普通话/藏语的跨语言情感语音合成,利用该方法可实现缺少情感训练语料的语言的情感语音合成具。实现了手语到普通话/藏语的转换以及藏语可视语音合成。.4.展开了项目相关的语音信号处理算法研究。提出了一种新的语音增强算法和一种新的语音共振峰提取算法。

项目成果

期刊论文数量(15)
专著数量(0)
科研奖励数量(1)
会议论文数量(8)
专利数量(0)
Prosody Conversion of Chinese Northwest Mandarin Dialect based on Five Degree Tone Model
基于五声调模型的西北官话韵律转换
  • DOI:
    10.4156/jdcta.vol6.issue17.35
  • 发表时间:
    2012-09
  • 期刊:
    International Journal of Digital Content Technology and Its Applications
  • 影响因子:
    --
  • 作者:
    GUO Wei-Tong;YANG Hong-Wu;PEI Dong;LIANG Qing-qing
  • 通讯作者:
    LIANG Qing-qing
基于关键词识别的语音到手势的转换
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    计算机工程与应用
  • 影响因子:
    --
  • 作者:
    赵娜;杨鸿武
  • 通讯作者:
    杨鸿武
基于说话人自适应训练的汉藏双语语音合成
  • DOI:
    --
  • 发表时间:
    2013
  • 期刊:
    清华大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    王海燕;杨鸿武;甘振业;裴东
  • 通讯作者:
    裴东
复杂环境中多信息融合的手势识别
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    计算机工程与应用
  • 影响因子:
    --
  • 作者:
    裴东;王全州;杨鸿武;安占福
  • 通讯作者:
    安占福
结合EMD和加权Mel倒谱的语音共振峰提取算法
  • DOI:
    --
  • 发表时间:
    2015
  • 期刊:
    计算机工程与应用
  • 影响因子:
    --
  • 作者:
    赵涛涛;杨鸿武
  • 通讯作者:
    杨鸿武

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于改进混合CTC/attention架构的端到端普通话语音识别
  • DOI:
    10.16783/j.cnki.nwnuz.2019.03.009
  • 发表时间:
    2019
  • 期刊:
    西北师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    杨鸿武;周刚
  • 通讯作者:
    周刚
一个面向言语工程的兰州方言语料库
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    西北师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    杨鸿武;陈龙;郭威彤;梁青青;李锦珑
  • 通讯作者:
    李锦珑
歌词到歌曲转换系统的实现
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机工程与应用
  • 影响因子:
    --
  • 作者:
    裴东;李锦珑;杨鸿武;刘慧娟;梁青青
  • 通讯作者:
    梁青青
基于加权Mel倒谱系数的说话人识别
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机应用与软件
  • 影响因子:
    --
  • 作者:
    杨鸿武;黄德智;刘亚丽
  • 通讯作者:
    刘亚丽
基于EMD的声纹特征参数提取
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    西北师范大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    宋海声;杨鸿武;周慧;刘亚丽
  • 通讯作者:
    刘亚丽

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

杨鸿武的其他基金

藏族地区儿童国家通用语言口语智能学习的研究
  • 批准号:
    62067008
  • 批准年份:
    2020
  • 资助金额:
    31 万元
  • 项目类别:
    地区科学基金项目
基于深度学习的汉藏双语语音合成的研究
  • 批准号:
    11664036
  • 批准年份:
    2016
  • 资助金额:
    42.0 万元
  • 项目类别:
    地区科学基金项目
汉语文语转换中语义与表现力联合建模
  • 批准号:
    60875015
  • 批准年份:
    2008
  • 资助金额:
    29.0 万元
  • 项目类别:
    面上项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码