Realization of average-voice-based speech synthesis with diverse voices and speaking styles

实现基于平均语音的多种语音和说话风格的语音合成

基本信息

  • 批准号:
    15300055
  • 负责人:
  • 金额:
    $ 5.76万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2003
  • 资助国家:
    日本
  • 起止时间:
    2003 至 2005
  • 项目状态:
    已结题

项目摘要

The purpose of this research is the realization of text-to-speech synthesis that can generate speech with an arbitrarily given speaker's voice and diverse speaking styles and/or emotional expressions. We have obtained the following results.1. Speech synthesis with arbitrary speaker's voice based on average voice modelWe have proposed a new training method of average voice model for speech synthesis in which an arbitrary speaker's voice is generated based on speaker adaptation. We have also proposed new speaker adaptation techniques based on hidden semi-Markov model (HSMM) that can model phone duration more precisely than the conventional hidden Markov model (HMM). From the results of objective and subjective evaluation tests, it has been shown that the average-voice-model-based speech synthesis can generates natural sounding speech of the target speaker.2. Speech synthesis with various speaking styles and emotional expressionsWe have proposed several approaches to the realization of emotional expressivity and speaking style variability in text-to-speech synthesis. We investigated two methods for modeling speaking styles and/or emotional expressions based on an HMM-based speech synthesis framework, and then proposed some approaches to adding various styles to synthetic speech, such as style interpolation, style morphing, style adaptation, and style control techniques. From results of subjective experiments, we have shown that the effectiveness of the proposed approaches.3. ProsodyWe have developed a robust fundamental frequency estimation and voice/unvoiced determination technique based on instantaneous frequency amplitude spectrum. We have also proposed modeling techniques for phone duration and pause for high quality text-to-speech synthesis.
本研究的目的是实现文本到语音合成,可以生成语音与任意给定的扬声器的声音和不同的说话风格和/或情感表达。我们得到了以下结果。1.基于平均语音模型的任意说话人语音合成我们提出了一种新的平均语音模型训练方法,该方法基于说话人自适应生成任意说话人语音。我们还提出了新的说话人自适应技术的基础上隐藏的半马尔可夫模型(HSMM),可以更精确地模拟电话持续时间比传统的隐马尔可夫模型(HMM)。客观和主观评价测试结果表明,基于平均声模型的语音合成方法能够生成自然的目标说话人语音.多种说话风格和情感表达的语音合成本文提出了几种实现文本到语音合成中情感表达和说话风格可变性的方法。我们研究了两种基于HMM的语音合成框架的说话风格和/或情感表达建模方法,然后提出了一些方法来添加各种风格的合成语音,如风格插值,风格变形,风格自适应和风格控制技术。从主观实验的结果,我们已经证明了所提出的方法的有效性.韵律我们发展了一种基于瞬时频率幅度谱的稳健基频估计和清音/浊音确定技术。我们还提出了高质量的文本到语音合成的电话持续时间和暂停的建模技术。

项目成果

期刊论文数量(147)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
平均声に基づく音声合成のための話者適応アルゴリズムの検討
基于平均语音的语音合成说话人自适应算法研究
隠れセミマルコフモデルに基づく適応学習アルゴリズム
基于隐半马尔可夫模型的自适应学习算法
MLLR adaptation for hidden semi-Markov model based speech synthesis
基于隐半马尔可夫模型的语音合成的 MLLR 自适应
隠れセミマルコフモデルに基づく音声合成システムにおける最尤線形回帰の検討
基于隐半马尔可夫模型的语音合成系统最大似然线性回归研究
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    磯貝朱里;山岸順一;小林隆夫;山岸 順一;山岸 順一;山岸 順一;橘 誠;磯貝 朱里;野村 大輔;山岸 順一;山岸 順一;山岸 順二;山岸 順一
  • 通讯作者:
    山岸 順一
重回帰HSMMを用いた合成音声のスタイル制御
使用多元回归 HSMM 对合成语音进行风格控制
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

KOBAYASHI Takao其他文献

KOBAYASHI Takao的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('KOBAYASHI Takao', 18)}}的其他基金

Research on speech synthesis using non-parametric modeling based on Gaussian process regression
基于高斯过程回归的非参数建模语音合成研究
  • 批准号:
    25540065
  • 财政年份:
    2013
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Research on advanced robust speech synthesis and its applications to multi-lingual speech communication
先进鲁棒语音合成及其在多语言语音通信中的应用研究
  • 批准号:
    24300071
  • 财政年份:
    2012
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Research on robust spoken language interfaces for diverse voice variability and expressivity
针对不同语音变化和表现力的鲁棒口语界面研究
  • 批准号:
    21300063
  • 财政年份:
    2009
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of highly sensitive optical fiber sensor system for wide-area disaster prevention
广域防灾高灵敏光纤传感器系统研制
  • 批准号:
    18510145
  • 财政年份:
    2006
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of Highly Sensitive Infrared Laser Image Sensing Technique and its Application
高灵敏红外激光图像传感技术的发展及其应用
  • 批准号:
    16360201
  • 财政年份:
    2004
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of a compact solid-state laser sensor for detecting distributed, low-concentration widely environmental-pollution molecules
开发紧凑型固态激光传感器,用于检测分布、低浓度、广泛的环境污染分子
  • 批准号:
    12558058
  • 财政年份:
    2000
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Realization of HMM-based text-to-speech Synthesis Systems
基于HMM的文本语音合成系统的实现
  • 批准号:
    10555125
  • 财政年份:
    1998
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B).
Development of a Meteorological Lidar for the Analysis of Atmospheric Dynamical Behavior
开发用于分析大气动力学行为的气象激光雷达
  • 批准号:
    10358013
  • 财政年份:
    1998
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
STUDY ON THE PATHOPHYSIOLOGY OF PREECLAMPSIA : THE MECHANISM OF VASOSPASMS
先兆子痫的病理生理学研究:血管痉挛的机制
  • 批准号:
    08457439
  • 财政年份:
    1996
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Research on Tera-Hertz Tuning-Width Optical Oscillators
太赫兹调谐宽度光学振荡器的研究
  • 批准号:
    08455036
  • 财政年份:
    1996
  • 资助金额:
    $ 5.76万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了