Realization of HMM-based text-to-speech Synthesis Systems

基于HMM的文本语音合成系统的实现

基本信息

  • 批准号:
    10555125
  • 负责人:
  • 金额:
    $ 2.88万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B).
  • 财政年份:
    1998
  • 资助国家:
    日本
  • 起止时间:
    1998 至 2000
  • 项目状态:
    已结题

项目摘要

The main purpose of this research is to realize a text-to-speech synthesis system which can generate speech with various voice characteristics based on hidden Markov models (HMMs). We have obtained the following results.1. Modeling of phonetic and prosodic information of speech based on HMMWe have proposed a new kind of HMM, called multi-space probability distribution HMM (MSD-HMM), which can model pitch pattern of speech without heuristic assumption. Then we have also proposed a technique in which spectrum, pitch, and state duration are modeled simultaneously in a unified framework of HMM.2. Speech parameter generation from HMMWe have extended the parameter generation algorithm from HMM to a general case in which the state sequence or a part of it is latent and derived a new algorithm. We have also derived a pitch pattern generation algorithm based on MSD-HMM3. Realization of text-to-speech synthesis system based on HMMsWe have developed a Japanese text-to-speech synthesis system, which works on workstations and PCs, based on the simultaneous modeling of spectrum, pitch, and duration by HMM and the speech parameter generation from HMM.4. Speech synthesis with various voice characteristicsWe have proposed voice characteristics conversion techniques for the HMM-based speech synthesis system using speaker adaptation techniques for HMMs, such as MAP/VFS and MLLR.We have also proposed a speaker interpolation technique by interpolating HMM parameters among representative speakers' HMM sets. Using these techniques, we have shown that the HMM-based speech synthesis system can generate speech with various voice characteristics.
本研究的主要目的是实现一个基于隐马尔可夫模型的文语合成系统,该系统可以生成具有多种语音特征的语音。我们得到了以下结果。1.基于隐马尔可夫模型的语音韵律信息建模我们提出了一种新的隐马尔可夫模型--多空间概率分布隐马尔可夫模型(MSD-HMM),它可以在不作启发式假设的情况下对语音的基音模式进行建模。然后,我们还提出了一种技术,其中频谱,音调,和状态持续时间建模同时在一个统一的框架HMM。基于隐马尔可夫模型的语音参数生成我们将隐马尔可夫模型的参数生成算法推广到一般的状态序列或部分状态序列是隐式的情况,并导出了一种新的算法。我们还推导了一个基于MSD-HMM 3的基音模式生成算法。基于隐马尔可夫模型的文语合成系统的实现基于隐马尔可夫模型对语音的频谱、基音周期和持续时间同时建模,并由隐马尔可夫模型生成语音参数,我们开发了一个日文文语合成系统,该系统可在工作站和PC上运行.基于HMM的语音合成系统采用了MAP/VFS和MLLR等说话人自适应技术,提出了语音特征转换技术,并提出了在代表说话人的HMM集合中插值HMM参数的说话人插值技术。使用这些技术,我们已经表明,基于HMM的语音合成系统可以生成具有各种语音特征的语音。

项目成果

期刊论文数量(104)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
T.Yoshimura,T.Masuko,K.Tokuda,T.Kobayashi,T.Kitamura: "Duration modeling for HMM-based speech synthesis"Proc.of 5th International Conference on Spoken Language Processing. 2. 29-32 (1998)
T.Yoshimura、T.Masuko、K.Tokuda、T.Kobayashi、T.Kitamura:“基于 HMM 的语音合成的持续时间建模”第五届国际口语处理会议论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Yoshimura,K.Tokuda,T.Masuko,T.Kobayashi,T.Kitamura: "Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis"Proc.of 6th European Conf.on Speech Communication and Technology. 6. 2347-2350 (1999)
T.Yoshimura、K.Tokuda、T.Masuko、T.Kobayashi、T.Kitamura:“基于 HMM 的语音合成中的频谱、音调和持续时间的同步建模”第六届欧洲语音通信与技术会议论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
広井順,徳田恵一,益子貴史,小林隆夫,北村正: "HMMに基づいた極低ビットレート音声符号化"電子情報通信学会論文誌. J82-D-II・11. 1857-1864 (1999)
Jun Hiroi、Keiichi Tokuda、Takashi Mashiko、Takao Kobayashi、Tadashi Kitamura:“基于 HMM 的极低比特率语音编码”电子、信息和通信工程师学会汇刊 J82-D-II・11。 1999)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
吉村貴克,徳田恵一,益子貴史,小林隆夫,北村正: "HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化"電子情報通信学会論文誌. J83-D-II・11. 2099-2107 (2000)
Takakatsu Yoshimura、Keiichi Tokuda、Takashi Mashiko、Takao Kobayashi、Tadashi Kitamura:“基于 HMM 的语音合成中的频谱、音调和持续时间长度的同步建模”J83-D-II・11。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
益子貴史,田村正統,徳田恵一,小林隆夫: "HMMに基づく音声合成システムにおけるMAP-VFSを用いた声質変換"電子情報通信学会論文誌. J83-D-II・12. 2509-2516 (2000)
Takashi Mashiko、Masanori Tamura、Keiichi Tokuda、Takao Kobayashi:“在基于 HMM 的语音合成系统中使用 MAP-VFS 进行语音质量转换”电子信息通信工程师学会汇刊 J83-D-II ・12。 -2516 (2000)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

KOBAYASHI Takao其他文献

KOBAYASHI Takao的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('KOBAYASHI Takao', 18)}}的其他基金

Research on speech synthesis using non-parametric modeling based on Gaussian process regression
基于高斯过程回归的非参数建模语音合成研究
  • 批准号:
    25540065
  • 财政年份:
    2013
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Research on advanced robust speech synthesis and its applications to multi-lingual speech communication
先进鲁棒语音合成及其在多语言语音通信中的应用研究
  • 批准号:
    24300071
  • 财政年份:
    2012
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Research on robust spoken language interfaces for diverse voice variability and expressivity
针对不同语音变化和表现力的鲁棒口语界面研究
  • 批准号:
    21300063
  • 财政年份:
    2009
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of highly sensitive optical fiber sensor system for wide-area disaster prevention
广域防灾高灵敏光纤传感器系统研制
  • 批准号:
    18510145
  • 财政年份:
    2006
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of Highly Sensitive Infrared Laser Image Sensing Technique and its Application
高灵敏红外激光图像传感技术的发展及其应用
  • 批准号:
    16360201
  • 财政年份:
    2004
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Realization of average-voice-based speech synthesis with diverse voices and speaking styles
实现基于平均语音的多种语音和说话风格的语音合成
  • 批准号:
    15300055
  • 财政年份:
    2003
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of a compact solid-state laser sensor for detecting distributed, low-concentration widely environmental-pollution molecules
开发紧凑型固态激光传感器,用于检测分布、低浓度、广泛的环境污染分子
  • 批准号:
    12558058
  • 财政年份:
    2000
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of a Meteorological Lidar for the Analysis of Atmospheric Dynamical Behavior
开发用于分析大气动力学行为的气象激光雷达
  • 批准号:
    10358013
  • 财政年份:
    1998
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
STUDY ON THE PATHOPHYSIOLOGY OF PREECLAMPSIA : THE MECHANISM OF VASOSPASMS
先兆子痫的病理生理学研究:血管痉挛的机制
  • 批准号:
    08457439
  • 财政年份:
    1996
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Research on Tera-Hertz Tuning-Width Optical Oscillators
太赫兹调谐宽度光学振荡器的研究
  • 批准号:
    08455036
  • 财政年份:
    1996
  • 资助金额:
    $ 2.88万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了