多様な話者性の制御を可能とする高品質なテキスト音声合成の研究

研究能够控制不同说话者特征的高质量文本到语音合成

基本信息

  • 批准号:
    03J01700
  • 负责人:
  • 金额:
    $ 1.28万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2003
  • 资助国家:
    日本
  • 起止时间:
    2003 至 2004
  • 项目状态:
    已结题

项目摘要

ある話者の音声を他の話者の音声へと変換する声質変換技術を用いることで、合成音声の特徴を容易に操作できる柔軟性の高い音声合成システムが実現できると見込まれる。声質変換では、少量の音声データから統計的に抽出された変換関数を用いることで任意の音声データに対するパラメータ変換が行われるが、既存手法の性能は不十分であり、得られる変換音声の品質劣化は大きい。この原因として、1)パラメータの時間変化に関する情報を使用していない、2)統計処理によりパラメータの過剰な平滑化が生じる、といった事が挙げられる。そこで,問題1)を解決するために、パラメータの静的特徴のみでなく動的特徴にも着目した変換法を提案した。さらに、問題2)を緩和するために、系列内変動という新たな特徴量を導入した変換法を提案した。従来法では統計処理として適切とは言い難いパラメータ変換処理が行われるが、提案法では尤度最大化基準に基づく変換処理が行われるため、数学的に取り扱いやすく、今後さらなる発展も十分に期待できる。実験的評価結果から、提案法は従来法と比較し、変換音声の音質、話者性を大きく改善できることを示した。また、本手法を実装したプログラムを、米国カーネギーメロン大学からフリーで公開されており世界中で広く使用されている音声合成用データベース作成ツールFestvoxに導入した。次期リリースにて本プログラムは公開される予定である。提案する統計的特徴量変換法を、調音特徴量からの音声合成、音声からの調音運動逆推定、非可聴つぶやきから通常音声への変換に対しても適用した。実験的評価により提案法の有効性を明らかにした。また、提案法を統計量ベーステキスト音声合成法における確率分布からのパラメータ生成に対しても適用した。実験的評価結果から、スペクトル・音源パラメータ生成においても提案法は有効であることを示した。
The sound is easy to operate, the sound is flexible, the high-pitched sound synthesis is flexible, and the sound synthesis is very easy to operate. According to the statistics of sound, a small amount of sound, the number of sound is not very good, and the performance of the existing method is not very good. The reasons for this are as follows: 1) the use of statistical information, 2) statistics and statistics, the smoothness and smoothness of health care, and the use of statistics. Question 1) the purpose of this paper is to focus on the proposal of the bill for the purpose of solving the problems of special training activities and quiet special events. The new features of the series of activities in the series will be included in the proposal for the draft of the draft Law on Foreign Trade Law. According to the statistics of the law, I would like to talk about it. I would like to talk about it. I would like to propose a bill to maximize the basic level. in particular, I would like to know how to maximize the basic level. in the future, I am very much looking forward to it. The results of the election, the proposal of the law, the comparison of the sound, the sound, and the nature of the audience will improve the performance of the law. In this way, we use this technique to make sure that the Festvox is made public in the world, and that the sound synthesis is made using the sound synthesis method. In the next phase, we will make a public announcement on this issue. It is proposed that the special quantity method of statistics, the sound synthesis, the inverse presumption of sound, the normal sound, the general sound, the sound synthesis, the sound, the sound and the sound. The bill for the proposal of the bill of law has its own nature. According to the statistics and statistics of the proposed method, the sound synthesis method can be used to determine the accuracy rate distribution. The result of the test, the sound source, the sound source and the sound source.

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
戸田 智基: "波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化"電子情報通信学会技術研究報告. SP2003-81. 43-48 (2003)
Tomoki Toda:“基于波形级联语音合成中的感知评估的分段选择子成本函数的优化”IEICE 技术报告 SP2003-81 (2003)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Acoustic-to-articulatory inversion mapping with Gaussian mixture model
  • DOI:
    10.21437/interspeech.2004-410
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T. Toda;A. Black;K. Tokuda
  • 通讯作者:
    T. Toda;A. Black;K. Tokuda
Spectral conversion based on maximum likelihood estimation considering global variance of converted parameter
混合正規分布モデルに基づく非可聴つぶやき声(NAM)から通常音声への変換
基于混合正态分布模型的非可听杂音(NAM)到正常语音的转换
発話内変動を考慮した最尤スペクトル変換法
考虑话语内变异的最大似然谱变换方法
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

戸田 智基其他文献

機械翻訳の誤り箇所選択法における誤選択箇所の調査
机器翻译错误零件选择方法中错误零件选择的调查
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    赤部 晃一;Graham Neubig;Sakriani Sakti;戸田 智基;中村 哲
  • 通讯作者:
    中村 哲
Tree-to-String 翻訳における構文解析器の自己学習の効果
解析器自学习对树到字符串翻译的影响
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    波多腰 優斗;Graham Neubig;Sakriani Sakti;戸田 智基;中村 哲
  • 通讯作者:
    中村 哲
機械翻訳システムの詳細な誤り分析のための誤り順位付け手法
用于机器翻译系统详细错误分析的错误排序方法
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    赤部 晃一;Graham Neubig;Sakriani Sakti;戸田 智基;中村 哲
  • 通讯作者:
    中村 哲
微弱振動子とNAMマイクを用いた発話障害者補助
使用弱振动器和 NAM 麦克风帮助语言障碍人士
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中村 圭吾;戸田 智基;中島 淑貴;猿渡 洋;鹿野 清宏
  • 通讯作者:
    鹿野 清宏
Robust cell-cell signaling is achieved by fold-change responsiveness of the cells
强大的细胞间信号传导是通过细胞的倍数变化响应来实现的
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    魚住 隆行 ら;戸田 智基;Yoichi Takenaka;神野圭太
  • 通讯作者:
    神野圭太

戸田 智基的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了