任意の話者性・感情表現・発話様式によるテキスト音声合成の実現

实现任意说话人特征、情绪表达、说话风格的文本语音合成

基本信息

  • 批准号:
    04J04633
  • 负责人:
  • 金额:
    $ 1.22万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2006
  • 项目状态:
    已结题

项目摘要

本研究では,任意の話者性・感情表現・発話様式によるテキスト音声合成システムの実現を目標に,平均声と話者適応/スタイル適応技術を組み合わせた新たな音声合成方式の検討を行っている.昨年度は隠れセミマルコフモデルという通常の隠れマルコフモデルを拡張した統計モデルの枠組みを利用することで,スペクトルと基本周波数と音韻継続長という音声の3つの特徴量を同時に変換することが可能な話者適応アルゴリズムを開発し,その有効性を示した.しかし,上記の実験に用いた話者適応アルゴリズムは,最尤線形回帰という隠れマルコフモデルの出力分布の平均ベクトルをアフィン変換するだけの非常に単純な手法であり,より緻密で適切なモデル変換を頑健に行うためには話者適応アルゴリズムの改善が必要である.そこで本年度は,話者適応アルゴリズムの変換精度を向上させることを目的に,様々な話者適応アルゴリズムを隠れセミマルコフモデルの枠組みにおいて再定式化し,音声合成システムへ導入することで昨年度提案した手法との比較検討を行った.新たに検討したモデル適応アルゴリズムとしては,隠れセミマルコフモデルの出力分布の平均ベクトルだけでなく共分散行列も変換を行う制約付き最尤線形回帰や,変換パラメータの推定に最尤推定ではなく事後確率最大化推定を導入することでより少量のデータでも頑健に変換パラメータを推定できるように拡張した事後確率最大化線形回帰などを導入し,比較検討を行った。またこれらの制約付き線形回帰と事後確率最大化線形回帰を組み合わせた新たな話者適応アルゴリズムの開発も行い,話者適応のより一段の精度向上が図れたことを実験結果から確認した.さらにこれらの線形回帰によるモデル変換後に,データサンプルのある分布に対し事後確率最大化推定を行う手法も導入し,話者適応により変換された分布が利用可能なデータ量の増加に従い最尤推定の結果に漸近的に近づいていくことも確認した.この手法により、統一の枠組みで様々なデータ量に適したモデルを作成できる.また,これらの話者適応アルゴリズムを話者の変換ではなく,音声のスタイルの変換に利用するスタイル適応にも応用し,その有効性を検討した.スタイルを伴った音声の適応では基本周波数や音韻継続長が重要な役割を担っていることからこれらのモデル適応アルゴリズムの大きな効果が確認された.
This study aims to investigate the combination of voice and speech synthesis techniques for the realization of voice and speech synthesis systems. In the past year, the number of basic cycles and the number of phonemes in the three sets of sound characteristics were changed simultaneously, and the number of possible phonemes was changed. The average output distribution of the power distribution of the most linear return line is the average output distribution of the most linear return line. The average output distribution This year, the speaker's appropriate conversion accuracy is improved, and the speaker's appropriate conversion accuracy is improved. The new model is based on the average distribution of the output of the engine, and the average distribution of the output of the engine is based on the distribution of the output of the engine. A small amount of data is transferred to a large number of data sources. A large number of data sources are transferred to a large number of data sources. A large number of data sources are transferred to a large number of data sources. The first step is to restrict the linear return and maximize the post-validation rate. The second step is to optimize the linear return. The third step is to combine the new speaker with the new speaker. The fourth step is to optimize the accuracy of the first step. The method of maximizing the accuracy of the estimation is introduced, and the speaker is appropriately transformed into the distribution of the estimation of the maximum accuracy. This method is used to create a uniform set of objects. For example, if you want to change your voice, you can change your voice. It is confirmed that the basic cycle number of the sound is equal to the basic cycle number of the sound, and the sound is equal to the basic cycle number of the sound.

项目成果

期刊论文数量(23)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Acoustic Modeling of Speaking Styles and Emotional Expressions in HMM-Based Speech Synthesis
  • DOI:
    10.1093/ietisy/e88-d.3.502
  • 发表时间:
    2005-03
  • 期刊:
  • 影响因子:
    0.7
  • 作者:
    Junichi Yamagishi;Koji Onishi;T. Masuko;Takao Kobayashi
  • 通讯作者:
    Junichi Yamagishi;Koji Onishi;T. Masuko;Takao Kobayashi
HSMM音声合成における話者適応とMAPに基づく音響モデル学習法
HSMM语音合成中基于说话人自适应和MAP的声学模型学习方法
HMM音声合成のための話者正規化クラスタリングと話者正規化学習
用于 HMM 语音合成的说话人归一化聚类和说话人归一化学习
多様な音声合成のためのモデル適応・適応学習アルゴリズムの検討
多样化语音合成的模型自适应和自适应学习算法研究
隠れセミマルコフモデルに基づく音声合成システムのためのスタイル適応手法の評価
基于隐半马尔可夫模型的语音合成系统风格适应方法评估
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山岸 順一其他文献

ヘッドマウントディスプレイの基礎,研究開発動向と今後の展望
头戴式显示器的基础知识、研发趋势及未来展望
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田邉稜;平川翼;山下隆義;藤吉弘亘;山岡憲太郎,小出 蓮,池井 寧,Yem Vibol,雨宮智浩,北崎充晃;Erika Sasaki;山岸 順一;清川 清
  • 通讯作者:
    清川 清
A comparative study of style adaptation algorithms for expressive speech synthesis
表达语音合成风格适应算法的比较研究
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Makoto Tachibana;Katsumi Ogata;Junichi Yamagishi;Yuji Nakano;Makoto Tachibana;緒方克海;山岸順一;中野雄資;Junichi Yamagishi;Makoto Tachibana;Junichi Yamagishi;Dhany Arifianto;Juri Isogai;Makoto Tachibana;磯貝 朱里;橘 誠;山岸 順一;磯貝 朱里;橘 誠;野村 大輔;中野 雄資;能勢 隆;橘 誠;磯貝 朱里;小林 隆夫;Junichi Yamagishi;Makoto Tachibana;Junichi Yamagishi;Dhany Arifianto;Juri Isogai;Makoto Tachibana;Juri Isogai;Makoto Tachibana;Junichi Yamagishi;Juri Isogai;Makoto Tachibana;Daisuke Nomura;Yuji Nakano;Takashi Nose;Makoto Tachibana
  • 通讯作者:
    Makoto Tachibana
HMM音声合成における対数正規分布による状態継続長のモデル化の検討
HMM语音合成中使用对数正态分布建模状态持续时间长度的研究
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Makoto Tachibana;Katsumi Ogata;Junichi Yamagishi;Yuji Nakano;Makoto Tachibana;緒方克海;山岸順一;中野雄資;Junichi Yamagishi;Makoto Tachibana;Junichi Yamagishi;Dhany Arifianto;Juri Isogai;Makoto Tachibana;磯貝 朱里;橘 誠;山岸 順一;磯貝 朱里;橘 誠;野村 大輔;中野 雄資;能勢 隆;橘 誠;磯貝 朱里;小林 隆夫;Junichi Yamagishi;Makoto Tachibana;Junichi Yamagishi;Dhany Arifianto;Juri Isogai;Makoto Tachibana;Juri Isogai;Makoto Tachibana;Junichi Yamagishi;Juri Isogai;Makoto Tachibana;Daisuke Nomura;Yuji Nakano;Takashi Nose;Makoto Tachibana;Juri Isogai;Takao Kobayashi;Junichi Yamagishi;Dhany Arifianto;Juri Isogai;Makoto Tachibana;磯貝朱里;小林隆夫;磯貝朱里;中野雄資;川島啓吾;山岸順一;磯貝朱里;橘 誠;野村大輔;Dhany Arifianto;Junichi Yamagishi;Makoto Tachibana;Junichi Yamagishi;Junichi Yamagishi;Heiga Zen;Keisuke Miyanaga;宮永 圭介;尾関 創;山岸 順一;全 炳河;山岸 順一
  • 通讯作者:
    山岸 順一
HMM音声合成における異なる発話スタイルへの適応の検討
HMM语音合成中对不同语音风格的适应检验
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Makoto Tachibana;Katsumi Ogata;Junichi Yamagishi;Yuji Nakano;Makoto Tachibana;緒方克海;山岸順一;中野雄資;Junichi Yamagishi;Makoto Tachibana;Junichi Yamagishi;Dhany Arifianto;Juri Isogai;Makoto Tachibana;磯貝 朱里;橘 誠;山岸 順一;磯貝 朱里;橘 誠;野村 大輔;中野 雄資;能勢 隆;橘 誠;磯貝 朱里;小林 隆夫;Junichi Yamagishi;Makoto Tachibana;Junichi Yamagishi;Dhany Arifianto;Juri Isogai;Makoto Tachibana;Juri Isogai;Makoto Tachibana;Junichi Yamagishi;Juri Isogai;Makoto Tachibana;Daisuke Nomura;Yuji Nakano;Takashi Nose;Makoto Tachibana;Juri Isogai;Takao Kobayashi;Junichi Yamagishi;Dhany Arifianto;Juri Isogai;Makoto Tachibana;磯貝朱里;小林隆夫;磯貝朱里;中野雄資;川島啓吾;山岸順一;磯貝朱里;橘 誠;野村大輔;Dhany Arifianto;Junichi Yamagishi;Makoto Tachibana;Junichi Yamagishi;Junichi Yamagishi;Heiga Zen;Keisuke Miyanaga;宮永 圭介;尾関 創;山岸 順一;全 炳河;山岸 順一;橘 誠;参納 大樹;尾関 創;山岸 順一;橘 誠;Dhany Arifianto;Junichi Yamagishi;Makoto Tachibana;Junichi Yamagishi;Junichi Yamagishi;Heiga Zen;Keisuke Miyanaga;Hajime Ozeki;Junichi Yamagishi;Heiga Zen;Junichi Yamagishi;Maokoto Tachibana;Daiki Sannou;Hajime Ozeki;Junichi Yamagishi;Makoto Tachibana;Takao Kobayashi;小林隆夫;Junichi Yamagishi;Heiga Zen;Keisuke Miyanaga;Makoto Tachibana;山岸順一;宮永圭介;尾関 創;山岸順一;橘 誠;Junichi Yamagishi;Junichi Yamagishi;Dhany Arifianto;Junichi Yamagishi;Dhany Arifianto;広畑誠;山岸 順一;橘 誠;益子 貴史;山岸 順一;橘 誠
  • 通讯作者:
    橘 誠
RGB色空間での主成分分析を用いた3次元点群データの色境界強調可視化
使用 RGB 颜色空间中的主成分分析对 3D 点云数据进行颜色边界增强可视化
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    長崎好輝,川野恭史,山本晋太郎,Yue Qiu,青木義満,原健翔,片岡雄裕;山岸 順一;原田そら,中田亘,高道慎之介,齋藤佑樹,齋藤康之,猿渡洋;古家圭悟,長谷川恭子,李亮,田中覚
  • 通讯作者:
    古家圭悟,長谷川恭子,李亮,田中覚

山岸 順一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山岸 順一', 18)}}的其他基金

Explainable next-generation media forensics technologies based on fake media detection and automatic fact verification
基于虚假媒体检测和自动事实验证的可解释的下一代媒体取证技术
  • 批准号:
    21H04906
  • 财政年份:
    2021
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Noise-Adaptive Statistical Speech Synthesis in Varying Acoustic Environments
不同声学环境中的噪声自适应统计语音合成
  • 批准号:
    25880027
  • 财政年份:
    2013
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up

相似海外基金

振幅変調知覚に基づく聴覚エンリッチメント:人工内耳用音声信号処理の研究
基于调幅感知的听觉丰富:人工耳蜗音频信号处理研究
  • 批准号:
    23K21679
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of a Listening Evaluation and Support System for "Children with Listening Difficulties" using Acoustic Signal Processing.
利用声学信号处理为“听力困难儿童”开发听力评估和支持系统。
  • 批准号:
    21K12037
  • 财政年份:
    2021
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Acoustic signal processing applications for the support of dementia sufferers
支持痴呆症患者的声学信号处理应用
  • 批准号:
    2465994
  • 财政年份:
    2020
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Studentship
人間の聴覚特性を考慮した残響・雑音環境下における音声信号処理の研究
考虑人耳听觉特性的混响噪声环境下音频信号处理研究
  • 批准号:
    18J20059
  • 财政年份:
    2018
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Acoustic Signal Processing and Scene Analysis for Socially Assistive Robots
社交辅助机器人的声学信号处理和场景分析
  • 批准号:
    EP/P001017/1
  • 财政年份:
    2017
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Fellowship
Acoustic signal processing for real world captioning system via see-through head mounted display
通过透视头戴式显示器对现实世界字幕系统进行声学信号处理
  • 批准号:
    15K20886
  • 财政年份:
    2015
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Continuous monitoring of rainforest biodiversity via acoustic signal processing
通过声学信号处理持续监测雨林生物多样性
  • 批准号:
    NE/L012456/1
  • 财政年份:
    2014
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Research Grant
Intelligent noise reduction for acoustic signal processing: A hardware-software co-design approach
声学信号处理的智能降噪:一种软硬件协同设计方法
  • 批准号:
    278738-2003
  • 财政年份:
    2007
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Collaborative Research and Development Grants
Intelligent noise reduction for acoustic signal processing: A hardware-software co-design approach
声学信号处理的智能降噪:一种软硬件协同设计方法
  • 批准号:
    278738-2003
  • 财政年份:
    2006
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Collaborative Research and Development Grants
Intelligent noise reduction for acoustic signal processing: A hardware-software co-design approach
声学信号处理的智能降噪:一种软硬件协同设计方法
  • 批准号:
    278738-2003
  • 财政年份:
    2004
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Collaborative Research and Development Grants
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了