Everyday conversation speech synthesis

日常对话语音合成

基本信息

  • 批准号:
    22K12107
  • 负责人:
  • 金额:
    $ 2.58万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

本研究の目的は、日本語日常会話コーパス(CEJC)を利用した高品質な会話音声の合成である。End-to-end音声合成をCEJCのような録音品質が悪いコーパスに適用すると、その悪い音をそのままモデル化してしまう。本研究では、CEJCを韻律モデルの学習のみに使用しつつ、別の高品質な音声コーパスを併用してスペクトルモデルを学習することで、読み上げ音声の合成と同等な品質を保ちながら会話音声の韻律を有する音声合成を目指している。令和4年度は、end-to-end音声合成による韻律とスペクトルの重層モデリングの検討を前倒しして実施した。独立したニューラルfoモデルの導入に先立って、まず FastSpeech 2 のvariance adaptor (fo, 強度、継続時間予測器) の個別学習を試みた。前処理として、CEJCは録音レベルの統制が取れていないため、セッション単位で平均強度を一致させるような振幅正規化を行った。また、電話音声は発声方法がかなり異なることがわかったので最初の検討からは除外した。FastSpeech 2を単純にCEJCで学習したモデルから得られた合成音声は、我々が日常的に発する発話の韻律的特徴をよく反映することがわかったので、このモデルを初期状態とし、variance adaptorの重み更新を停止しつつ別の高品質な音声コーパスを用いてファインチューニングする方法を検討した。このようにして得られた合成音声は、現在のところ、品質の点でも韻律の点でも予想されるようなものとはなっておらず、原因の究明が必要である。さらに、令和4年度はaffect burst合成に関する検討として、叫び声の合成ならびにspeech laughの音声学的検討を行った。
The purpose of this study is to use <s:1> た high-quality な homophonic speech <s:1> synthesis である for daily Japanese conversation (CEJC)を. End - to - End voice synthesis を CEJC の よ う な recording quality が 悪 い コ ー パ ス に applicable す る と, そ の 悪 い sound を そ の ま ま モ デ ル change し て し ま う. This study で は, CEJC を rhythm モ デ ル の learning の み に use し つ つ, don't の high-quality な sounds コ ー パ ス を and し て ス ペ ク ト ル モ デ ル を learning す る こ と で, 読 み on げ sounds の synthetic と equal な quality を bartender ち な が ら will voice sound の rhythm を す る voice synthesis を refers し て い る. And four year は, end - to - end voice synthesis に よ る rhythm と ス ペ ク ト ル の heavy layer モ デ リ ン グ の beg を 検 fore し し て be applied し た. Independent し た ニ ュ ー ラ ル fo モ デ ル の import に first set っ て, ま ず FastSpeech 2 の variance adaptor (fo, strength, 継 続 time to sensor) の individual learning を try み た. 処 before Richard と し て, CEJC は recording レ ベ ル の control が take れ て い な い た め, セ ッ シ ョ ン 単 an average intensity で を consistent さ せ る よ う な amplitude normalization を line っ た. ま た, electric voice sound は 発 acoustic method が か な り different な る こ と が わ か っ た の で initially の 検 please か ら except は し た. FastSpeech 2 を 単 pure に CEJC で learning し た モ デ ル か ら have ら れ た synthetic voice は, I 々 が daily に 発 す る 発 words の rhythm of 徴 を よ く reflect す る こ と が わ か っ た の で, こ の モ デ ル を initial state と し and variance Adaptor の heavy み update を stop し つ つ don't の high-quality な sounds コ ー パ ス を with い て フ ァ イ ン チ ュ ー ニ ン グ す る method を beg し 検 た. こ の よ う に し て have ら れ た synthetic voice は, now の と こ ろ point, quality の で も rhythm の point で も to think さ れ る よ う な も の と は な っ て お ら ず reason の, Ming が necessary で あ る. さ ら に, make and 4 year は affect into synthetic に masato す る beg と 検 し て, called び の synthetic な ら び に researched and laugh の of phonetics 検 を line っ た.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
How should a dialog system speak? Implications for speech synthesis from real conversations
对话系统应该如何说话?
BiLSTM-CTC モデルを使用した自発的な笑い声と叫び声のEnd-to-End検出モデルの構築
使用 BiLSTM-CTC 模型构建自发笑声和哭声的端到端检测模型
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    松田匠翔;有本泰子
  • 通讯作者:
    有本泰子
Phonetic analysis on speech-laugh occurrence in spontaneous gaming dialog
自发游戏对话中说笑发生的语音分析
  • DOI:
    10.1250/ast.44.36
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0.7
  • 作者:
    鈴木薫佳;松橋遼;津國和泉;池田雄介;Arimoto Yoshiko
  • 通讯作者:
    Arimoto Yoshiko
話者変換によるデータ拡張を利用した叫び声合成
通过说话者转换使用数据增强进行尖叫合成
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    白鳥恵大;有本泰子
  • 通讯作者:
    有本泰子
Neural conversational speech synthesis with flexible control of emotion dimensions
情感维度灵活控制的神经会话语音合成
  • DOI:
    10.23919/apsipaasc55919.2022.9980105
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hiroki Mori;Hironao Nishino
  • 通讯作者:
    Hironao Nishino
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

森 大毅其他文献

歴史語用論と周辺部という2つのダイナミズム: 文法化・構文化のよく起きる「発話のはじめと終わり」
两种动力:历史语用学和外围:“话语的开始和结束”,其中经常发生语法化和句法化。
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    森 大毅;有本 泰子;永田 智洋;小野寺典子
  • 通讯作者:
    小野寺典子
ワークショップ人間生活工学 第3巻 インタラクティブシステムのユーザビリティ
人类生命工程研讨会第 3 卷交互系统的可用性
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮澤 健二;植野 彰規;森 大毅;星野 洋;野城 真理;人間生活工学研究センター(編)
  • 通讯作者:
    人間生活工学研究センター(編)
遅延環境における対話の単語表出と発話時間の検討
检查延迟环境中对话中的词语表达和说话时间
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮澤 健二;植野 彰規;森 大毅;星野 洋;野城 真理;人間生活工学研究センター(編);安川真奈
  • 通讯作者:
    安川真奈
話者混在音声からのfo軌跡の分離
从混合说话者语音中分离 fo 轨迹
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    川津雅江;坂本貴志;田村容子;Дайсукэ Адати(安達 大輔);森 大毅
  • 通讯作者:
    森 大毅
メダカの集団遺伝構造と自然淘汰の痕跡の検出
青鳉鱼种群遗传结构和自然选择痕迹的检测
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    有本 泰子;今西 利於;森 大毅;藤本真悟・明正大純・青山洋昭・八木光晴・小林大純・山平寿智・木村亮介
  • 通讯作者:
    藤本真悟・明正大純・青山洋昭・八木光晴・小林大純・山平寿智・木村亮介

森 大毅的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('森 大毅', 18)}}的其他基金

人間味のある音声レスポンス
人性化语音应答
  • 批准号:
    17700172
  • 财政年份:
    2005
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
音声対話システムによる「ため口」の理解と生成
使用语音对话系统理解并生成“Tameguchi”
  • 批准号:
    13780266
  • 财政年份:
    2001
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
人とコンピュータの円滑な対話を実現する音声インタフェース
语音界面,实现人与计算机之间的流畅交互
  • 批准号:
    11780245
  • 财政年份:
    1999
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

自然なヒューマンコンピュータインタラクションのための話し言葉会話音声合成
自然人机交互的口语对话语音合成
  • 批准号:
    13J08776
  • 财政年份:
    2013
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
入園後半年間における軽度発達障害幼児と保育者との会話音声の音響的特徴の発達的変化
入园后6个月内轻度发育障碍婴儿与其照顾者对话声音声学特征的发育变化
  • 批准号:
    17905013
  • 财政年份:
    2005
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists
自然な環境で発話された自由会話音声の発話速度モデリング
自然环境中自由言论的语速建模
  • 批准号:
    13750373
  • 财政年份:
    2001
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
フレーズのスポッティングに基づく頑健な会話音声理解
基于短语识别的强大会话语音理解
  • 批准号:
    08780349
  • 财政年份:
    1996
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
局所的話速変化に富む日常会話音声の有効な採取方法と強調意図抽出処理
局部语速变化的日常会话语音有效采集方法及强调意图提取过程
  • 批准号:
    07750452
  • 财政年份:
    1995
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
言語的知識をヒューリスティックに用いた会話音声中の単語スポッティング
使用语言知识作为启发式进行对话语音中的单词识别
  • 批准号:
    06780310
  • 财政年份:
    1994
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
語彙・構文・意味知識を統合したA^*ヒューリスティック探索による会話音声認識
使用集成词汇、语法和语义知识的 A^* 启发式搜索进行会话语音识别
  • 批准号:
    05780287
  • 财政年份:
    1993
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
会話音声時間分布の統計的性質の測定および分析
会话语音时间分布统计特性的测量与分析
  • 批准号:
    X41440-----53096
  • 财政年份:
    1966
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Particular Research
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了