感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
基于DNN的高质量表达情感和个性的语音合成方法研究
基本信息
- 批准号:21K11963
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
研究計画調書に記載した課題に関して,令和4年度(2022年度)に実施した内容は下記の通り。(課題1)非言語情報の表現モデル 「①-2感情強度表現方式の検討」について,X-vectorを利用して感情強度を制御する方式を検討した。感情は曖昧な情報であり、感情音声を喜怒哀楽にカテゴライズし、さらにそれらの強度をモデル化することは難しい。そこで、感情カテゴリとその強度を推定すること無しに、感情音声からX-vectorを抽出して、合成音声に反映させる方式を検討した。評価実験の結果、「喜」では80%、「哀」では60%程度の感情が表現できた。「喜」「哀」の性能差は原音声の感情の強さに依存している。この点は、評価を含め今後検討を進める。(課題2)少量データによる学習方式 「②-2学習データ量と性能の検討」について、学習済みのモデルを操作して多様な話者性を持つ音声を合成する方式を検討した。提案方式は、限られた学習データを利用して、学習データに含まれない話者性で音声を合成できる。具体的には、複数の学習話者からX-vectorを抽出し、各X-vectorの重みづけ和によって、新しい話者性を表現する。また、平均基本周波数の影響を低減させてX-vectorを抽出する方式を提案した。評価実験の結果、重みの大きさに対応して、話者性を制御できることが明らとなった。(課題3)音声対話システムへの応用 「音声対話タスクの検討」について、課題1で検討した「X-vectorを利用して感情強度を制御する方式」を利用するタスクとして、生徒と教師の対話タスクを選定した。システムが教師役であり、生徒の発話に対して回答する。生徒が「喜」や「哀」の感情で発話すれば、教師も「喜」や「哀」の感情で応答する。評価実験の結果、生徒の感情に合わせて教師が応答できることが明らかとなった。今後は、この応答戦略の妥当性と有効性を検討する。
The research plan is to record the relevant issues, and the contents of the implementation in the fourth year (2022) are recorded below. (Topic 1) Expression of non-verbal information: "1 - 2 Discussion on the expression mode of emotional intensity," and discussion on the control mode of emotional intensity by using X-vector. The emotion is ambiguous, the emotion sound is happy, angry, sad, sad, sad. The intensity of emotional sound is estimated, the X-vector of emotional sound is extracted, and the method of synthetic sound is discussed. Evaluation of the results,"happy" 80%,"sad" 60% degree of emotional performance. "Joy" and "sorrow" performance difference is the original sound of the feelings of strong dependence. The point is, the comment is, the future is, the discussion is, (Topic 2) Study method for small amount of data "②-2 Study quantity and performance evaluation", study method for operation of data, study method for multi-speaker, study method for voice synthesis. The proposal method is to limit the use of learning materials, including the nature of speech and sound synthesis. Specific to multiple learners, X-vector extraction, X-vector weight and new speaker performance The influence of the average fundamental frequency is reduced and the X-vector is extracted. The results of the evaluation, the importance of the big picture, the speaker's character control, and the bright future (Subject 3) The use of "voice response search" in voice response search is discussed in Subject 1."X-vector utilization and emotional intensity control methods" are discussed. The answer to this question is: Students express their feelings of "joy" and "sorrow"; teachers express their feelings of "joy" and "sorrow". The result of the evaluation, the feelings of the students, the teacher's answer and the answer. In the future, the appropriateness of the response strategy will be discussed.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
音声対話システムのための入力音声の感情に同調する声質変換とx-vector 埋め込みを用いたテキストからの音声合成方式の検討
研究使用语音质量转换和 x 向量嵌入来调整口语对话系统输入语音情感的文本到语音合成方法
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:小原俊一;阿部匡伸;原直
- 通讯作者:原直
小説オーディオブックの強調部分を学習に用いる抑揚制御可能なEnd-to-End 音声合成方式の検討
利用小说有声读物的强调部分进行语调控制的端到端语音合成方法的研究
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:小原俊一;阿部匡伸;原直;和田拓海,原直,阿部匡伸
- 通讯作者:和田拓海,原直,阿部匡伸
Speech-Like Emotional Sound Generation Using WaveNet
使用 WaveNet 生成类似语音的情感声音
- DOI:10.1587/transinf.2021edp7236
- 发表时间:2022
- 期刊:
- 影响因子:0.7
- 作者:Kento Matsumoto;Sunao Hara;Masanobu Abe
- 通讯作者:Masanobu Abe
口唇特徴量を利用した知識蒸留による舌亜全摘出者の音韻明瞭度改善法の検討
利用唇部特征进行知识蒸馏,检查提高舌次全切除患者语音清晰度的方法
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Ryohei Teranishi;Takahiro Nagata;Tomio Goto and Satoshi Hirano;高島和嗣,阿部匡伸,原直
- 通讯作者:高島和嗣,阿部匡伸,原直
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
阿部 匡伸其他文献
阿部 匡伸的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
任意の話者性・感情表現・発話様式によるテキスト音声合成の実現
实现任意说话人特征、情绪表达、说话风格的文本语音合成
- 批准号:
04J04633 - 财政年份:2004
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows
多様な話者性の制御を可能とする高品質なテキスト音声合成の研究
研究能够控制不同说话者特征的高质量文本到语音合成
- 批准号:
03J01700 - 财政年份:2003
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for JSPS Fellows