聞き手モデルに基づく能動的音声合成に関する研究

基于听者模型的主动语音合成研究

基本信息

  • 批准号:
    18J22090
  • 负责人:
  • 金额:
    $ 1.6万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2018
  • 资助国家:
    日本
  • 起止时间:
    2018-04-25 至 2021-03-31
  • 项目状态:
    已结题

项目摘要

本研究課題では、人間の音声知覚を統計的にモデル化し、多様な音声を自在に生成・制御可能な音声合成技術の実現を目指している。具体的には、音声合成技術により生成される合成音声の高品質化に加え、所望の合成音声を生成するために用いる、音声合成に対する補助的な入力(例えば、音声の話者を表す特徴量)の解釈性の低さといった従来技術の問題点を解決する。このような技術は、音声バーチャルリアリティによる身体的制約を超えた自己表現の拡張や、実際に利用される環境に適応可能な音声合成技術の実現に応用できると考える。今年度は特に、①利用者の主観的印象のグラフ表現を用いた話者ベクトル学習、 ②主観的印象スコア収集と話者ベクトル学習を反復するactive learningの2つに取り組んだ。①では、複数話者間の知覚的な類似度という関係性をグラフで表現し、深層学習に基づくグラフ表現学習により話者を表す特徴量(話者ベクトル)を学習する手法を提案した。実験的評価により、グラフ学習により得られた話者ベクトルが合成音声の自然性改善に最も有効であることを示した。この研究成果は、日本音響学会 粟屋 潔学術奨励賞を受賞している。②では、話者間類似度の知覚評価と話者ベクトル学習を反復し、解釈しやすい話者ベクトルを少ない計算コスト・評価コストで学習する手法を提案した。課題遂行最終年度である本年度は、研究成果の総括も行った。これまでの研究成果をまとめた原著論文は、音声信号処理分野におけるフラッグシップ論文誌であるIEEE/ACM TASLP誌に採録された。さらに、本研究課題の研究成果を含めて作成した博士論文は非常に高く評価され、東京大学 大学院情報理工学研究科において、各専攻から最も優れた博士課程学生を1名ずつ選出して授与される研究科長賞を受賞した。
This research topic is aimed at the realization of sound synthesis technology, including the generation and control of multiple sounds and the statistical analysis of human sound. To solve the technical problems of improving the quality of synthesized sound and improving the quality of synthesized sound. The technology of sound synthesis can be used to control the body's performance and to make use of the environment. This year's special,(1) the user's main impression of the group performance,(2) the user's main impression of the group learning,(3) the user's main impression of the group learning,(4) the user's main impression of the group learning,(5) the user's main impression of the group learning,(6) the user's main impression of the group learning,(7) the user's main impression of the group learning,(8) the user's main impression of the group learning,(9) the user ' (1) Similarity between multiple speakers, relatedness, performance, deep learning, basic performance, learning, speaker characteristics, learning methods The natural improvement of synthetic sound is the most effective way to improve the quality of speech. The results of this research were awarded by the Japan Sound Society's Suya Kiyoshi Academic Award.② We propose a method for learning the similarity between speakers and learning the similarity between speakers, and calculating and evaluating the similarity between speakers without reducing the number of speakers. The final year of project implementation is the year in which the research results are summarized. The original papers were collected from IEEE/ACM TASLP journals in the field of acoustic signal processing. The research results of this research project include the preparation of doctoral thesis, which was highly appraised by the Graduate School of Information Science, University of Tokyo. One of the best doctoral students in each discipline was selected and awarded by the Chief of Research.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
SMASHコーパス:ゲーム動画の後付け実況解説音声収録に基づく自発発話音声コーパス
SMASH Corpus:基于游戏视频后录制解说音频的自发语音语料库
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    齋藤 佑樹;高道 慎之介;猿渡 洋
  • 通讯作者:
    猿渡 洋
Non-parallel and many-to-many voice conversion using variational autoencoders integrating speech recognition and speaker verification
使用集成语音识别和说话人验证的变分自动编码器进行非并行和多对多语音转换
  • DOI:
    10.1250/ast.42.1
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0.7
  • 作者:
    Saito Yuki;Nakamura Taiki;Ijima Yusuke;Nishida Kyosuke;Takamichi Shinnosuke
  • 通讯作者:
    Takamichi Shinnosuke
音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習
使用音素后验概率进行多对一语音转换的语音识别和生成模型的同步对抗学习
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    齋藤 佑樹,阿久澤 圭;橘 健太郎
  • 通讯作者:
    橘 健太郎
Non-Parallel Voice Conversion Using Variational Autoencoders Conditioned by Phonetic Posteriorgrams and D-Vectors
主観的話者間類似度のグラフ埋め込みに基づくDNN話者埋め込み
基于主观说话人间相似度的图嵌入的 DNN 说话人嵌入
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    齋藤 佑樹;高道 慎之介;猿渡 洋
  • 通讯作者:
    猿渡 洋
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

齋藤 佑樹其他文献

ユーザによるVOCALOID曲の歌唱のためのブレス位置推定
用户演唱VOCALOID歌曲时的呼吸位置估计
Design-Based Research to Encourage an Attitude of “Learning Forward”in Teachers towards the Discovery of New Goals
基于设计的研究,鼓励教师“向前学习”的态度,以发现新的目标
作業で語る事例報告 第2版
通过工作讲述的案例报告,第二版
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    齋藤 佑樹;友利 幸之介;上江洲 聖;澤田 辰徳;竹林 崇;清家庸佑
  • 通讯作者:
    清家庸佑
Highway networkを用いた差分スペクトル法に基づく敵対的DNN音声変換
利用高速公路网络的基于差分谱方法的对抗性DNN语音转换
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shirafuji Shouhei;Matsui Naotaka;Ota Jun;齋藤 佑樹
  • 通讯作者:
    齋藤 佑樹
低電圧駆動単一磁束量子回路における論理ゲートのタイミングパラメータの解析
低压驱动单通量量子电路逻辑门时序参数分析
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    齋藤 佑樹;高道 慎之介;猿渡 洋;国吉真波
  • 通讯作者:
    国吉真波

齋藤 佑樹的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('齋藤 佑樹', 18)}}的其他基金

eスポーツ理解に向けた実況解説音声の分析及び音声合成アルゴリズムの開発
分析现场解说音频并开发理解电子竞技的语音合成算法
  • 批准号:
    22K17945
  • 财政年份:
    2022
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
訪問リハにおける利用者の活動・参加を促進する目標設定プロセスの理論化と実証研究
关于促进用户活动和参与家访康复的目标设定过程的理论和实证研究
  • 批准号:
    21K11045
  • 财政年份:
    2021
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
通所・訪問リハの漫然と続く機能訓練の改善に向けた目標設定プロセスの検討
检查目标设定过程以改善日常和现场康复的持续功能训练
  • 批准号:
    20K19402
  • 财政年份:
    2020
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists

相似海外基金

深層エネルギーベースモデルによる創造的声質変換の研究
使用深度能量模型进行创造性语音质量转换的研究
  • 批准号:
    23K11161
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
構音障がい者のための声質変換
构音障碍患者的语音质量转换
  • 批准号:
    14J04514
  • 财政年份:
    2014
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
統計的声質変換を用いた無喉頭音声の品質改善
使用统计语音转换提高非喉部语音的质量
  • 批准号:
    11J08741
  • 财政年份:
    2011
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
喉頭摘出者を対象にした統計的声質変換を用いた発声支援システムの確立
利用统计语音质量转换为喉切除患者建立声音支持系统
  • 批准号:
    09J10220
  • 财政年份:
    2009
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
音声分析合成における声質変換プログラム
用于语音分析和合成的语音质量转换程序
  • 批准号:
    01918079
  • 财政年份:
    1989
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了