人間の感覚と整合する音声特徴空間の構築

符合人类感官的音频特征空间构建

基本信息

  • 批准号:
    22K19793
  • 负责人:
  • 金额:
    $ 4.08万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-06-30 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

「人間の感覚と整合する音声特徴空間の構築」を目的とする。音声合成で感情を付与するとき、「平静」と「喜び」は付与可能だが「少しの喜び」はこれらの内挿で実現できない。音声認識で「若年層」と「高齢者層」のデータを用いてこれらの音声認識性能は向上できるが「中年層」の性能は向上できない。この目的を達するために、まず、「2話者の中間音声を合成する音声合成器」の構築を開始した。具体的には、複数話者の音声を話者埋め込みを与えることで実現できるマルチスピーカー音声合成器をTacotron 2に基づいて構築した。そして、その出力音声を、対象とする2話者を識別する話者識別機にかけ、その結果が2話者同等となるようなロス(すなわち両者の確率が0.5となる場合とのクロスエントロピー)を定義する。話者識別の特徴空間は、人間の聴覚の感覚に近いとされるメルスペクトル空間とする。さらに、音声の内容を保持することを保証するために、音声を音声認識器にも入力し、合成音声の認識結果を出力して、合成しようとした正しいテキストと比較した際の誤認識がロスとなるようにする。これらのロスを逆伝搬することで、クリアでかつ2話者両方に同等に近い音声を合成することを試みる。このシステムがほぼ完成したので、今後これを評価する。
The purpose of this paper is to integrate human perception into acoustic feature space. Sound synthesis, emotion, calmness, happiness, possibility, happiness, inner reality. Sound recognition performance of "young layer" and "high layer" is upward. To achieve this goal, the construction of a sound synthesizer for the intermediate sound of two speakers began. The concrete structure of Tacotron 2 is composed of two parts: one part is composed of two parts, the other part is composed of three parts. For example, if the output of the voice and the image are equal to each other, the speaker identification machine and the result are equal to each other, and the accuracy rate of the speaker is 0.5, the speaker identification machine and the result are equal to each other. Speaker recognition feature space, human perception of the near middle of the space. The content of sound is maintained. The two speakers are equally close to each other. This is the first time I've ever been to a hotel.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

北岡 教英其他文献

深層学習によるボトルネック特徴量を用いたマルチモーダル音声認識
使用深度学习使用瓶颈特征进行多模态语音识别
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田村 哲嗣;二宮 宏史;北岡 教英;大須賀 晋;入部 百合絵;武田 一哉;速水 悟
  • 通讯作者:
    速水 悟
ROSを利用したリアルタイム制御が可能な音声対話システムの構築
利用ROS构建可实时控制的语音对话系统
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西村 良太;森 貴大;北岡 教英
  • 通讯作者:
    北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲
  • 通讯作者:
    中村 哲
講義音声ドキュメンのコンテンツ化と視聴システム
讲座音频文档内容创建及查看系统
音声言語情報に基づいた認知症高齢者の判別
基于口语信息区分老年痴呆症
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    梅澤 舞菜;入部 百合絵;北岡 教英
  • 通讯作者:
    北岡 教英

北岡 教英的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('北岡 教英', 18)}}的其他基金

高齢者を対象とした永続的に利用できるマルチモーダル対話システム基盤技術の構築
建立老年人永久使用的多模态对话系统基础技术
  • 批准号:
    23H00493
  • 财政年份:
    2023
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
タイミングに着目した協調的音声インタラクション分析とハンズフリー対話システム構築
协作语音交互分析,重点关注免提对话系统的计时和构建
  • 批准号:
    18049040
  • 财政年份:
    2006
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
協調的音声対話の相槌・話者交替タイミング分析とそれに基づく応答生成法の研究
协作口语对话的合作/说话人变换时序分析及基于其的响应生成方法研究
  • 批准号:
    16016244
  • 财政年份:
    2004
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
音声対話における誤り訂正発話の検出と頑健な対話システムの研究
口语对话中纠错话语的检测和鲁棒对话系统的研究
  • 批准号:
    16700173
  • 财政年份:
    2004
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
ヒューマンフレンドリなマルチモーダル対話インタフェースを用いたWeb情報検索
使用人性化的多模式对话界面进行网络信息检索
  • 批准号:
    15017246
  • 财政年份:
    2003
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
フォーム型Web情報サービス享受のためのマルチモーダル対話インタフェースの研究
享受基于表单的网络信息服务的多模态对话界面研究
  • 批准号:
    14019046
  • 财政年份:
    2002
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
フォーム型Web情報サービス享受のためのマルチモーダル対話インタフェースの研究
享受基于表单的网络信息服务的多模态对话界面研究
  • 批准号:
    13224049
  • 财政年份:
    2001
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)

相似海外基金

インターネットデータの活用によるテキスト音声合成の感情表現力向上
利用互联网数据提高文本语音合成的情感表现力
  • 批准号:
    24KJ0860
  • 财政年份:
    2024
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
脳神経疾患による構音障害を克服するための,音声認識および音声合成AIシステムの開発
开发语音识别与语音合成AI系统,克服脑神经疾病引起的构音障碍
  • 批准号:
    24K10630
  • 财政年份:
    2024
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
話者・地域・スタイルモーフィング音声合成による実環境リスニング学習支援
使用说话者/区域/风格变形语音合成来支持真实世界的听力学习
  • 批准号:
    23K21945
  • 财政年份:
    2024
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
顔画像から声を再現するクロスモーダルボイスクローニング音声合成技術の研究
从面部图像再现声音的跨模态克隆语音合成技术研究
  • 批准号:
    24K02959
  • 财政年份:
    2024
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
非侵襲型脳波を用いた言語・非言語音声合成による次世代コミュニケーション技術の確立
通过使用非侵入性脑电波进行言语/非言语语音合成来建立下一代通信技术
  • 批准号:
    24H00715
  • 财政年份:
    2024
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
音声認識のデータ拡張のための音声合成との密統合
与语音合成紧密集成,用于语音识别的数据增强
  • 批准号:
    23K16944
  • 财政年份:
    2023
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
話者・地域・スタイルモーフィング音声合成による実環境リスニング学習支援
使用说话者/区域/风格变形语音合成来支持真实世界的听力学习
  • 批准号:
    22H00673
  • 财政年份:
    2022
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
eスポーツ理解に向けた実況解説音声の分析及び音声合成アルゴリズムの開発
分析现场解说音频并开发理解电子竞技的语音合成算法
  • 批准号:
    22K17945
  • 财政年份:
    2022
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
複数の調音運動データを中間情報とするマルチモーダル音声合成
使用多个发音运动数据作为中间信息的多模态语音合成
  • 批准号:
    22K12100
  • 财政年份:
    2022
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
基于DNN的高质量表达情感和个性的语音合成方法研究
  • 批准号:
    21K11963
  • 财政年份:
    2021
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了