複数の調音運動データを中間情報とするマルチモーダル音声合成
使用多个发音运动数据作为中间信息的多模态语音合成
基本信息
- 批准号:22K12100
- 负责人:
- 金额:$ 2.58万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2027-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
2022年度は主にrtMRI動画像データからの音声合成法について検討した.本年度は特に,(1)rtMRI動画像からメルケプストラムのみを推定してworldボコーダによって音声を合成する方法と,(2)rtMRI動画像からメルスペクトログラムを推定してニューラルボコーダによって音声を合成する方法の2種類を検討した.(1)のメルケプストラムを推定する方法では声道形状パラメータ(口や舌の形)のみを推定し,声の高さを制御する声帯振動に相当するパラメータは同時収録した音声から取得していた.これに対して,(2)のメルスペクトログラムを推定する方法では声道形状パラメータに加えて声帯振動パラメータも推定することから声帯振動が撮影できないrtMRI動画像からは推定が困難であることが予想された.まず,(1)のメルケプストラムを推定する方法では,転置畳み込みニューラルネットワークの導入により時間分解能を向上し,音声を精度よく合成できることが確認できた.特に音素毎にメルケプストラムの精度を確認したところ,従来手法と比べて破裂音(/b/や/t/のように発音の直前に空気の流れを止めて発音する音)のメルケプストラム推定が良好に行えていることが確認でき,rtMRI動画像には含まれにくい閉鎖の瞬間を転置畳み込みニューラルネットワークで補完できていることが確認できた.(2)のメルスペクトログラムを推定する方法では,困難であると思われた声帯振動が良好に取得でき,合成音の基本周波数(声帯振動の周期に対応するパラメータ)が良好に取得できていることが確認できた.発声を声帯振動と声道形状で説明する従来のソース・フィルタモデルでは原理的に不可能であろう推定ができていることから,今後は良好に基本周波数が推定できた理由について分析を進める予定である.
In 2022, the main rtMRI animation image data was recorded and the sound synthesis method was discussed. This year, we will discuss (1) methods for estimating the range of motion pictures in rtMRI animation images and (2) methods for synthesizing sound in rtMRI animation images. (1)The method of estimating the sound track shape, the sound track vibration, and the sound track vibration are obtained simultaneously. (2) The method of estimating the sound track shape, the method of estimating the sound track vibration, and the method of estimating the sound track vibration are discussed. (1) The method for estimating the sound quality of the sound is to set the sound quality of the sound quality. The accuracy of each phoneme is confirmed. The method is more accurate than the breaking sound (/b/t/sound). The estimation of the phoneme is good. The MRI animation image contains the moment of locking. (2)The method for estimating the frequency of the synthesized sound is difficult to obtain, and the basic frequency of the synthesized sound (the period of the frequency of the sound) is good to obtain. Sound transmission band vibration and sound channel shape explanation come from the sound source, sound source.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案
使用Conformer的早期组合多模态语音识别模型的提案
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Hiroaki Uetani;Naoya Suzuki;and Atsutoshi Ikeda;種田基希,池田篤俊;大谷 祐人,澤田 隼,大村 英史,桂田 浩一;大谷 祐人,澤田 隼,大村 英史,桂田 浩一;佐藤 駿,澤田 隼,大村 英史,桂田 浩一;丹治 涼,澤田 隼,大村 英史,桂田 浩一;青木 伸和,澤田 隼,大村 英史,桂田 浩一
- 通讯作者:青木 伸和,澤田 隼,大村 英史,桂田 浩一
real-time MRI 調音運動データからの end-to-end 音声合成
根据实时 MRI 发音运动数据进行端到端语音合成
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Hiroaki Uetani;Naoya Suzuki;and Atsutoshi Ikeda;種田基希,池田篤俊;大谷 祐人,澤田 隼,大村 英史,桂田 浩一;大谷 祐人,澤田 隼,大村 英史,桂田 浩一
- 通讯作者:大谷 祐人,澤田 隼,大村 英史,桂田 浩一
RtMRIデータからの調音-音響変換における転置畳み込みニューラルネットワークの利用
利用转置卷积神经网络对 RtMRI 数据进行发音-声学转换
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Hiroaki Uetani;Naoya Suzuki;and Atsutoshi Ikeda;種田基希,池田篤俊;大谷 祐人,澤田 隼,大村 英史,桂田 浩一;大谷 祐人,澤田 隼,大村 英史,桂田 浩一;佐藤 駿,澤田 隼,大村 英史,桂田 浩一;丹治 涼,澤田 隼,大村 英史,桂田 浩一
- 通讯作者:丹治 涼,澤田 隼,大村 英史,桂田 浩一
real-time MRIで収録した調音運動に基づくend-to-end音声合成
基于实时 MRI 记录的发音运动的端到端语音合成
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Hiroaki Uetani;Naoya Suzuki;and Atsutoshi Ikeda;種田基希,池田篤俊;大谷 祐人,澤田 隼,大村 英史,桂田 浩一
- 通讯作者:大谷 祐人,澤田 隼,大村 英史,桂田 浩一
Vision Transformerの係数付き1bit化
Vision Transformer 带系数的 1 位转换
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Hiroaki Uetani;Naoya Suzuki;and Atsutoshi Ikeda;種田基希,池田篤俊;大谷 祐人,澤田 隼,大村 英史,桂田 浩一;大谷 祐人,澤田 隼,大村 英史,桂田 浩一;佐藤 駿,澤田 隼,大村 英史,桂田 浩一
- 通讯作者:佐藤 駿,澤田 隼,大村 英史,桂田 浩一
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
桂田 浩一其他文献
ドメイン敵対的ニューラルネットワークを用いた対数周波数スペクトログラム上の音色変換
使用域对抗神经网络对对数频谱图进行音色变换
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
深代 勇樹;大村 英史;澤田 隼;桂田 浩一 - 通讯作者:
桂田 浩一
変分オートエンコーダーを用いた多重音解析の性能評価
使用变分自动编码器的多音分析性能评估
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Seng Kheang;Kouichi Katsurada;Yurie Iribe and Tsuneo Nitta;深井 健大郎,大村 英史,桂田 浩一,平田 里佳,入部 百合絵,新田 恒雄;小口 優人,大村 英史,桂田 浩一;桂田 浩一;森口寛生,大村英史,桂田浩一 - 通讯作者:
森口寛生,大村英史,桂田浩一
会話属性により分類されたアニメ会話を用いた日本語聴解テスト練習支援での妥当性考察
利用按对话属性分类的动漫对话来考察日语听力测试练习支持的有效性
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
深代 勇樹;大村 英史;澤田 隼;桂田 浩一;NI YANGDI,SHAN JunJie,韓毅弘,西原陽子 - 通讯作者:
NI YANGDI,SHAN JunJie,韓毅弘,西原陽子
発話時と想起時の脳波による日本語短音節認識の比較
发声和回忆时使用脑电波进行日语短音节识别的比较
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Seng Kheang;Kouichi Katsurada;Yurie Iribe and Tsuneo Nitta;深井 健大郎,大村 英史,桂田 浩一,平田 里佳,入部 百合絵,新田 恒雄;小口 優人,大村 英史,桂田 浩一;桂田 浩一;森口寛生,大村英史,桂田浩一;新田恒雄,桂田浩一,神崎卓丸;桂田 浩一;浅原 康平,中根 丈司,神崎 卓丸,桂田 浩一,杉本 俊二,新田 恒雄,堀川 順生;神崎 卓丸,浅原 康平,中根 丈司,桂田 浩一,杉本 俊二,堀川 順生,新田 恒雄 - 通讯作者:
神崎 卓丸,浅原 康平,中根 丈司,桂田 浩一,杉本 俊二,堀川 順生,新田 恒雄
桂田 浩一的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('桂田 浩一', 18)}}的其他基金
対話文脈の再推定メカニズムを備えた柔軟なモルチモーダル対話システムの構築
构建具有对话上下文重估计机制的灵活多模态对话系统
- 批准号:
17700185 - 财政年份:2005
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
多種多様な端末の利用を可能にするMMIアーキテクチャの設計と各種端末での実装
支持多种终端使用的MMI架构设计并在多种终端上实现
- 批准号:
14780323 - 财政年份:2002
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
調音運動の発達と音韻知覚への影響
发音运动的发展及其对语音感知的影响
- 批准号:
12J08436 - 财政年份:2012
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for JSPS Fellows
調音運動の時間構造とモデル化に関する研究
发音运动的时间结构和建模研究
- 批准号:
08750549 - 财政年份:1996
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
磁気センサを用いた調音運動計測システムの開発研究
利用磁传感器的关节运动测量系统的研发
- 批准号:
07750511 - 财政年份:1995
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
下顎調音運動に対する咬筋筋紡錘由来の求心性情報の役割
咬肌肌梭传入信息对下颌关节运动的作用
- 批准号:
05857224 - 财政年份:1993
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
調音運動の特徴抽出と調音機構の解析
关节运动特征提取及关节机制分析
- 批准号:
63608508 - 财政年份:1988
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
調音運動の観測と定式化にもとづく連続音声合成方式
基于观察和表达发音运动的连续语音合成方法
- 批准号:
X00090----558009 - 财政年份:1980
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for General Scientific Research (C)