マルチモーダル音声認識・合成によるインターフェースの構築

使用多模态语音识别和合成构建界面

基本信息

  • 批准号:
    10780226
  • 负责人:
  • 金额:
    $ 1.47万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1998
  • 资助国家:
    日本
  • 起止时间:
    1998 至 1999
  • 项目状态:
    已结题

项目摘要

人間が関わるコミュニケーションにおいては、視覚と聴覚情報の担う役割が非常に大きい。このため,人間に優しいヒューマンインターフェースを実現する上で,視覚・聴覚を融合したマルチモーダルインターフェースの開発が重要な課題となっている。このようなマルチモーダルインターフェースの一つとして,音声と唇動画像による「バイモーダル音声認識」と,任意の文字テキストから自然な音声と唇の動きを同時に生成する「バイモーダル音声合成」を,「バイモーダル音声入出力システム」として統一された枠組の中で実現することを目指し,以下のような研究を行った.・唇画像データベースの作成:音節または音素を単位とするHMM作成のために必要な唇画像を音声と同期して収録した。また,同期収録音声に基づいてラベル付けを行った。・唇動画像による音声認識唇のためのHMMの学習法について検討し,新たに提案した位置の正規化学習が効果的であることを示した.・唇動画像の生成については,輪郭モデルを用いるものと,画像ベースのものとを並行して,検討した.いずれにおいても,これまでに提案したHMMからのパラメータ生成アルゴリズムを用いることにより,良好な唇動画像を生成できることを確かめた.・以上の成果に基づいて,「入力音声に同期した唇動画像を生成するシステム」,「テキストから,音声と唇動画像を同時に生成するシステム」などを構築し,それらの有用性を示した.
在人类交流中,视觉和听觉信息起着巨大的作用。因此,在实现人类友好的人类界面时,结合视觉和听力的多模式界面的发展是一个重要的问题。作为这些多模式界面之一,我们的目的是使用语音和唇部运动图像实现“双峰语音识别”,以及“双峰语音综合”,同时在统一框架内从任何文本中产生自然语音和唇部运动,作为“双峰语音输入/输出系统”,并创建了lip imable: - lip image:lip imabase: - lip imabale;与音频同步记录音素。此外,根据同步记录音频进行标记。・我们研究了使用唇部运动图像的HMM学习方法,并表明新提出的对位置的归一化学习是有效的。 ・对于生成唇部运动图像,我们在平行的情况下检查了轮廓模型和基于图像的模型。在这两种情况下,我们都可以通过使用来自HMM提出的参数生成算法来确认可以生成良好的唇部运动图像。 ・基于上述结果,我们构建了一个系统,该系统用于生成与输入语音同步的唇部运动图像,一种用于同时从文本中生成语音和唇部运动图像的系统,并证明了它们的实用性。

项目成果

期刊论文数量(35)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Oscar Vanegas: "Intensity/Iocation normalization for automatice lipreading" Proc. International Conference on Signal Processing. vol.2. 920-923 (1998)
Oscar Vanegas:“自动唇读的强度/位置标准化”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Masatsune Tamura: "Visual speech synthesis based on parameter generation from HMM:speech-driven and text-and-speech-driven approach" Proc. International Conference of Auditory-Visual Speech Proccssing. 219-224 (1998)
Masatsune Tamura:“基于 HMM 参数生成的视觉语音合成:语音驱动和文本和语音驱动方法”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K,Tokuda: "Speech parameter generation algorithms for HMM-based speech synthesis"Proceedings of International Conference on Acoustics,Speech,and Signal Processing. (採録決定済). (2000)
K,Tokuda:“基于 HMM 的语音合成的语音参数生成算法”国际声学、语音和信号处理会议论文集(已接受)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
O.Vanegas: "Location normalization of HMM-based lip reading : Experiments for the M2VTS Database"IEEE International Conference on Image Processing. (1999)
O.Vanegas:“基于 HMM 唇读的位置标准化:M2VTS 数据库的实验”IEEE 国际图像处理会议。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Yoshimura: "Simultaneous modeling of spectrum,pitch and duration in HMM-based speech synthesis"Proceedings of European Conference on Speech Communication and Technology. (1999)
T.Yoshimura:“基于 HMM 的语音合成中频谱、音调和持续时间的同步建模”欧洲语音通信与技术会议论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

徳田 恵一其他文献

分離型2次元格子HMMに基づく顔画像認識
基于可分离二维网格HMM的人脸图像识别
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    布目 哲也;南角 吉彦;徳田 恵一;北村 正
  • 通讯作者:
    北村 正
英語音声合成における韻律推定モデルと音響モデルの同時学習
英语语音合成中韵律估计模型和声学模型的同时学习
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大浦 圭一郎;戸田 智基;南角 吉彦;徳田 恵一;マイアハニエリ;坂井 信輔;中村 哲
  • 通讯作者:
    中村 哲
F0量子化と非パラレル学習に基づく声質変換の評価
基于F0量化和非并行学习的语音质量转换评估
Knowledge-based Discovery in Systems Biology using CF-Induction.
使用 CF-Induction 在系统生物学中进行基于知识的发现。
Blizzar Challenge 2007のための平均声に基づくHMM音声合成システムの評価
2007 年暴雪挑战赛基于平均语音的 HMM 语音合成系统评估
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    能勢 隆;山岸 順一;全 柄河;戸田 智基;徳田 恵一
  • 通讯作者:
    徳田 恵一

徳田 恵一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('徳田 恵一', 18)}}的其他基金

深層学習に基づいた新世代音声・オーディオ信号生成に関する研究
基于深度学习的新一代语音音频信号生成研究
  • 批准号:
    23K24870
  • 财政年份:
    2024
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Next-generation audio and speech processing architectures based on deep learning
基于深度学习的下一代音频和语音处理架构
  • 批准号:
    22H03614
  • 财政年份:
    2022
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
t分布仮定に基づくロバストスペクトル推定
基于t分布假设的鲁棒谱估计
  • 批准号:
    97F00343
  • 财政年份:
    1998
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
隠れマルコフモデルを用いた認識ボコーダー極低ビットレート音声符号化-
使用隐马尔可夫模型进行极低比特率语音编码的识别声码器
  • 批准号:
    08780333
  • 财政年份:
    1996
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
隠れマルコフモデルを用いた音声の規則合成-喜怒哀楽の表現を目指して-
使用隐马尔可夫模型规则合成语音 - 旨在表达喜、怒、哀、乐 -
  • 批准号:
    07858043
  • 财政年份:
    1995
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
音声データ圧縮・蓄積システムの高品質・低ビットレート化に関する研究
高质量低码率音频数据压缩与存储系统研究
  • 批准号:
    06750373
  • 财政年份:
    1994
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
適応メルケプストラム分析法に基づく音声の高能率符号化法に関する研究
基于自适应梅尔倒谱分析方法的高效语音编码方法研究
  • 批准号:
    04750270
  • 财政年份:
    1992
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了