マルチモーダル音声認識・合成によるインターフェースの構築

使用多模态语音识别和合成构建界面

基本信息

  • 批准号:
    10780226
  • 负责人:
  • 金额:
    $ 1.47万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1998
  • 资助国家:
    日本
  • 起止时间:
    1998 至 1999
  • 项目状态:
    已结题

项目摘要

人間が関わるコミュニケーションにおいては、視覚と聴覚情報の担う役割が非常に大きい。このため,人間に優しいヒューマンインターフェースを実現する上で,視覚・聴覚を融合したマルチモーダルインターフェースの開発が重要な課題となっている。このようなマルチモーダルインターフェースの一つとして,音声と唇動画像による「バイモーダル音声認識」と,任意の文字テキストから自然な音声と唇の動きを同時に生成する「バイモーダル音声合成」を,「バイモーダル音声入出力システム」として統一された枠組の中で実現することを目指し,以下のような研究を行った.・唇画像データベースの作成:音節または音素を単位とするHMM作成のために必要な唇画像を音声と同期して収録した。また,同期収録音声に基づいてラベル付けを行った。・唇動画像による音声認識唇のためのHMMの学習法について検討し,新たに提案した位置の正規化学習が効果的であることを示した.・唇動画像の生成については,輪郭モデルを用いるものと,画像ベースのものとを並行して,検討した.いずれにおいても,これまでに提案したHMMからのパラメータ生成アルゴリズムを用いることにより,良好な唇動画像を生成できることを確かめた.・以上の成果に基づいて,「入力音声に同期した唇動画像を生成するシステム」,「テキストから,音声と唇動画像を同時に生成するシステム」などを構築し,それらの有用性を示した.
It is very difficult for people to take care of each other in the course of service and cutting. In the middle of the day, there is an upstream of the phone in the middle of the day, and there is no need to start an important issue. Every word, word, sound, sound The sound input and output of the sound is affected by the sound input and output of the sound. In the system, you can see that the sound is not clear. The following is a study. The lip portrait is made of the sound, the phoneme, the phoneme, the HMM, the necessary lip portrait, the sound, the sound, the sound. At the same time, the sound will be paid in the same period. Lip motion portrait, voice recognition, lip contact, HMM learning method, lip movement, lip motion, lip motion, lip movement, lip movement, voice, sound, voice, sound, voice, voice, sound, voice, sound, sound, voice, voice, sound, sound, voice, voice, sound, voice, sound, sound, voice, sound, sound, The lip-moving portrait is used to create a picture, and the picture is used to make a picture of it. Please make sure that you can make sure that you have a good picture of your lips, and that you can use your lips to make sure that you have a good picture of your lips, so that you can make sure that you can make sure that you have a good picture of your lips. The above results are based on the above results, "input sound and sound at the same time to generate lip motion portraits", "sound and sound lip motion portraits", "sound and lip motion portraits" at the same time.

项目成果

期刊论文数量(35)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Oscar Vanegas: "Intensity/Iocation normalization for automatice lipreading" Proc. International Conference on Signal Processing. vol.2. 920-923 (1998)
Oscar Vanegas:“自动唇读的强度/位置标准化”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K,Tokuda: "Speech parameter generation algorithms for HMM-based speech synthesis"Proceedings of International Conference on Acoustics,Speech,and Signal Processing. (採録決定済). (2000)
K,Tokuda:“基于 HMM 的语音合成的语音参数生成算法”国际声学、语音和信号处理会议论文集(已接受)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
O.Vanegas: "Location normalization of HMM-based lip reading : Experiments for the M2VTS Database"IEEE International Conference on Image Processing. (1999)
O.Vanegas:“基于 HMM 唇读的位置标准化:M2VTS 数据库的实验”IEEE 国际图像处理会议。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Masatsune Tamura: "Visual speech synthesis based on parameter generation from HMM:speech-driven and text-and-speech-driven approach" Proc. International Conference of Auditory-Visual Speech Proccssing. 219-224 (1998)
Masatsune Tamura:“基于 HMM 参数生成的视觉语音合成:语音驱动和文本和语音驱动方法”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Yoshimura: "Simultaneous modeling of spectrum,pitch and duration in HMM-based speech synthesis"Proceedings of European Conference on Speech Communication and Technology. (1999)
T.Yoshimura:“基于 HMM 的语音合成中频谱、音调和持续时间的同步建模”欧洲语音通信与技术会议论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

徳田 恵一其他文献

英語音声合成における韻律推定モデルと音響モデルの同時学習
英语语音合成中韵律估计模型和声学模型的同时学习
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大浦 圭一郎;戸田 智基;南角 吉彦;徳田 恵一;マイアハニエリ;坂井 信輔;中村 哲
  • 通讯作者:
    中村 哲
分離型2次元格子HMMに基づく顔画像認識
基于可分离二维网格HMM的人脸图像识别
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    布目 哲也;南角 吉彦;徳田 恵一;北村 正
  • 通讯作者:
    北村 正
Blizzar Challenge 2007のための平均声に基づくHMM音声合成システムの評価
2007 年暴雪挑战赛基于平均语音的 HMM 语音合成系统评估
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    能勢 隆;山岸 順一;全 柄河;戸田 智基;徳田 恵一
  • 通讯作者:
    徳田 恵一
Knowledge-based Discovery in Systems Biology using CF-Induction.
使用 CF-Induction 在系统生物学中进行基于知识的发现。
F0量子化と非パラレル学習に基づく声質変換の評価
基于F0量化和非并行学习的语音质量转换评估

徳田 恵一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('徳田 恵一', 18)}}的其他基金

深層学習に基づいた新世代音声・オーディオ信号生成に関する研究
基于深度学习的新一代语音音频信号生成研究
  • 批准号:
    23K24870
  • 财政年份:
    2024
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Next-generation audio and speech processing architectures based on deep learning
基于深度学习的下一代音频和语音处理架构
  • 批准号:
    22H03614
  • 财政年份:
    2022
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
t分布仮定に基づくロバストスペクトル推定
基于t分布假设的鲁棒谱估计
  • 批准号:
    97F00343
  • 财政年份:
    1998
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
隠れマルコフモデルを用いた認識ボコーダー極低ビットレート音声符号化-
使用隐马尔可夫模型进行极低比特率语音编码的识别声码器
  • 批准号:
    08780333
  • 财政年份:
    1996
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
隠れマルコフモデルを用いた音声の規則合成-喜怒哀楽の表現を目指して-
使用隐马尔可夫模型规则合成语音 - 旨在表达喜、怒、哀、乐 -
  • 批准号:
    07858043
  • 财政年份:
    1995
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
音声データ圧縮・蓄積システムの高品質・低ビットレート化に関する研究
高质量低码率音频数据压缩与存储系统研究
  • 批准号:
    06750373
  • 财政年份:
    1994
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
適応メルケプストラム分析法に基づく音声の高能率符号化法に関する研究
基于自适应梅尔倒谱分析方法的高效语音编码方法研究
  • 批准号:
    04750270
  • 财政年份:
    1992
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Multi-layered sound information processing mechanism in the auditory cortex using ultra-high-field fMRI
使用超高场功能磁共振成像的听觉皮层多层声音信息处理机制
  • 批准号:
    20K20158
  • 财政年份:
    2020
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Development and validation of an evaluation system for oral and swallowing functions based on multidimensional sound information
基于多维声音信息的口腔吞咽功能评价系统的开发与验证
  • 批准号:
    18H03260
  • 财政年份:
    2018
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
A study on evaluation of transmission quality of sound information in urban and architectural spaces focusing on ear Input signals
以人耳输入信号为中心的城市和建筑空间声音信息传输质量评价研究
  • 批准号:
    17K06671
  • 财政年份:
    2017
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
SoundTact - Visual to Tactile and Sound Information to assist Visually Impaired People
SoundTact - 视觉到触觉和声音信息,以帮助视障人士
  • 批准号:
    132054
  • 财政年份:
    2015
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Feasibility Studies
The sports-sonarring: Influence of temporal and spatial lags of sound information on sports performance
运动声纳:声音信息的时空滞后对运动表现的影响
  • 批准号:
    15K20979
  • 财政年份:
    2015
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
A Novel Method to Extract Sound Information in Light and Achievement of High Performance and Advanced Functions in Optical Wave Microphone
光中声音信息提取新方法及光波麦克风高性能、先进功能的实现
  • 批准号:
    22560429
  • 财政年份:
    2010
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Corticofugal modulation of sound information processing in the cochlear nucleus
耳蜗核声音信息处理的皮质调制
  • 批准号:
    182393
  • 财政年份:
    2009
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Operating Grants
Alternative sound information display - ASID
替代声音信息显示 - ASID
  • 批准号:
    337952-2006
  • 财政年份:
    2008
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Strategic Projects - Group
Study of optical method extracting sound information included in light and establishment of optical wave microphone
光学方法提取光中声音信息的研究及光波麦克风的建立
  • 批准号:
    19560432
  • 财政年份:
    2007
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Alternative sound information display - ASID
替代声音信息显示 - ASID
  • 批准号:
    337952-2006
  • 财政年份:
    2007
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Strategic Projects - Group
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了