权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

マルチメディアコンピュータによる視聴覚融合音声認識システム

利用多媒体计算机的视听综合语音识别系统

基本信息

批准号：
08780376
负责人：
荻原昭夫
金额：
$ 0.64万
依托单位：
Osaka Prefecture University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Encouragement of Young Scientists (A)
财政年份：
1996
资助国家：
日本
起止时间：
1996 至无数据
项目状态：
已结题

项目摘要

本課題では,動画像を使用した視聴覚融合による人間と計算機との対話システムの実現を目的とし,視聴覚融合音声認識システムに関する研究を行なった.特に,近年,急速に普及しつつあるマルチメディアコンピュータ(「動画像の表示」や「音響信号の録音・再生」などの機能を有するコンピュータ)上に視聴覚融合音声認識手法を実装することで,特殊な装置を一切用いることなく音声認識システムを実現することを試みた.本研究で構築を行なった「マルチメディアコンピュータによる視聴覚融合音声認識システム」では,マルチメディアコンピュータが有している“音声同期型動画像入力機能"を用いてフルフレーム(30fps, 1秒間当たり30フレーム)・フルカラー(24 bit color)の動画像をディジタル形式のデータとして撮影する.その後,この動画像を対象として,特徴抽出処理,視聴覚融合処理,音声認識処理の各処理をマルチメディアコンピュータ上で行なう.なお,視聴覚融合処理については,「1次結合によるHMM(隠れマルコフモデル)視聴覚融合手法」と「TDNN(時間遅れニューラルネットワーク)による視聴覚融合手法」の2種類の手法により実現している.本システム用いて音声認識実験を行なった結果,・唇の動きが速いために認識が困難であった子音に対する効果・マルチメディアコンピュータ上への視聴覚融合音声認識システムの実装可能性を確認した.さらに,認識率を改善する方策として,口唇形状をより反映する視覚特徴量の抽出法について検討を進めている.なお,上述のシステムの構築,および,実験評価の実施に際して,本科学研究費補助金研究により購入した設備備品を使用した.

In this topic, the animation image is used.の実appearsをpurposeとし, visual 聴覚 fusion sound recognition システムに关する research を行なった.特に,In recent years, the popularity of rapid animation has become more and more popular.や「Recording and reproduction of audio signals」などのfunctional を有するコンピュータ) on the visual 聴覚 fusion Voice Recognition Techniques: Special Devices, Special Devices, All Uses, Sound Recognition Systemテムを実行することをtestみた. This study constructed the を行なった「マルチメディアコンピュータによる Visual 聴覚 fusion sound recognition システム」では, マルチメディアコンピュータThe "audio-synchronized animation image input function" is used by the "sound synchronized animation image input function" (30fps, 1 second as たり30フレーム)・フルカラー(24 bit color)のanimated imageをディジタル formのデータとして影视する.その后,このanimated imageを対肖として,特徴Extraction processing, visual and visual fusion processing, and sound recognition processing. Fusion processing, "First combined HMM (隠れマルコフモデル) visual fusion technique" and "TDNN (time) The 2 types of techniques used in the にれれニューラルネットワーク)による视聴覚 fusion technique are used in this システムいてvoice recognition実験を行なったresult,・ LipのmovingきがspeedいためにRecognitionがdifficultyであった子音に対するeffect・マルチメディアコンピュータ上への视聴覚 fusion sound recognition システムの実装possibilityをconfirmationした.さらに, the recognition rate has improvedすThe shape of the lips is reflected in the extraction method of the special features of the lips.ムのstructuring, および, 実験综合価の実事に国际して, this research was funded by a research grant, and により purchased したequipment and spare parts and used した.