マルチメディアコンピュータによる視聴覚融合音声認識システム
利用多媒体计算机的视听综合语音识别系统
基本信息
- 批准号:08780376
- 负责人:
- 金额:$ 0.64万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)
- 财政年份:1996
- 资助国家:日本
- 起止时间:1996 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本課題では,動画像を使用した視聴覚融合による人間と計算機との対話システムの実現を目的とし,視聴覚融合音声認識システムに関する研究を行なった.特に,近年,急速に普及しつつあるマルチメディアコンピュータ(「動画像の表示」や「音響信号の録音・再生」などの機能を有するコンピュータ)上に視聴覚融合音声認識手法を実装することで,特殊な装置を一切用いることなく音声認識システムを実現することを試みた.本研究で構築を行なった「マルチメディアコンピュータによる視聴覚融合音声認識システム」では,マルチメディアコンピュータが有している“音声同期型動画像入力機能"を用いてフルフレーム(30fps, 1秒間当たり30フレーム)・フルカラー(24 bit color)の動画像をディジタル形式のデータとして撮影する.その後,この動画像を対象として,特徴抽出処理,視聴覚融合処理,音声認識処理の各処理をマルチメディアコンピュータ上で行なう.なお,視聴覚融合処理については,「1次結合によるHMM(隠れマルコフモデル)視聴覚融合手法」と「TDNN(時間遅れニューラルネットワーク)による視聴覚融合手法」の2種類の手法により実現している.本システム用いて音声認識実験を行なった結果,・唇の動きが速いために認識が困難であった子音に対する効果・マルチメディアコンピュータ上への視聴覚融合音声認識システムの実装可能性を確認した.さらに,認識率を改善する方策として,口唇形状をより反映する視覚特徴量の抽出法について検討を進めている.なお,上述のシステムの構築,および,実験評価の実施に際して,本科学研究費補助金研究により購入した設備備品を使用した.
In this topic, the animation image is used.の実appearsをpurposeとし, visual 聴覚 fusion sound recognition システムに关する research を行なった.特に,In recent years, the popularity of rapid animation has become more and more popular.や「Recording and reproduction of audio signals」などのfunctional を有するコンピュータ) on the visual 聴覚 fusion Voice Recognition Techniques: Special Devices, Special Devices, All Uses, Sound Recognition Systemテムを実行することをtestみた. This study constructed the を行なった「マルチメディアコンピュータによる Visual 聴覚 fusion sound recognition システム」では, マルチメディアコンピュータThe "audio-synchronized animation image input function" is used by the "sound synchronized animation image input function" (30fps, 1 second as たり30フレーム)・フルカラー(24 bit color)のanimated imageをディジタル formのデータとして影视する.その后,このanimated imageを対肖として,特徴Extraction processing, visual and visual fusion processing, and sound recognition processing. Fusion processing, "First combined HMM (隠れマルコフモデル) visual fusion technique" and "TDNN (time) The 2 types of techniques used in the にれれニューラルネットワーク)による视聴覚 fusion technique are used in this システムいてvoice recognition実験を行なったresult,・ LipのmovingきがspeedいためにRecognitionがdifficultyであった子音に対するeffect・マルチメディアコンピュータ上への视聴覚 fusion sound recognition システムの実装possibilityをconfirmationした.さらに, the recognition rate has improvedすThe shape of the lips is reflected in the extraction method of the special features of the lips.ムのstructuring, および, 実験综合価の実事に国际して, this research was funded by a research grant, and により purchased したequipment and spare parts and used した.
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
荻原昭夫: "フルフレーム・フルカラー画像を用いた視聴覚融合音声認識" 第11回ディジタル信号処理シンポジウム講演論文集. 297-302 (1996)
Akio Ogiwara:“使用全帧、全彩色图像的视听集成语音识别”第 11 届数字信号处理研讨会论文集 297-302 (1996)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Satoru Igawa: "Speech Recognition Based on Fusion of Visual and Anditory Information Using Full-Frame Color Image" 電子情報通信学会 英文論文誌(EA). E79-A. 1836-1840 (1996)
Satoru Ikawa:“基于使用全帧彩色图像的视觉和听觉信息融合的语音识别”IEICE 英文期刊 (EA) 1836-1840 (1996)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Akio Ogihara: "An Isolated Word Speech Recognition Based on Fusion of Visual and Auditory Information Using 30-frame/s and 24-bit Color Image." 電子情報通信学会 英文論文誌(EA). (印刷中). (1997)
Akio Ogihara:“基于使用 30 帧/秒和 24 位彩色图像的视觉和听觉信息融合的孤立词语音识别”。IEICE 英语期刊 (EA)(出版中)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
森川政伸: "時間遅れニューラルネットワークを用いた視聴覚融合音声認識" 1997年電子情報通信学会 総合大会講演論文集. (発表予定). (1997)
Masanobu Morikawa:“使用延时神经网络的视听融合语音识别”1997 年 IEICE 大会记录(待提交)(1997 年)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
荻原 昭夫其他文献
Lytro 徹底解剖 光線情報を使って焦点自在に ハードもソフトも独自品の塊
使用光束信息进行彻底的 Lytro 分析。
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
村田 晴美;荻原 昭夫;荻原 昭夫;岩堀祐之;蚊野浩 - 通讯作者:
蚊野浩
3D Shape Analysis and Object Detection in Computer Vision
计算机视觉中的 3D 形状分析和目标检测
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
岸本 なつみ;荻原 昭夫;岩田 基;汐崎陽;Yuji Iwahori - 通讯作者:
Yuji Iwahori
乗法的パッチワーク法に基づくブラインド型音楽電子透かしにおける耐性実験
基于乘法拼凑法的盲音乐数字水印抗性实验
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
山本 優;村田 晴美;荻原 昭夫 - 通讯作者:
荻原 昭夫
単一楽器演奏曲を対象とするサンプリング音を用いた音楽電子透かし法
单乐器演奏音乐采样声音的音乐数字水印方法
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
村田 晴美;荻原 昭夫;岩田 基;汐崎 陽 - 通讯作者:
汐崎 陽
荻原 昭夫的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('荻原 昭夫', 18)}}的其他基金
マルチメディアコンピュータによるモバイル視聴覚融合音声認識システム
利用多媒体计算机的移动视听融合语音识别系统
- 批准号:
09780354 - 财政年份:1997
- 资助金额:
$ 0.64万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
動画像を用いた視聴覚融合音声認識システム
使用运动图像的视听融合语音识别系统
- 批准号:
07780343 - 财政年份:1995
- 资助金额:
$ 0.64万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
マルチメディアコンピュータによるモバイル視聴覚融合音声認識システム
利用多媒体计算机的移动视听融合语音识别系统
- 批准号:
09780354 - 财政年份:1997
- 资助金额:
$ 0.64万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
動画像を用いた視聴覚融合音声認識システム
使用运动图像的视听融合语音识别系统
- 批准号:
07780343 - 财政年份:1995
- 资助金额:
$ 0.64万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)