動画像を用いた視聴覚融合音声認識システム
使用运动图像的视听融合语音识别系统
基本信息
- 批准号:07780343
- 负责人:
- 金额:$ 0.58万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)
- 财政年份:1995
- 资助国家:日本
- 起止时间:1995 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本課題では,動画像を使用した視聴覚融合による人間と計算機との対話システムの実現への第一段階として,比較的発話時間の短い文章(人間から計算機への一方通行)を対象とした視聴覚融合による音声認識システムを実現する事を目的とし,動画像を用いた視聴覚融合音声認識システムに関する研究を行なった.本研究で構築を行なった「フルフレーム画像を対象とした視聴覚融合音声認識システム」では,視聴覚情報の入力手段として “音声同期型動画像入力機能を有しているマルチメディアパソコン" を用いて,フルフレーム(30fps,1秒間当たり30フレーム)の動画像をディジタル形式のデータとして撮影する.その後,この動画像を対象として,HMM(隠れマルコフモデル)に多次元ベクトル量子化を組み合わせた認識モデル上で,特徴抽出処理,視聴覚融合処理,音声認識処理の各処理を行なう.なお,本システムでは,「視覚情報用(動画像用)HMMにより算出された対数尤度」と「聴覚情報用(音声用)HMMにより算出された対数尤度」とを1次結合するというシンプルかつ効果的な手法により視聴覚融合処理を実現している.本システム用いて音声認識実験を行なった結果,・母音発声時の音声認識精度の向上・唇の動きが速いために動画像による認識が困難であった子音に対する効果を確認した.さらに,ニューラルネットワークを利用した視聴覚融合処理方式についても検討を進めており,今後は音声認識システムへの実装を試みる予定である.なお,上述のシステムの構築,および,実験評価の実施に際して,本科学研究費補助金研究により購入した設備備品を使用した.
In this topic, the animation image is used, and the first stage of the animation is the first stage of the human world and the computer. Comparative articles about time and space (human world computer and one side pass) を対Elephant and visual fusion による sound recognition システムをThe purpose of the animation is to recognize the visual and sound fusion of the animation and the research on the subject. This research is constructedを行なった「フルフレームportrait を対Elephant とした视聴覚fused sound recognition システム」では, 视聴覚 intelligence の成法として "The sound synchronized animation image input function is the same as the original one" を用いて,フルフレーム(30fps, 1 second as たり30フレーム)のanimation imageをディジタル formのデータとして影视する.そHMM (隠れマルコフモデル) )Multidimensional ベクトルquantized をgroup み合わせたKnowing モデル上で, special Extraction processing, visual and visual fusion processing, and sound recognition processing. Each processing is performed by HMM.りCalculate the された対numerical degree" と "聴覚information (for voice) HMM によりcalculate the された対numerical degree" とを1st combination するというシンプルかつ effect The technique of fruit is the fusion processing of visual and 覚 を実appears している. The original システム uses the いて sound to recognize the いて sound and the なった result is the result, ・The sound recognition of the vowel 発 sounds Accuracy is improved, lips are moving, speed is fast, anime images are difficult to recognize, and animations are difficult to recognizeあった子音に対するeffectをconfirmした.さらに,ニューラルネットワークをUsing the した视聴覚 fusion processing method についても検question を进めており, from now on I will know システムへの実装をtrialみる恧ある.なお,The construction of the above-mentioned のシステムの,および,実験综合価の実事に国际して, the research on this scientific research fee subsidy, the したequipment spare parts purchased, and the use of した.
项目成果
期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
太田正哉: "カオスニューラルネットのダイナミクスと最小値探索" 電気学会 情報処理研究会資料(IP-95-40). 89-98 (1995)
Masaya Ota:“混沌神经网络的动力学和最小值搜索”IEEJ 信息处理研究组材料 (IP-95-40) (1995)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
井川 悟: "フルフレーム・カラー画像を用いた視聴覚融合音声認識" 1996年 電子情報通信学会総合大会講演論文集. (発表予定). (1996)
Satoru Ikawa:“使用全帧彩色图像的视听集成语音识别”1996 年 IEICE 大会记录(待提交)(1996 年)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Akira Shintani: "Speech Recognition Method Using Fusion of Auditory and Visual Information" Proceedings of JTC-CSCC'95. 61-64 (1995)
Akira Shintani:“利用听觉和视觉信息融合的语音识别方法”JTC-CSCC95 论文集。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
荻原昭夫: "視聴覚融合を用いたHMM音声認識" 電気学会論文誌C. 115. 1317-1324 (1995)
Akio Ogiwara:“使用视听融合的 HMM 语音识别”Transactions of the Institute of Electrical Engineers of Japan C. 115. 1317-1324 (1995)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
宅和 富美男: "カラー情報を用いた顔全体画像からの唇輪郭の抽出-視聴覚融合による音声認識-" 1996年電子情報通信学会総合大会講演論文集. (発表予定). (1996)
Tomio Takuwa:“使用颜色信息从全脸图像中提取嘴唇轮廓 - 通过视听融合进行语音识别”1996 年 IEICE 大会记录(待提交)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
荻原 昭夫其他文献
Lytro 徹底解剖 光線情報を使って焦点自在に ハードもソフトも独自品の塊
使用光束信息进行彻底的 Lytro 分析。
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
村田 晴美;荻原 昭夫;荻原 昭夫;岩堀祐之;蚊野浩 - 通讯作者:
蚊野浩
3D Shape Analysis and Object Detection in Computer Vision
计算机视觉中的 3D 形状分析和目标检测
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
岸本 なつみ;荻原 昭夫;岩田 基;汐崎陽;Yuji Iwahori - 通讯作者:
Yuji Iwahori
乗法的パッチワーク法に基づくブラインド型音楽電子透かしにおける耐性実験
基于乘法拼凑法的盲音乐数字水印抗性实验
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
山本 優;村田 晴美;荻原 昭夫 - 通讯作者:
荻原 昭夫
単一楽器演奏曲を対象とするサンプリング音を用いた音楽電子透かし法
单乐器演奏音乐采样声音的音乐数字水印方法
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
村田 晴美;荻原 昭夫;岩田 基;汐崎 陽 - 通讯作者:
汐崎 陽
荻原 昭夫的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('荻原 昭夫', 18)}}的其他基金
マルチメディアコンピュータによるモバイル視聴覚融合音声認識システム
利用多媒体计算机的移动视听融合语音识别系统
- 批准号:
09780354 - 财政年份:1997
- 资助金额:
$ 0.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
マルチメディアコンピュータによる視聴覚融合音声認識システム
利用多媒体计算机的视听综合语音识别系统
- 批准号:
08780376 - 财政年份:1996
- 资助金额:
$ 0.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
マルチメディアコンピュータによるモバイル視聴覚融合音声認識システム
利用多媒体计算机的移动视听融合语音识别系统
- 批准号:
09780354 - 财政年份:1997
- 资助金额:
$ 0.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
マルチメディアコンピュータによる視聴覚融合音声認識システム
利用多媒体计算机的视听综合语音识别系统
- 批准号:
08780376 - 财政年份:1996
- 资助金额:
$ 0.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)