画像処理併用による雑音環境音声認識の改善に関する研究
利用图像处理改进噪声环境中语音识别的研究
基本信息
- 批准号:15760270
- 负责人:
- 金额:$ 2.3万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2003
- 资助国家:日本
- 起止时间:2003 至 2005
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究は、音声信号処理と画像処理を併用することにより雑音環境下における音声認識の認識率の向上を目指し研究を行っている。ケプストラム分析法を基とした音声認識を基に簡易的なスペクトラムサブトラクションのような手法により、雑音のためスペクトラムの低レベル部分の変形により認識率が低下してしまうことを改善するため閾値関数を用いた規則的な谷付け法により認識率の改善を図った。さらにその閾値関数を複数用いることや周波数領域で分けることなどにより更なる認識率の改善を図った。しかし、この手法はフレームごとに規則変形を行うためフレーム(時間)方向の連続性は無視しているため、谷の付いたフレームと谷の付かなかったフレ-ムが交互に並ぶ部分があるなどフレーム(時間)方向に変化の不連続な部分が見られた。このような点を改善するため、画像処理などに用いられるウェーブレット変換を用いることにより周波数およびフレームの両領域同時に平滑化などを行うことにより認識率の改善を行った。本年度は、さらに画像処理に用いられる一般的な画像フィルタなどを用いることやウェーブレット変換を用いる方法に重みをつけるなどにより認識率の改善の検討をおこなった。また、口の動きなどの口唇画像データを用いることにより更なる認識率の向上をねらい研究をおこなってきたが、撮影環境や個人差などによる影響が大きい点や通常会話中の口の変化があまり大きくないことなど精度の高い口の動きの抽出が非常に難しい点などから口の動きの安定した特徴抽出が非常に難しく口唇画像による十分有効な認識法の確立までいたらなかった。重要な研究と考えられるため今後も更なる検討を続けて行きたいと考えている。
This study は portrait, voice signal 処 と 処 Richard を and す る こ と に よ り 雑 sound environment に お け る sounds の の know rate upward を refers し を line っ て い る. ケ プ ス ト ラ ム analysis を base と し た sounds know を base に simple な ス ペ ク ト ラ ム サ ブ ト ラ ク シ ョ ン の よ う な gimmick に よ り, 雑 の た め ス ペ ク ト ラ ム の low レ ベ ル part の - shaped に よ り know rate low が し て し ま う こ と を improve す る た め threshold number of numerical masato を with い た rules な valley pay け method に よ り know rate の improve を 図 Youdaoplaceholder0. さ ら に そ の threshold number of numerical masato を plural with い る こ と で や cycle for field points け る こ と な ど に よ り more な る know rate の improve を 図 っ た. し か し, こ の gimmick は フ レ ー ム ご と に rules - line shape を う た め フ レ ー ム (time) direction の even 続 は ignore し て い る た め, valley の い た フ レ ー ム と valley の pay か な か っ た フ レ - ム に が interaction and ぶ part が あ る な ど フ レ ー ム に (time) direction - the の is not even 続 な section が sees ら れ た. こ の よ う な point を improve す る た め, portrait 処 な ど に with い ら れ る ウ ェ ー ブ レ ッ ト variations in を with い る こ と に よ り cycle for お よ び フ レ ー ム の struck areas at the same time に smoothing な ど を line う こ と に よ り know rate の improve line を っ た. This year は, さ ら に portrait 処 Richard に with い ら れ る general な portrait フ ィ ル タ な ど を with い る こ と や ウ ェ ー ブ レ ッ ト variations in を with い る method に heavy み を つ け る な ど に よ り know rate の improve の beg を 検 お こ な っ た. ま た, mouth の き な ど の oral portraits デ ー タ を with い る こ と に よ り more な る の know rate upward を ね ら い research を お こ な っ て き た が, pinch of shadow environment や individual difference な ど に よ る が affected き い point や session usually の mouth の variations change が あ ま り big き く な い こ と な ど high precision の い mouth の dynamic き の spare が very に difficult し い point な ど か ら mouth Dynamic き の の settle し た 徴 drew が very に difficult し く oral portraits に よ could promote behavior の な know method established ま る has で い た ら な か っ た. Important な research と え ら れ る た め も henceforth more な る beg を 検 続 け て line き た い と exam え て い る.
项目成果
期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Improvement of the Noisy Speech Recognition using Spectral Envelope Modification and Smoothing Filter
使用谱包络修正和平滑滤波器改进噪声语音识别
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:Yoichi Midorikawa
- 通讯作者:Yoichi Midorikawa
雑音環境下信号認識におけるウェーブレットによる平滑化・強調併用法による改善
使用基于小波的平滑和增强组合方法改进噪声环境中的信号识别
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:Yoichi Midorikawa;緑川洋一;Yoichi Midorikawa;緑川洋一;緑川洋一
- 通讯作者:緑川洋一
ケフレンシ非線形重みの耐雑音音声認識への応用
频率非线性权重在耐噪语音识别中的应用
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:Yoichi Midorikawa;緑川洋一;Yoichi Midorikawa;緑川洋一;緑川洋一;緑川洋一
- 通讯作者:緑川洋一
ウェーブレット平滑化・強調法による耐雑音音声認識の検討
小波平滑增强方法的抗噪声语音识别研究
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:Yoichi Midorikawa;緑川洋一;Yoichi Midorikawa;緑川洋一
- 通讯作者:緑川洋一
耐雑音音声認識のためのスペクトル変形とウェーブレット平滑化法の検討
耐噪语音识别的谱变换和小波平滑方法研究
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:Yoichi Midorikawa;緑川洋一;Yoichi Midorikawa;緑川洋一;緑川洋一;緑川洋一;緑川洋一
- 通讯作者:緑川洋一
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
緑川 洋一其他文献
緑川 洋一的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
脳神経疾患による構音障害を克服するための,音声認識および音声合成AIシステムの開発
开发语音识别与语音合成AI系统,克服脑神经疾病引起的构音障碍
- 批准号:
24K10630 - 财政年份:2024
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
画像認識と音声認識の複合AIによる災害状況認識ユニットの基礎研究
图像识别与语音识别相结合的AI灾情识别单元基础研究
- 批准号:
23K23017 - 财政年份:2024
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
画像・音声認識と料理データベースによる食事記録システム開発、及び疫学研究での応用
基于图像/语音识别和烹饪数据库的用餐记录系统的开发及其在流行病学研究中的应用
- 批准号:
23K20170 - 财政年份:2024
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
非母語話者のスマートフォン音声認識機能での誤認識傾向を考慮した発音学習システム
使用智能手机语音识别功能,考虑到非母语人士的误识别倾向的发音学习系统。
- 批准号:
24K06231 - 财政年份:2024
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
自動音声認識を利用したbilingual speech-to-textシステム構築と授業分析への応用
自动语音识别双语语音转文本系统的构建及其在课程分析中的应用
- 批准号:
24K04125 - 财政年份:2024
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
実用性の高いEnd-to-End音声認識に向けた研究
高实用性端到端语音识别研究
- 批准号:
22KJ2898 - 财政年份:2023
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for JSPS Fellows
音声認識のデータ拡張のための音声合成との密統合
与语音合成紧密集成,用于语音识别的数据增强
- 批准号:
23K16944 - 财政年份:2023
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
画像認識と音声認識の複合AIによる災害状況認識ユニットの基礎研究
图像识别与语音识别相结合的AI灾情识别单元基础研究
- 批准号:
22H01749 - 财政年份:2022
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
日常生活音を活用した構音障害者のための音響監視および音声認識システムの研究
使用日常声音对构音障碍患者进行声学监测和语音识别系统的研究
- 批准号:
22K12168 - 财政年份:2022
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
自動音声認識と機械学習による新たな医学教育システムの創出
使用自动语音识别和机器学习创建新的医学教育系统
- 批准号:
22K10459 - 财政年份:2022
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (C)