音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
基本信息
- 批准号:13780274
- 负责人:
- 金额:$ 1.47万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2001
- 资助国家:日本
- 起止时间:2001 至 2002
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では、音声の動的特徴に対するHMMの性能を改善するため、複数の連続するスペクトルを1つの特徴ベクトルとして扱うセグメント単位入力HMMを改良して用いることと、音声の動的特徴をより正確にモデル化するために音響モデルとして従来の音素より長い音節あるいは音節連鎖を用いることの2つの方法を導入した。セグメント単位入力HMMの改良では、可変長セグメントの可能性を探ったが、現在までに確固たる成果を得ることはできなかった。音素よりも長い音響モデル単位を用いる方法については、最初に音素環境依存音節モデルについて検討を行った。まず左音素環境依存モデルとして、5母音、撥音、促音の7モデルを左音素とする音節モデルを作成したが、通常の音節モデルに対して有意な認識精度を向上を得られなかった。次に、右音素環境依存モデルとして、摩擦音、破擦音などの8グループを右音素とする音節モデルを作成したが、こちらも有意な認識精度の向上を得られなかった。続いて、音節連鎖モデルについての検討を行った。このモデルは現在一般的に広く用いられているトライフォンモデルよりも長い音素環境に依存したモデルとなる。音節連鎖モデルの作成においては、「音節モデルを2つ連鎖させることによる音節連鎖モデル」と「音素モデルを4つ連鎖させることによる音節モデル」の両者を検討した。音素モデルを4つ連鎖させる場合は、同じ音素の状態で分布を共有することによりモデル当たりの学習データの減少を防いだ。また、両手法で状態ごとに最小記述長(MDL)基準を導入しガウス分布数を最適化することで、学習データを効率よく利用した。これにより、文法を用いない連続音節認識実験(音節タイプライタ)において、従来使用していた音節モデル(音節正確率77.5%、音節正解精度64.9%)から、大きく認識精度を改善(音節正解率84.8%、音節正解精度77.8%)することができた。
This study focuses on the improvement of the performance of HMM based on the characteristics of sound movement and the improvement of complex numbers.るスペクトルを1つの特徴ベクトルとして扱うセグメント単bit entry force HMMをimprovedして Use the いることと, the special 徴をより of the sound movement is correct にモデル化するためにAudio モデルとして従来のphoneme より长いsyllable あるいは syllable chain を imported した using the いることの2つの method. It is possible to improve the HMM's functionality by integrating the SCM unit into the HMM, and to increase the length of the system.をDetection and detection, now the results are confirmed and confirmed, and the results are obtained. The phoneme よりも长い音モデル単bitを用いるmethodについては, the initial にphoneme environment-dependent syllable モデルついて検曒行った. The left phoneme environment of まず depends on the モデルとして, the 5th vowel, the plucked sound, and the accelerated sound の7モデルをleft phoneme とするsyllable モデルを成したが, usually のsyllable モデルに対してmeaningなcognition accuracyを上をget られなかった.に, right phoneme environment dependent モデルとして, fricative, fricative などの8グループをright phoneme とするsyllableモデルを成したが、こちらも心なcognition accuracyの上をgetられなかった.続いて, syllable chain モデルについての検question を行った.このモデルは Now the general に広く is used as いられているトライフしたモデルとなる. Syllable chain モデルの成においては, "Syllable chain モデルを2つchain させることによる syllable chainモデル」と「phonome モデルを4つchain させることによるsyllable モデル」の両者を検検した. Phone element モデルを4 つ chain させる occasion は, same じ phone element の status で distribution を share す る こ と に よ り モ デ ル た り の learn デ ー タ の reduce を defense い だ.また、両The state of the technique ごとにMinimum description length (MDL) standard をIntroduction しガウス distribution number をOptimization することで、Learning データをefficiency よくutilization した.これにより, grammar を Use いない连続syllables to recognize 実験(syllables タイプライタ)において、従来用していたsyllableモデル(syllable accuracy rate 77.5 %, syllable correct answer accuracy 64.9%) から, large きく recognition accuracy を improvement (syllable correct answer rate 84.8%, syllable correct answer accuracy 77.8%) することができた.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 一公其他文献
超高齢者音声コーパスEARSの構築と音声認識へ利用の予備的検討
高龄语音语料库EARS的构建及其用于语音识别的初步研究
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
福田 芽衣子;入部 百合絵;西崎 博光;山本 一公;西村 良太;北岡 教英 - 通讯作者:
北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲 - 通讯作者:
中村 哲
山本 一公的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 一公', 18)}}的其他基金
Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
- 批准号:
22K12084 - 财政年份:2022
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発
开发对语速波动具有鲁棒性的声学模型,用于口语语音识别
- 批准号:
16700171 - 财政年份:2004
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発
开发对语速波动具有鲁棒性的声学模型,用于口语语音识别
- 批准号:
16700171 - 财政年份:2004
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
音響モデルによるネットワーク上での対話的演奏システムの研究と開発
利用声学模型的网络交互表演系统的研究与开发
- 批准号:
11780318 - 财政年份:1999
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)














{{item.name}}会员




