权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究

有效利用动态特征进行语音识别的隐马尔可夫模型研究

基本信息

批准号：
13780274
负责人：
山本一公
金额：
$ 1.47万
依托单位：
Shinshu University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Young Scientists (B)
财政年份：
2001
资助国家：
日本
起止时间：
2001 至 2002
项目状态：
已结题

项目摘要

本研究では、音声の動的特徴に対するHMMの性能を改善するため、複数の連続するスペクトルを1つの特徴ベクトルとして扱うセグメント単位入力HMMを改良して用いることと、音声の動的特徴をより正確にモデル化するために音響モデルとして従来の音素より長い音節あるいは音節連鎖を用いることの2つの方法を導入した。セグメント単位入力HMMの改良では、可変長セグメントの可能性を探ったが、現在までに確固たる成果を得ることはできなかった。音素よりも長い音響モデル単位を用いる方法については、最初に音素環境依存音節モデルについて検討を行った。まず左音素環境依存モデルとして、5母音、撥音、促音の7モデルを左音素とする音節モデルを作成したが、通常の音節モデルに対して有意な認識精度を向上を得られなかった。次に、右音素環境依存モデルとして、摩擦音、破擦音などの8グループを右音素とする音節モデルを作成したが、こちらも有意な認識精度の向上を得られなかった。続いて、音節連鎖モデルについての検討を行った。このモデルは現在一般的に広く用いられているトライフォンモデルよりも長い音素環境に依存したモデルとなる。音節連鎖モデルの作成においては、「音節モデルを2つ連鎖させることによる音節連鎖モデル」と「音素モデルを4つ連鎖させることによる音節モデル」の両者を検討した。音素モデルを4つ連鎖させる場合は、同じ音素の状態で分布を共有することによりモデル当たりの学習データの減少を防いだ。また、両手法で状態ごとに最小記述長(MDL)基準を導入しガウス分布数を最適化することで、学習データを効率よく利用した。これにより、文法を用いない連続音節認識実験(音節タイプライタ)において、従来使用していた音節モデル(音節正確率77.5%、音節正解精度64.9%)から、大きく認識精度を改善(音節正解率84.8%、音節正解精度77.8%)することができた。

This study focuses on the improvement of the performance of HMM based on the characteristics of sound movement and the improvement of complex numbers.るスペクトルを1つの特徴ベクトルとして扱うセグメント単bit entry force HMMをimprovedして Use the いることと, the special 徴をより of the sound movement is correct にモデル化するためにAudio モデルとして従来のphoneme より长いsyllable あるいは syllable chain を imported した using the いることの2つの method. It is possible to improve the HMM's functionality by integrating the SCM unit into the HMM, and to increase the length of the system.をDetection and detection, now the results are confirmed and confirmed, and the results are obtained. The phoneme よりも长い音モデル単bitを用いるmethodについては, the initial にphoneme environment-dependent syllable モデルついて検曒行った. The left phoneme environment of まず depends on the モデルとして, the 5th vowel, the plucked sound, and the accelerated sound の7モデルをleft phoneme とするsyllable モデルを成したが, usually のsyllable モデルに対してmeaningなcognition accuracyを上をget られなかった.に, right phoneme environment dependent モデルとして, fricative, fricative などの8グループをright phoneme とするsyllableモデルを成したが、こちらも心なcognition accuracyの上をgetられなかった.続いて, syllable chain モデルについての検question を行った.このモデルは Now the general に広く is used as いられているトライフしたモデルとなる. Syllable chain モデルの成においては, "Syllable chain モデルを2つchain させることによる syllable chainモデル」と「phonome モデルを4つchain させることによるsyllable モデル」の両者を検検した. Phone element モデルを4 つ chain させる occasion は, same じ phone element の status で distribution を share することによりモデルたりの learn データの reduce を defense いだ.また、両The state of the technique ごとにMinimum description length (MDL) standard をIntroduction しガウス distribution number をOptimization することで、Learning データをefficiency よくutilization した.これにより, grammar を Use いない连続syllables to recognize 実験(syllables タイプライタ)において、従来用していたsyllableモデル(syllable accuracy rate 77.5 %, syllable correct answer accuracy 64.9%) から, large きく recognition accuracy を improvement (syllable correct answer rate 84.8%, syllable correct answer accuracy 77.8%) することができた.