音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
基本信息
- 批准号:13780274
- 负责人:
- 金额:$ 1.47万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2001
- 资助国家:日本
- 起止时间:2001 至 2002
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では、音声の動的特徴に対するHMMの性能を改善するため、複数の連続するスペクトルを1つの特徴ベクトルとして扱うセグメント単位入力HMMを改良して用いることと、音声の動的特徴をより正確にモデル化するために音響モデルとして従来の音素より長い音節あるいは音節連鎖を用いることの2つの方法を導入した。セグメント単位入力HMMの改良では、可変長セグメントの可能性を探ったが、現在までに確固たる成果を得ることはできなかった。音素よりも長い音響モデル単位を用いる方法については、最初に音素環境依存音節モデルについて検討を行った。まず左音素環境依存モデルとして、5母音、撥音、促音の7モデルを左音素とする音節モデルを作成したが、通常の音節モデルに対して有意な認識精度を向上を得られなかった。次に、右音素環境依存モデルとして、摩擦音、破擦音などの8グループを右音素とする音節モデルを作成したが、こちらも有意な認識精度の向上を得られなかった。続いて、音節連鎖モデルについての検討を行った。このモデルは現在一般的に広く用いられているトライフォンモデルよりも長い音素環境に依存したモデルとなる。音節連鎖モデルの作成においては、「音節モデルを2つ連鎖させることによる音節連鎖モデル」と「音素モデルを4つ連鎖させることによる音節モデル」の両者を検討した。音素モデルを4つ連鎖させる場合は、同じ音素の状態で分布を共有することによりモデル当たりの学習データの減少を防いだ。また、両手法で状態ごとに最小記述長(MDL)基準を導入しガウス分布数を最適化することで、学習データを効率よく利用した。これにより、文法を用いない連続音節認識実験(音節タイプライタ)において、従来使用していた音節モデル(音節正確率77.5%、音節正解精度64.9%)から、大きく認識精度を改善(音節正解率84.8%、音節正解精度77.8%)することができた。
在这项研究中,我们介绍了两种方法:为了提高HMM的语音动态特征的性能,我们使用了改进的逐段段输入输入HMM,将多个连续的光谱视为单个特征向量,并更准确地对语音的动态特征进行模拟,并使用更长的音节或音节链比传统的音符链作为声音模型。逐个细分段输入HMM的改进探索了可变长度段的可能性,但迄今为止,它们无法实现稳固的结果。对于使用比音素更长的声学模型单元的方法,我们首先检查了音素环境依赖性音节模型。首先,我们创建了一个具有七个左音素,5个元音,自我和音节的音节模型作为左音素作为依赖左音素的模型,但是与正常音节模型相比,我们无法在识别准确性方面取得显着提高。接下来,我们创建了一个音节模型,其中包括八组正确的音素,例如摩擦声音和摩擦声音,例如右音素,但我们也没有在识别准确性方面取得重大提高。接下来,我们研究了音节链模型。该模型比常用的Triphone模型更长。在创建音节链模型时,我们既检查了“通过链接两个音节模型”和“通过链接四个音素模型”的“音节链模型”和“音节模型”。当将四个音素模型链接在一起时,分布将以相同的音素状态共享,以防止每个模型的训练数据减少。此外,这两种方法均为每个状态介绍了最小描述长度(MDL)标准,并优化了高斯分布的数量,从而有效地使用了学习数据。这使我们能够在连续的音节识别实验(音节式打字机)中显着提高识别精度(84.8%的音节正确答案率,为77.8%的音节正确的答案精度为77.8%),该实验(音节式打字机)不使用语法(音节可使用的77.5%,77.5%,77.5%的正确答案率为77.5%,音节正确答案的准确度为64.9%)。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 一公其他文献
超高齢者音声コーパスEARSの構築と音声認識へ利用の予備的検討
高龄语音语料库EARS的构建及其用于语音识别的初步研究
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
福田 芽衣子;入部 百合絵;西崎 博光;山本 一公;西村 良太;北岡 教英 - 通讯作者:
北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲 - 通讯作者:
中村 哲
山本 一公的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 一公', 18)}}的其他基金
Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
- 批准号:
22K12084 - 财政年份:2022
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発
开发对语速波动具有鲁棒性的声学模型,用于口语语音识别
- 批准号:
16700171 - 财政年份:2004
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
音響信号の知識を暗黙的に反映した音符列を対象とした楽器分類モデルの構築
为隐式反映声学信号知识的音符序列构建乐器分类模型
- 批准号:
24K20798 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
海洋物理モデルと連携したWave GliderによるGNSS-音響観測の高度化
使用波浪滑翔机结合海洋物理模型推进 GNSS 声学观测
- 批准号:
24K00723 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
地域生活圏における総合騒音に与える航空機騒音の影響解明と評価指標モデルの構築
阐明飞机噪声对当地生活区整体噪声的影响并构建评价指标模型
- 批准号:
24K07794 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
筋電と筋音を用いた皮膚インピーダンス変化の影響を受けない動作意図分類モデルの開発
利用肌电和心肌音开发不受皮肤阻抗变化影响的运动意图分类模型
- 批准号:
24KJ2014 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for JSPS Fellows
サウンド/メディアアートに供する音響ビッグデータアーカイブ「京都モデル」の構築
声音/媒体艺术“京都模式”声学大数据档案的构建
- 批准号:
23K17496 - 财政年份:2023
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)