話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発

开发对语速波动具有鲁棒性的声学模型,用于口语语音识别

基本信息

  • 批准号:
    16700171
  • 负责人:
  • 金额:
    $ 2.18万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

本研究は、話し言葉音声における発話速度変動に頑健な音声認識を目指し、話速変化による認識率低下の抑制について、大きく分けて1.話速によるデータクラスタリングでの話速別モデルの構築。各話速別モデルを融合したモデル(HMM/BNモデル、マルチパスモデル)による各話速に対する評価。2.分析周期を変更したデータによる局所話速に対応したモデルの構築。分析周期を変更した複数モデルの認識結果統合による認識率改善手法。の2つの手法により検討を行なった。データクラスタリング話速別モデルによる検討では以下のような結果を得た。a.話速別モデルを用いることで話速に対応した認識精度が得られる。HMMパラメータの話速モデル化の調査では、話速別モデルのHMMパラメータのうち、特にガウス分布が話速変化をモデル化していることが分かった。b.種々の話速別モデルの融合モデルの認識精度は各話速別モデルを単独で用いる場合の精度を上回っており、融合モデルによる効果は観られたが、ほぼ全話速に対して単純なHMMより劣る結果であった。話速別にデータを分割してしまうことによる学習データ量減少の問題が大きいと考えられる。分析周期変更モデルによる検討では以下のよう塗結果を得た。a.分析周期を従来の半分としたモデルで、従来の分析周期のモデルと比べて、話速の速い場合において認識精度が改善できた。一方で、分析周期を短くすることにより、話速が遅い場合に挿入誤りを増加させる結果となり、話速の遅い場合においては精度が低下した。b.分析周期が異なるモデルの認識結果を単語信頼度を利用したROVER法により統合することで単独システムの結果に比べトータルでの認識精度を改善することができた。
这项研究旨在实现语音识别,这对于口语语音中的语音速度波动是可靠的,并抑制了由于语音速度变化而导致的识别率下降,可以将其广泛分为1。使用基于语音速度的数据群集构建语音速度速度模型。使用一个结合每个发作速度的模型(HMM/BN模型,多路径模型)对每个发作速度进行评估。 2。使用带有变化分析周期的数据支持本地语音速度的模型的构建。通过整合具有变化分析周期的多个模型的识别结果来提高识别率的方法。使用两种方法进行了研究:在检查数据聚类语音速度特异性模型时,获得了以下结果。一个。通过使用与语音速度不同的模型,可以获得与语音速度相对应的识别精度。在调查HMM参数的口语速度建模时,发现在说话速度模型中的HMM参数中,高斯分布在特别的模型中建模了语言速度变化。 b。当单独使用每个情节速度速度特异性模型时,各种语音速度特异性模型的融合模型的识别精度超出了精度,尽管观察到融合模型的效果,但对于几乎所有情节速度,结果均低于简单HMM的效果。人们认为,通过说话速度减少由于分裂数据而减少学习数据的问题是一个主要问题。在检查分析周期变化模型时,获得了以下涂料结果。一个。该模型使用上一个模型的分析周期的一半,并且当语音速度比上一个模型的模型快时,识别精度得到提高。另一方面,缩短分析周期会导致语音速度缓慢时插入误差的增加,并且在缓慢的语音速度下降低了精度。 b。通过使用单词可靠性,使用Rover方法将模型的识别结果整合到不同的分析周期,与单个系统的结果相比,总体识别精度得到了提高。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 一公其他文献

超高齢者音声コーパスEARSの構築と音声認識へ利用の予備的検討
高龄语音语料库EARS的构建及其用于语音识别的初步研究
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福田 芽衣子;入部 百合絵;西崎 博光;山本 一公;西村 良太;北岡 教英
  • 通讯作者:
    北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲
  • 通讯作者:
    中村 哲

山本 一公的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 一公', 18)}}的其他基金

Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
  • 批准号:
    22K12084
  • 财政年份:
    2022
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
  • 批准号:
    13780274
  • 财政年份:
    2001
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

音響信号の知識を暗黙的に反映した音符列を対象とした楽器分類モデルの構築
为隐式反映声学信号知识的音符序列构建乐器分类模型
  • 批准号:
    24K20798
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
海洋物理モデルと連携したWave GliderによるGNSS-音響観測の高度化
使用波浪滑翔机结合海洋物理模型推进 GNSS 声学观测
  • 批准号:
    24K00723
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
地域生活圏における総合騒音に与える航空機騒音の影響解明と評価指標モデルの構築
阐明飞机噪声对当地生活区整体噪声的影响并构建评价指标模型
  • 批准号:
    24K07794
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
筋電と筋音を用いた皮膚インピーダンス変化の影響を受けない動作意図分類モデルの開発
利用肌电和心肌音开发不受皮肤阻抗变化影响的运动意图分类模型
  • 批准号:
    24KJ2014
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
サウンド/メディアアートに供する音響ビッグデータアーカイブ「京都モデル」の構築
声音/媒体艺术“京都模式”声学大数据档案的构建
  • 批准号:
    23K17496
  • 财政年份:
    2023
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了