話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発

开发对语速波动具有鲁棒性的声学模型,用于口语语音识别

基本信息

  • 批准号:
    16700171
  • 负责人:
  • 金额:
    $ 2.18万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

本研究は、話し言葉音声における発話速度変動に頑健な音声認識を目指し、話速変化による認識率低下の抑制について、大きく分けて1.話速によるデータクラスタリングでの話速別モデルの構築。各話速別モデルを融合したモデル(HMM/BNモデル、マルチパスモデル)による各話速に対する評価。2.分析周期を変更したデータによる局所話速に対応したモデルの構築。分析周期を変更した複数モデルの認識結果統合による認識率改善手法。の2つの手法により検討を行なった。データクラスタリング話速別モデルによる検討では以下のような結果を得た。a.話速別モデルを用いることで話速に対応した認識精度が得られる。HMMパラメータの話速モデル化の調査では、話速別モデルのHMMパラメータのうち、特にガウス分布が話速変化をモデル化していることが分かった。b.種々の話速別モデルの融合モデルの認識精度は各話速別モデルを単独で用いる場合の精度を上回っており、融合モデルによる効果は観られたが、ほぼ全話速に対して単純なHMMより劣る結果であった。話速別にデータを分割してしまうことによる学習データ量減少の問題が大きいと考えられる。分析周期変更モデルによる検討では以下のよう塗結果を得た。a.分析周期を従来の半分としたモデルで、従来の分析周期のモデルと比べて、話速の速い場合において認識精度が改善できた。一方で、分析周期を短くすることにより、話速が遅い場合に挿入誤りを増加させる結果となり、話速の遅い場合においては精度が低下した。b.分析周期が異なるモデルの認識結果を単語信頼度を利用したROVER法により統合することで単独システムの結果に比べトータルでの認識精度を改善することができた。
This study は Ye Yin し words, words sound に お け る 発 words speed - move に robust な sounds know を refers し, words speed variations に よ る know low の inhibit に つ い て, big き く points け て 1. The speaking speed is によるデ によるデ タ ラスタリ ラスタリ ラスタリ グで グで. The speaking speed is モデ グで. The words don't speed モ デ ル を fusion し た モ デ ル (HMM/BN モ デ ル, マ ル チ パ ス モ デ ル) に よ る each words speed に す seaborne 価 る assessment. 2. Analyze the period of を change, たデ たデ タによる タによる, the speed of the office, に, 応, たモデ, and <s:1> construction. The analysis period を change, た た complex number, モデ による <s:1> recognition result integration, による recognition rate improvement method. Youdaoplaceholder0 2 によ the method of によ 検 to ask for を line なった. デ ー タ ク ラ ス タ リ ン グ words speed don't モ デ ル に よ る beg で 検 は following の よ う た を な results. A. don't words speed モ デ ル を with い る こ と で words speed に 応 seaborne し た meet precision が ら れ る. HMM パ ラ メ ー タ の words speed モ デ ル change の survey で は, words don't モ デ ル の HMM パ ラ メ ー タ の う ち, に ガ ウ ス distribution が words speed variations change を モ デ ル change し て い る こ と が points か っ た. B. a 々 の words speed don't モ デ ル の fusion モ デ ル の meet precision は each words speed don't モ デ ル を 単 で alone with い の precision を る occasions last っ て お り, fusion モ デ ル に よ る unseen fruit は 観 ら れ た が, ほ ぼ all words speed に し seaborne て 単 pure な HMM よ り substandard る results で あ っ た. Words don't speed に デ ー タ を segmentation し て し ま う こ と に よ る learning デ ー タ less の problem が big き い と exam え ら れ る. The analysis of the period change モデ モデ による検 による検 seek で the following <s:1> よう application results を obtain た. A. analysis cycle を 従 to の half と し た モ デ ル で, 従 の analysis cycle の モ デ ル と than べ て, words speed の speed い に お い て meet precision が で き た. Party で, short cycle を く す る こ と に よ り, words speed が 遅 い occasions に scions into mistakenly り を raised plus さ せ る results と な り, words speed の 遅 い occasions に お い て は precision low が し た. B. analysis cycle が different な る モ デ ル の know results を 単 letter 頼 degrees を use し た ROVER method に よ り integration す る こ と で 単 alone シ ス テ ム に の results than べ ト ー タ ル で の meet precision を す る こ と が で き た.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 一公其他文献

超高齢者音声コーパスEARSの構築と音声認識へ利用の予備的検討
高龄语音语料库EARS的构建及其用于语音识别的初步研究
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福田 芽衣子;入部 百合絵;西崎 博光;山本 一公;西村 良太;北岡 教英
  • 通讯作者:
    北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲
  • 通讯作者:
    中村 哲

山本 一公的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 一公', 18)}}的其他基金

Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
  • 批准号:
    22K12084
  • 财政年份:
    2022
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
  • 批准号:
    13780274
  • 财政年份:
    2001
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

音響モデルによるネットワーク上での対話的演奏システムの研究と開発
利用声学模型的网络交互表演系统的研究与开发
  • 批准号:
    11780318
  • 财政年份:
    1999
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了