音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究

有效利用动态特征进行语音识别的隐马尔可夫模型研究

基本信息

  • 批准号:
    13780274
  • 负责人:
  • 金额:
    $ 1.47万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2001
  • 资助国家:
    日本
  • 起止时间:
    2001 至 2002
  • 项目状态:
    已结题

项目摘要

本研究では、音声の動的特徴に対するHMMの性能を改善するため、複数の連続するスペクトルを1つの特徴ベクトルとして扱うセグメント単位入力HMMを改良して用いることと、音声の動的特徴をより正確にモデル化するために音響モデルとして従来の音素より長い音節あるいは音節連鎖を用いることの2つの方法を導入した。セグメント単位入力HMMの改良では、可変長セグメントの可能性を探ったが、現在までに確固たる成果を得ることはできなかった。音素よりも長い音響モデル単位を用いる方法については、最初に音素環境依存音節モデルについて検討を行った。まず左音素環境依存モデルとして、5母音、撥音、促音の7モデルを左音素とする音節モデルを作成したが、通常の音節モデルに対して有意な認識精度を向上を得られなかった。次に、右音素環境依存モデルとして、摩擦音、破擦音などの8グループを右音素とする音節モデルを作成したが、こちらも有意な認識精度の向上を得られなかった。続いて、音節連鎖モデルについての検討を行った。このモデルは現在一般的に広く用いられているトライフォンモデルよりも長い音素環境に依存したモデルとなる。音節連鎖モデルの作成においては、「音節モデルを2つ連鎖させることによる音節連鎖モデル」と「音素モデルを4つ連鎖させることによる音節モデル」の両者を検討した。音素モデルを4つ連鎖させる場合は、同じ音素の状態で分布を共有することによりモデル当たりの学習データの減少を防いだ。また、両手法で状態ごとに最小記述長(MDL)基準を導入しガウス分布数を最適化することで、学習データを効率よく利用した。これにより、文法を用いない連続音節認識実験(音節タイプライタ)において、従来使用していた音節モデル(音節正確率77.5%、音節正解精度64.9%)から、大きく認識精度を改善(音節正解率84.8%、音節正解精度77.8%)することができた。
This study で は, voice の moving 徴 に す seaborne る HMM の improvement を す る た め, plural の 続 す る ス ペ ク ト ル を 1 つ の, 徴 ベ ク ト ル と し て Cha う セ グ メ ン ト 単 a HMM into force を improved し て in い る こ と と, voice の moving 徴 を よ り right に モ デ ル change す る た め に sound モ デ ル と し て 従 to の phonemes よ り long The monosyllables ある, を, and the chain of を are introduced by using the を る, る, と, と, 2, and <s:1> methods を to introduce た and た. セ グ メ ン ト 単 a HMM into force の improved で は, long can - セ グ メ ン ト の possibility を agent っ た が, now ま で に really solid た を る achievements have る こ と は で き な か っ た. Phoneme よ り も long い sound モ デ ル 単 a を with い る method に つ い て は, initially に phonemes environment dependent syllable モ デ ル に つ い て 検 line for を っ た. ま ず left phonemes environment dependent モ デ ル と し て, 5 vowels, dial tone, and promote the sound の 7 モ デ ル を left phonemes と す る syllable モ デ ル を made し た が, usually の syllable モ デ ル に し seaborne て intentionally な meet precision を upward を ら れ な か っ た. Time に phonemes, right environment dependent モ デ ル と し て, fricatives, affricates な ど の 8 グ ル ー プ を right phonemes と す る syllable モ デ ル を made し た が, こ ち ら も intentionally な meet precision の を upward ら れ な か っ た. Youdaoplaceholder0 て て, syllable linkage モデ に に に て て 検 検 to を line った. こ の モ デ ル は now generally に hiroo く with い ら れ て い る ト ラ イ フ ォ ン モ デ ル よ り も long い に dependent phoneme environment し た モ デ ル と な る. Syllable chain モ デ ル の made に お い て は, "syllable モ デ ル を 2 つ chain さ せ る こ と に よ る syllable chain モ デ ル" と "phoneme モ デ ル を 4 つ chain さ せ る こ と に よ る syllable モ デ ル" の struck the を beg し 検 た. Phoneme モ デ ル を 4 つ chain さ せ は る occasions, with じ で distribution of phonemes の を mutual す る こ と に よ り モ デ ル when た り の learning デ ー タ の reduce を い prevention だ. ま た, struck で state ご と に account minimum length (MDL) benchmark を import し ガ ウ ス distribution number を optimization す る こ と で, learning デ ー タ を sharper rate よ く using し た. こ れ に よ り, grammar を い な い even know be 続 syllable 験 (syllables タ イ プ ラ イ タ) に お い て, 従 using し て い た syllable モ デ ル (77.5% accuracy, syllables positive solution accuracy 64.9%) か ら, big き く meet precision を positive (positive solution rate 84.8%, syllables solution accuracy 77.8%) す る こ と が で き た.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 一公其他文献

超高齢者音声コーパスEARSの構築と音声認識へ利用の予備的検討
高龄语音语料库EARS的构建及其用于语音识别的初步研究
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福田 芽衣子;入部 百合絵;西崎 博光;山本 一公;西村 良太;北岡 教英
  • 通讯作者:
    北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲
  • 通讯作者:
    中村 哲

山本 一公的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 一公', 18)}}的其他基金

Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
  • 批准号:
    22K12084
  • 财政年份:
    2022
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発
开发对语速波动具有鲁棒性的声学模型,用于口语语音识别
  • 批准号:
    16700171
  • 财政年份:
    2004
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

"Mimicking Human Head Sound Responses": Towards an Anatomically Accurate Head Prototype for Bone Conduction Crosstalk Cancellation Analysis with Humans
“模仿人类头部声音反应”:构建解剖学上准确的头部原型,用于人类骨传导串扰消除分析
  • 批准号:
    24K20786
  • 财政年份:
    2024
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Capturing Oceanic Submesoscales, Stirring and Mixing with Sound and Simulations
通过声音和模拟捕捉海洋亚尺度、搅拌和混合
  • 批准号:
    EP/Y014693/1
  • 财政年份:
    2024
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Research Grant
SBIR Phase II: A Manufacturing Monitoring System Using Sound Spectrograms and Artificial Intelligence
SBIR 第二阶段:使用声谱图和人工智能的制造监控系统
  • 批准号:
    2335395
  • 财政年份:
    2024
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Cooperative Agreement
Capturing Oceanic Submesoscales, Stirring, and Mixing with Sound and Simulations
通过声音和模拟捕捉海洋亚尺度、搅拌和混合
  • 批准号:
    MR/X035611/1
  • 财政年份:
    2024
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Fellowship
Sonorous Landscapes: Using sound and creative design methods to capture and communicate biodiversity in an urban forest
响亮的景观:使用声音和创造性的设计方法来捕捉和传达城市森林中的生物多样性
  • 批准号:
    AH/Z50547X/1
  • 财政年份:
    2024
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Research Grant
DRIVEN BY SOUND
由声音驱动
  • 批准号:
    10059986
  • 财政年份:
    2023
  • 资助金额:
    $ 1.47万
  • 项目类别:
    BEIS-Funded Programmes
Development of data-driven multiple sound spot synthesis technology based on deep generative neural network models
基于深度生成神经网络模型的数据驱动多声点合成技术开发
  • 批准号:
    23K11177
  • 财政年份:
    2023
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Measurement of physiological load in online learning and verification of the effect of creating a background sound environment
在线学习生理负荷测量及背景音环境营造效果验证
  • 批准号:
    23K11370
  • 财政年份:
    2023
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
The Role of Speech Perception and Production in Sound Change: A Case Study of Kagoshima Japanese
言语感知和产生在声音变化中的作用:鹿儿岛日本人的案例研究
  • 批准号:
    22KJ3070
  • 财政年份:
    2023
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Connections between sound composition and visual art through the transformation of sound material into 3D objects and sonic spaces
通过将声音材料转换为 3D 对象和声音空间,声音创作与视觉艺术之间的联系
  • 批准号:
    2893455
  • 财政年份:
    2023
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Studentship
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了