音声認識のための動的特徴を効果的に用いる隠れマルコフモデルに関する研究
有效利用动态特征进行语音识别的隐马尔可夫模型研究
基本信息
- 批准号:13780274
- 负责人:
- 金额:$ 1.47万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2001
- 资助国家:日本
- 起止时间:2001 至 2002
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では、音声の動的特徴に対するHMMの性能を改善するため、複数の連続するスペクトルを1つの特徴ベクトルとして扱うセグメント単位入力HMMを改良して用いることと、音声の動的特徴をより正確にモデル化するために音響モデルとして従来の音素より長い音節あるいは音節連鎖を用いることの2つの方法を導入した。セグメント単位入力HMMの改良では、可変長セグメントの可能性を探ったが、現在までに確固たる成果を得ることはできなかった。音素よりも長い音響モデル単位を用いる方法については、最初に音素環境依存音節モデルについて検討を行った。まず左音素環境依存モデルとして、5母音、撥音、促音の7モデルを左音素とする音節モデルを作成したが、通常の音節モデルに対して有意な認識精度を向上を得られなかった。次に、右音素環境依存モデルとして、摩擦音、破擦音などの8グループを右音素とする音節モデルを作成したが、こちらも有意な認識精度の向上を得られなかった。続いて、音節連鎖モデルについての検討を行った。このモデルは現在一般的に広く用いられているトライフォンモデルよりも長い音素環境に依存したモデルとなる。音節連鎖モデルの作成においては、「音節モデルを2つ連鎖させることによる音節連鎖モデル」と「音素モデルを4つ連鎖させることによる音節モデル」の両者を検討した。音素モデルを4つ連鎖させる場合は、同じ音素の状態で分布を共有することによりモデル当たりの学習データの減少を防いだ。また、両手法で状態ごとに最小記述長(MDL)基準を導入しガウス分布数を最適化することで、学習データを効率よく利用した。これにより、文法を用いない連続音節認識実験(音節タイプライタ)において、従来使用していた音節モデル(音節正確率77.5%、音節正解精度64.9%)から、大きく認識精度を改善(音節正解率84.8%、音節正解精度77.8%)することができた。
In this study, the special characteristics of audio and audio activities, the performance of HMM, the improvement of performance, the improvement of performance, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the improvement of the performance of audio devices, the The special device of the sound movement is correct to make sure that the phoneme is connected to the phoneme and the sound link is recorded using the audio recording method. It is necessary to improve the performance of the HMM system, to explore the possibility of improving the performance of the system, and to ensure that the results are improved. The phoneme is different from the phoneme environment-dependent phoneme environment. The phoneme environment is dependent on the phoneme environment. The left phoneme environment is dependent on noise, 5 vowels, vowels, sounds and promoters. 7 vowels, 5 vowels, 5 vowels, The second and right phonemes depend on the environment, rubbing, rub Please contact me, please contact me, please tell me what to do. At present, the general situation is that the phoneme environment is dependent on the environment. The sound link is made into the sound link, the phoneme link, the phoneme, the sound, the sound. The phonemes are linked to each other and distributed in the same way as the phonemes. The minimum record length (MDL) of basic data input data distribution is the most efficient one, and the utilization rate is very high. The correct accuracy of sound is 77.5%, the accuracy of correct solution is 64.9%, and the accuracy of correct solution is 84.8% and 77.8%, respectively.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 一公其他文献
超高齢者音声コーパスEARSの構築と音声認識へ利用の予備的検討
高龄语音语料库EARS的构建及其用于语音识别的初步研究
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
福田 芽衣子;入部 百合絵;西崎 博光;山本 一公;西村 良太;北岡 教英 - 通讯作者:
北岡 教英
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲 - 通讯作者:
中村 哲
山本 一公的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 一公', 18)}}的其他基金
Development of end-to-end speech recognition techniques for super-elderly that can deal with the cause of recognition errors
开发针对高龄老人的端到端语音识别技术,可处理识别错误的原因
- 批准号:
22K12084 - 财政年份:2022
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発
开发对语速波动具有鲁棒性的声学模型,用于口语语音识别
- 批准号:
16700171 - 财政年份:2004
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
"Mimicking Human Head Sound Responses": Towards an Anatomically Accurate Head Prototype for Bone Conduction Crosstalk Cancellation Analysis with Humans
“模仿人类头部声音反应”:构建解剖学上准确的头部原型,用于人类骨传导串扰消除分析
- 批准号:
24K20786 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
SBIR Phase II: A Manufacturing Monitoring System Using Sound Spectrograms and Artificial Intelligence
SBIR 第二阶段:使用声谱图和人工智能的制造监控系统
- 批准号:
2335395 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Cooperative Agreement
Capturing Oceanic Submesoscales, Stirring and Mixing with Sound and Simulations
通过声音和模拟捕捉海洋亚尺度、搅拌和混合
- 批准号:
EP/Y014693/1 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Research Grant
Capturing Oceanic Submesoscales, Stirring, and Mixing with Sound and Simulations
通过声音和模拟捕捉海洋亚尺度、搅拌和混合
- 批准号:
MR/X035611/1 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Fellowship
Sonorous Landscapes: Using sound and creative design methods to capture and communicate biodiversity in an urban forest
响亮的景观:使用声音和创造性的设计方法来捕捉和传达城市森林中的生物多样性
- 批准号:
AH/Z50547X/1 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Research Grant
Development of data-driven multiple sound spot synthesis technology based on deep generative neural network models
基于深度生成神经网络模型的数据驱动多声点合成技术开发
- 批准号:
23K11177 - 财政年份:2023
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Measurement of physiological load in online learning and verification of the effect of creating a background sound environment
在线学习生理负荷测量及背景音环境营造效果验证
- 批准号:
23K11370 - 财政年份:2023
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
The Role of Speech Perception and Production in Sound Change: A Case Study of Kagoshima Japanese
言语感知和产生在声音变化中的作用:鹿儿岛日本人的案例研究
- 批准号:
22KJ3070 - 财政年份:2023
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for JSPS Fellows
Connections between sound composition and visual art through the transformation of sound material into 3D objects and sonic spaces
通过将声音材料转换为 3D 对象和声音空间,声音创作与视觉艺术之间的联系
- 批准号:
2893455 - 财政年份:2023
- 资助金额:
$ 1.47万 - 项目类别:
Studentship