Real time speech / speaker recognition by using digital cochlea system
使用数字耳蜗系统进行实时语音/说话人识别
基本信息
- 批准号:12650397
- 负责人:
- 金额:$ 2.05万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2000
- 资助国家:日本
- 起止时间:2000 至 2001
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
In this research, we discuss the speech/speaker recognition system using Digital Cochlear Model as follows.1. Optimization of Digital Cochlear ModelWe optimize the Digital Cochlear Model for installation on DSP. It has 16 section consists of traveling-wave filter, velocity transformation filter and second filter.2. Investigation of speech/speaker recognition algorithm for Digital CochleaWe propose the Dynamic Time Warping algorithm and the enhancement of difference between adjacent outputs of Digital Cochlea. They can improve the recognition performance and the robustness against noise.3. Realization of Digital Cochlea filterWe design the digital cochlea on 32 DSP boards. TMS320C3xDSK. Real-time speech processing can be done by this Digital Cochlear filter.4. Application to real-time speech recognitionWe examine the real-time speech recognition using this system under various noisy environment. From experimental results, we achieve 99.2% recognition rate under silent environment. 90.6% under 10dB SXR and 41.0% under 5dB SXR.5. Application to real-time speaker recognitionWe examine the real-time speaker recognition for 18 persons using this system. We achieve 92.2% speaker recognition rate. In addition, we achieve 98.9% by adjusting the gain of each section of Digital Cochlear filter.
在本研究中,我们讨论了使用数字耳蜗模型的语音/说话人识别系统如下: 1.数字耳蜗模型的优化我们优化了数字耳蜗模型以安装在 DSP 上。它有16段,由行波滤波器、速度变换滤波器和二次滤波器组成。 2.数字耳蜗语音/说话人识别算法的研究我们提出了动态时间规整算法和数字耳蜗相邻输出之间差异的增强。它们可以提高识别性能和抗噪声的鲁棒性。 3.数字耳蜗滤波器的实现我们在32块DSP板上设计了数字耳蜗。 TMS320C3xDSK。数字耳蜗滤波器可以实现实时语音处理。4.实时语音识别的应用我们在各种噪声环境下使用该系统检查实时语音识别。从实验结果来看,我们在安静环境下的识别率达到了99.2%。 10dB SXR 下为 90.6%,5dB SXR 下为 41.0%。5。实时说话人识别的应用我们使用该系统检查 18 个人的实时说话人识别情况。我们实现了 92.2% 的说话人识别率。另外,我们通过调整数字耳蜗滤波器各部分的增益,达到了98.9%。
项目成果
期刊论文数量(20)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
T.YOSHIDA, T.HAMAMOTO and S.HANGAI: "A Multi-modal HMM for Spoken Word Recognition under Noisy Environment"IEEE Int. conf. on Acoustics, Speech and Signal Processing (ICASSP'01). SPEECHSF1.10. (2001)
T.YOSHIDA、T.HAMAMOTO 和 S.HANGAI:“噪声环境下口语识别的多模态 HMM”IEEE Int。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
吉田孝博: "雑音環境下の単語音声認識のための視聴覚融合HMMについて"信学総大. SD-3-2. (2001)
Takahiro Yoshida:“关于嘈杂环境中单词语音识别的视听融合 HMM”SD-3-2。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
T.YOSHIDA, T.HAMAMOTO and S.HANGAI: "A Study on Multi-Modal HMM for Word Recognition under Noisy Environment"IEICE general conference. SD-3-2. (2001)
T.YOSHIDA、T.HAMAMOTO 和 S.HANGAI:“噪声环境下单词识别的多模态 HMM 研究”IEICE 大会。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
T.YOSHIDA, T.HAMAMOTO and S.HANGAI: "Speaker Recognition using Improved Digital Cochlear Filter"IEICE general conference. D-14-4. (2002)
T.YOSHIDA、T.HAMAMOTO 和 S.HANGAI:“使用改进的数字耳蜗滤波器进行说话人识别”IEICE 大会。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
M.Namiki: "Spoken word recognition with digital cochlea using 32 DSP-boards"IEEE ICASSP. ITT-L3.5. 1-4 (2001)
M.Namiki:“使用 32 个 DSP 板通过数字耳蜗进行口语识别”IEEE ICASSP。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
HANGAI Seiichiro其他文献
HANGAI Seiichiro的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('HANGAI Seiichiro', 18)}}的其他基金
A study on information hiding method with motion vectors of standard video compression
标准视频压缩运动矢量信息隐藏方法研究
- 批准号:
21500179 - 财政年份:2009
- 资助金额:
$ 2.05万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Adaptive Scan Method for Moving Picture Coding System
运动图像编码系统的自适应扫描方法
- 批准号:
14550375 - 财政年份:2002
- 资助金额:
$ 2.05万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Real-time writer verification system using tablet information
使用平板电脑信息的实时作者验证系统
- 批准号:
10650380 - 财政年份:1998
- 资助金额:
$ 2.05万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
相似海外基金
An investigation of generative acoustic latent representations for meeting speech recognition and summarization
用于满足语音识别和摘要的生成声学潜在表示的研究
- 批准号:
24K15004 - 财政年份:2024
- 资助金额:
$ 2.05万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Disrupter or enabler? Assessing the impact of using automatic speech recognition technology in interpreter-mediated legal proceedings
颠覆者还是推动者?
- 批准号:
2889440 - 财政年份:2023
- 资助金额:
$ 2.05万 - 项目类别:
Studentship
Analysis of speech recognition as a tool in medical English education
语音识别作为医学英语教育工具的分析
- 批准号:
23K00767 - 财政年份:2023
- 资助金额:
$ 2.05万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Automatic Speech Recognition (ASR) engine to improve autistic children speech
自动语音识别(ASR)引擎可改善自闭症儿童的言语能力
- 批准号:
10056712 - 财政年份:2023
- 资助金额:
$ 2.05万 - 项目类别:
Grant for R&D
Industrial research into the reduction of biases in foundational Automatic Speech Recognition models.
减少基础自动语音识别模型中偏差的工业研究。
- 批准号:
10068091 - 财政年份:2023
- 资助金额:
$ 2.05万 - 项目类别:
Collaborative R&D
M3OLR: Towards Effective Multilingual, Multimodal and Multitask Oriental Low-resourced Language Speech Recognition
M3OLR:迈向有效的多语言、多模态和多任务东方稀缺语言语音识别
- 批准号:
23K11227 - 财政年份:2023
- 资助金额:
$ 2.05万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Establishment of intraoperative education model using speech recognition and language information processing technology
利用语音识别和语言信息处理技术建立术中教育模型
- 批准号:
23K16281 - 财政年份:2023
- 资助金额:
$ 2.05万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
SaTC: CORE: Small: Robust Speaker and Speech Recognition Under AI-Driven Physical and Digital Attacks
SaTC:核心:小型:人工智能驱动的物理和数字攻击下的鲁棒扬声器和语音识别
- 批准号:
2310207 - 财政年份:2023
- 资助金额:
$ 2.05万 - 项目类别:
Continuing Grant
A State-of-the-Art Automatic Speech Recognition and Conversational Platform to Enable Socially Assistive Robots for Persons with Alzheimer's Disease and Related Dementias
最先进的自动语音识别和对话平台,为阿尔茨海默病和相关痴呆症患者提供社交辅助机器人
- 批准号:
10699887 - 财政年份:2023
- 资助金额:
$ 2.05万 - 项目类别:
CRCNS US-Spain Research Proposal: Collaborative Research: Tracking and modeling the neurobiology of multilingual speech recognition
CRCNS 美国-西班牙研究提案:合作研究:跟踪和建模多语言语音识别的神经生物学
- 批准号:
2207770 - 财政年份:2022
- 资助金额:
$ 2.05万 - 项目类别:
Continuing Grant














{{item.name}}会员




