A Study for Utilizing the Linguistic Information in Phoneme Recognition to Understand Continuous Speech

利用音素识别中的语言信息来理解连续语音的研究

基本信息

  • 批准号:
    03452173
  • 负责人:
  • 金额:
    $ 4.35万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for General Scientific Research (B)
  • 财政年份:
    1991
  • 资助国家:
    日本
  • 起止时间:
    1991 至 1993
  • 项目状态:
    已结题

项目摘要

In this study, we proposed 2 higher performance phoneme recognition methodsand the continuous speech recognition method utilizing the linguistic information around the target phoneme.At first, we proposed MR-HMM (Multi-Resolution HMM) based on Wavelet transform, which is able to control the time-frequency resolution. The WTD (Wavelet transform Tree Data) is proposed to represent the time-frequency space in scalogram that is obtained through Wavelet transform. Using this WTD structure, we proposed the State merge Algorithm stucying MR-HMM, it enables the high recognition rate.Next, we proposed the phoneme recognition method using the 9 acoustic features besides the cepstrum parameters that is most popular but not enough. In general, it is necessary for using the several kinds of acoustic parameters to analyze what parameters are suitable for the specified phoneme recognition. But, the proposed method enables using the several kinds of parameters except that. We proposed the Membership Scale to enable applying the linear discriminant method that is for 2 category discrimination to the multi category discrimination. Using this method, the linguistic recognition stage can get the reliability of the results from the acoustical recognition stage.Finally, we proposed the new linguistic recognition method, that uses the co-occurative relationship of the words in one sentence. This method doesn't use the grammatical knowledge, so the task fre speech is available. Combining this linguistic recognition method with the acoustic recognition methods mentioned above, the misrecognition in the acoustical recognition stage can be controlled by the linguistic rrecognition stage. From the experimental results, we confirmed the effectiveness of the proposed recognition methods.
在本研究中,我们提出了两种更高性能的音素识别方法和一种利用目标音素周围语言信息的连续语音识别方法。首先,我们提出了基于小波变换的多分辨率HMM(Multi-Resolution HMM),它能够控制时频分辨率。提出用小波变换树数据表示尺度图的时频空间。利用这种WTD结构,我们提出了一种基于MR-HMM的状态合并算法,使得识别率更高。接下来,我们提出了一种基于倒谱参数的音素识别方法,该方法除了使用目前最流行但还不够的倒谱参数外,还使用了9个声学特征。通常,需要使用几种声学参数来分析什么参数适合于指定的音素识别。但是,所提出的方法允许使用除此之外的几种参数。我们提出了隶属度表,使应用线性判别方法,是2类歧视的多类歧视。利用这种方法,语言识别阶段可以得到语音识别阶段结果的可靠性。最后,我们提出了一种新的语言识别方法,即利用句子中词的同现关系。这种方法不需要语法知识,因此可以实现无语音任务。将这种语言识别方法与上述声学识别方法相结合,可以通过语言再识别阶段来控制声学识别阶段的误识别。从实验结果中,我们证实了所提出的识别方法的有效性。

项目成果

期刊论文数量(20)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
小林淳: "動詞、名詞のスポッティングによる会話文の認識" 日本音響学会秋季研究発表会講演論文集. 175-176 (1993)
Jun Kobayashi:“通过识别动词和名词来识别会话句子”日本声学学会秋季研究会议记录 175-176(1993)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
荒井 秀一: "A Network for Phenome Recognition by Spectral Local Peaks" Proc.14th International Congress on Acoustics. G-4-1. 877-878 (1992)
Shuichi Arai:“通过光谱局部峰进行现象组识别的网络”Proc.14th 国际声学大会 G-4-1(1992 年)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
棚橋健二: "正常および異常音声のフォルマント周波数の時間遷移パターンによる比較" 日本音響学会秋期研究発表会講演論文集. 595-596 (1993)
Kenji Tanahashi:“基于时间转换模式的正常和异常语音的共振峰频率的比较”日本声学学会秋季研究会议论文集 595-596(1993)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
栗原世治: "各種音響パラメータが保持する個人性情報の分析" 日本音響学会秋季研究発表会講演論文集. 645-646 (1993)
Seiji Kurihara:“各种声学参数所持有的个人信息的分析”日本声学学会秋季研究会议记录 645-646(1993)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
大内康裕: "正常および異常音声の第1・第2フォルマント平面における比較" 日本音響学会秋期研究発表会講演論文集. 593-594 (1993)
Yasuhiro Ouchi:“第一和第二共振峰平面中正常和异常语音的比较”日本声学学会秋季研究会议论文集 593-594(1993)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

KIDO Ken'iti其他文献

KIDO Ken'iti的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('KIDO Ken'iti', 18)}}的其他基金

RESEARCH ON THE DEVELOPMENT OF SPEECH QUALITY EVALUATION SYSTEM FOR THE PURPOSE OF EDUCATION AND TRAIN
教育培训用语音质量评价系统的开发研究
  • 批准号:
    05555104
  • 财政年份:
    1993
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Grant-in-Aid for Developmental Scientific Research (B)
Developmental Research of an automatic inspector machine for diagnosis of each part of roll bearings based on vibration analysis
基于振动分析的滚动轴承各部位诊断自动检测机的研制
  • 批准号:
    63850049
  • 财政年份:
    1988
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Grant-in-Aid for Developmental Scientific Research
A study on the conkersion from a sentence speech to a kanji-kana string using phoneme recognition, syntax and semantics processings
使用音素识别、语法和语义处理从句子语音到汉字假名串的转换研究
  • 批准号:
    59420031
  • 财政年份:
    1984
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (A)

相似海外基金

An investigation of generative acoustic latent representations for meeting speech recognition and summarization
用于满足语音识别和摘要的生成声学潜在表示的研究
  • 批准号:
    24K15004
  • 财政年份:
    2024
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Disrupter or enabler? Assessing the impact of using automatic speech recognition technology in interpreter-mediated legal proceedings
颠覆者还是推动者?
  • 批准号:
    2889440
  • 财政年份:
    2023
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Studentship
Analysis of speech recognition as a tool in medical English education
语音识别作为医学英语教育工具的分析
  • 批准号:
    23K00767
  • 财政年份:
    2023
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Automatic Speech Recognition (ASR) engine to improve autistic children speech
自动语音识别(ASR)引擎可改善自闭症儿童的言语能力
  • 批准号:
    10056712
  • 财政年份:
    2023
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Grant for R&D
Industrial research into the reduction of biases in foundational Automatic Speech Recognition models.
减少基础自动语音识别模型中偏差的工业研究。
  • 批准号:
    10068091
  • 财政年份:
    2023
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Collaborative R&D
M3OLR: Towards Effective Multilingual, Multimodal and Multitask Oriental Low-resourced Language Speech Recognition
M3OLR:迈向有效的多语言、多模态和多任务东方稀缺语言语音识别
  • 批准号:
    23K11227
  • 财政年份:
    2023
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Establishment of intraoperative education model using speech recognition and language information processing technology
利用语音识别和语言信息处理技术建立术中教育模型
  • 批准号:
    23K16281
  • 财政年份:
    2023
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
SaTC: CORE: Small: Robust Speaker and Speech Recognition Under AI-Driven Physical and Digital Attacks
SaTC:核心:小型:人工智能驱动的物理和数字攻击下的鲁棒扬声器和语音识别
  • 批准号:
    2310207
  • 财政年份:
    2023
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Continuing Grant
A State-of-the-Art Automatic Speech Recognition and Conversational Platform to Enable Socially Assistive Robots for Persons with Alzheimer's Disease and Related Dementias
最先进的自动语音识别和对话平台,为阿尔茨海默病和相关痴呆症患者提供社交辅助机器人
  • 批准号:
    10699887
  • 财政年份:
    2023
  • 资助金额:
    $ 4.35万
  • 项目类别:
CRCNS US-Spain Research Proposal: Collaborative Research: Tracking and modeling the neurobiology of multilingual speech recognition
CRCNS 美国-西班牙研究提案:合作研究:跟踪和建模多语言语音识别的神经生物学
  • 批准号:
    2207770
  • 财政年份:
    2022
  • 资助金额:
    $ 4.35万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了