课题基金基金详情
基于数据和模式双驱动CASA语音分离研究
结题报告
批准号:
61273267
项目类别:
面上项目
资助金额:
81.0 万元
负责人:
刘文举
学科分类:
F0605.模式识别与数据挖掘
结题年份:
2016
批准年份:
2012
项目状态:
已结题
项目参与者:
李鹏、李超、杨占磊、晁浩、江巍、梁山、胡鹏飞、谭应伟、陈明明
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
困扰语音识别走向实用的羁绊之一是噪声消除问题,而传统的语音增强方法难以应对非平稳噪音,如:人声背景噪声,计算听觉场景分析(CASA)的语音分离方法提供了一条颇具潜力的解决途径。现有CASA系统大致分为基于数据驱动和基于模式驱动两种方式,数据驱动偏重强调利用底层声学线索的自下而上的处理机制;而模式驱动则强调利用人的学习机制的自上而下的处理方式,迄今缺少有效融合两种方式的CASA系统。事实上,人的听觉感知系统是两种方式并存的有机整体,基于此,本项研究提出基于数据和模式双驱动的CASA语音分离新方法,旨在克服现有系统单一驱动的缺陷,使CASA技术获得跨越发展。主要研究内容包括:数据驱动核心基础的多基频提取和组织方法、模式驱动关键环节的学习和分类模型、以及数据和模式双驱动的有效融合方法等。本项研究对于数字媒体领域的多媒体检索、声学目标检索、语音增强、鲁棒性语音识别等关键技术具有重要意义和学术价值。
英文摘要
One of fetters to perplex speech recognition applications is background noise cancelation while conventional speech enhancement algorithms are hard to handle unstable noise, for example, background noise of speech, however speech seperation approach with computational auditory scene analysis(CASA) provides a well potential way. The available CASA systems are divided roughly into two categories, namely data driven based and schema driven based, to which the former emphasezes bottem up mechanism by utilizing primitive acoustic cues, while the latter stresses top dowm processing way of human learning ability. Up to now it is short of CASA system to cooperate two kinds of processing mechanism efficiently. Base on the fact that human auditory perception system is an organic integrity with the existence of both two processing ways, a CASA novel methed of speech separation is presented based on both data driven and schema driven in the proposal.The goal is to conquer the flaw of single driven style in the available CASA system and promotes CASA technology leapfrog development. The main research contents include kernel groundwork of data driven policy such as multipitch extraction and grouping strategy in data driven, crucial points of schema driven way such as machine learning or classifying model, and efficient fusion algorithm for both data driven and schema driven,and so on . The reseach is very important and with academic value for the key technologies in the field of digital media such as multimedia retrieval, acoustic target retrieval, speech enhancement and robust speech recognition etc.
主要进展和成果包括:提出了 CASA 的一种最优计算目标,由于该目标通过最大化分离语音的信噪比(SNR)增益获得,故此称之为最优比率掩蔽(ORM)。在 AWDO条件下(由于语音的稀疏性,该条件几乎总成立),理论分析表明:最优比率掩蔽 ORM 比理想比率掩蔽可以提高信噪比增益 SNR 约 10LOG102DB。真实环境干扰的语音分离实验的信噪比增益和主观评价结果证明了理论分析的正确性,同时也意味着 ORM 方法取得了更好语音分离性能。.对于 CASA 语音分离而言,理想二值掩蔽(IBM)可以看作从维纳滤波推演出来的理想比率掩蔽(IRM)的简化形式。现有方法一般是从语音可懂度方面证实这种简化的合理性,而未从信噪比增益方面严格分析两种掩蔽效应的差异。为此在AWDO(APPROXIMATE W-DISJOINT ORTHOGONALITY)条件下(由于语音的稀疏性,该条件几乎总是成立),我们从理论上研究了两种理想掩蔽的差异性,给出了一个在 AWDO 条件下的两者差异的理论上界,并获得了一种在 AWDO 条件下比 IRM 信噪比增益更高的新的比率掩蔽,以及不同 AWDO 的等级水平值与信噪比增益的本质关系等一些有益的研究发现。.听觉场景分析中的 IBM 估计是其解决问题的核心,模式驱动以往大多采用统计学习的方法,贝叶斯方法是其典型的代表之一,但现有方法的不足之处是其对(T-F)时频单元的独立性假设,未考虑时频单元之间的关联性。为此我们从两个方面入手利用局域关联信息提高分离性能:一方面,根据属于同一片段的单元来自同一声源这一被证实的假设,直接建立一个势函数表征邻域 T-F 单元掩蔽标识的关联性;另一方面,参考一时段的局域噪音水平跟踪信息,通过对一些相邻单元的噪声水平求平均值获得时频单元的真实噪音能量,该手段可以看作引入中间辅助变量表征局域关联性。在忽略次要的因素的条件下,用蒙特卡罗马尔柯夫链(MCMC)方法模拟高维后验分布,在循环迭代过程中,计算接受率充分考虑了局域关联信息,IBM 估计值由期望值获得。与已有贝叶斯方法的语音分离系统相比,所提方法无论在 HIT-FA 率还是 SNR 增益等方面都获得本质提高。本项研究对于数字媒体领域的多媒体检索、声学目标检索、语音增强、鲁棒性语音识别等关键技术具有重要意义和学术价值。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2013
期刊:Chinese Journal of Acoustics
影响因子:--
作者:Fenghai Liao, Peng Li, Wenju Liu
通讯作者:Fenghai Liao, Peng Li, Wenju Liu
DOI:--
发表时间:2014
期刊:Pattern Recognition
影响因子:8
作者:Hu, Pengfei;Liu, Wenju;Jiang, Wei;Yang, Zhanlei
通讯作者:Yang, Zhanlei
DOI:--
发表时间:2013
期刊:Ieee Transactions ON Audio Speech and Language Processing
影响因子:--
作者:Liang, Shan;Liu, Wenju;Jiang, Wei
通讯作者:Jiang, Wei
DOI:--
发表时间:2013
期刊:声学学报(中文版)
影响因子:--
作者:梁山;刘文举;江巍
通讯作者:江巍
DOI:--
发表时间:2016
期刊:Ieee-Acm Transactions ON Audio Speech and Language Processing
影响因子:5.4
作者:Zhang, Hui;Nie, Shuai;Gao, Guanglai;Liu, Wenju
通讯作者:Liu, Wenju
基于环境感知的多通道语音增强优化建模方法及应用
基于客观质量评估和音频场景分析语音分离新方法研究
  • 批准号:
    90820011
  • 项目类别:
    重大研究计划
  • 资助金额:
    50.0万元
  • 批准年份:
    2008
  • 负责人:
    刘文举
  • 依托单位:
基于语音知识和全局最优准则指导的段模型汉语LVCSR方法研究
基于段特征分布及听觉机理的抗噪音语音识别方法研究
国内基金
海外基金