面向远场并发声学事件的深度实时分离研究
项目介绍
AI项目解读
基本信息
- 批准号:U1936102
- 项目类别:联合基金项目
- 资助金额:71.0万
- 负责人:
- 依托单位:
- 学科分类:F0111.信号理论与信号处理
- 结题年份:2022
- 批准年份:2019
- 项目状态:已结题
- 起止时间:2020-01-01 至2022-12-31
- 项目参与者:曹占中; 蔡岳晋; 胡洋霞; 胡宏周; 靳嘉宇; 罗小杰; 罗京玲; 陈敏; 张兵;
- 关键词:
项目摘要
It is almost impossible to predict the spatial locations of acoustic events. The microphones recording the acoustic signal are often far away from the acoustic events, enabling the direct-path signal to be very weak. Especially, the long-term reverberation is unknown for most scenarios, and therefore, the acoustic signals of multiple acoustic events are deeply coupled with each other. It is a challenging issue to separate the reverberated mixture of the acoustic signal of multiple events. In the past several decades, some unsupervised methods have been presented to separate the acoustic mixture of special sound source signals with some given assumptions. However, those methods are generally designed for some special events with unacceptable latency and high computation complexity, which are difficult to satisfy the requirements. The real-time applications requires the separation to be realized with low latency and high computational efficiency。Neither the microphone array technique nor the deep learning is capable of well treating the mixture of acoustic events. This research combines the techniques of array and deep learning,which is described as follows: 1. Real-time multiple source localization, which provides the clue for separation; 2. Time-frequency bin classification based on the spatial information of acoustic events, which separate the direct-path signals of events; 3. Reverberation reduction based on generative adversarial network, which reduces the reverberation that is remained in the separated signals. This research eventually summarizes these three researches to construct an intelligent system of acoustic event perception.
声学事件发生的空间位置具有不可预知性,麦克风通常远离事件而形成一个远场,而且远场下的长时混响未知,使得多个并发事件的声信号形成深度耦合。远场并发声源分离是一个深度解耦合的挑战性难题。前人利用非监督方法能够在某些条件下实现一定程度的分离。然而,这些方法针对特定声信号,时间延迟较大,且计算复杂度较高,难以满足实时要求。声学事件的实时分离要求各环节的算法同时具备低延迟、高计算效率等要求,单纯依靠麦克风阵列或者深度学习,难以解决问题。本项目试图将二者有机结合,发展声学事件实时分离的理论和方法,具体从以下方面展开研究:1.多声源实时定位,在短时片段上实现定位,降低延迟,为分离提供线索;2. 基于空域信息的有监督掩模聚类,由掩模确定各声源的导向矢量,从而实现直达声信号的分离;3. 基于深度对抗的混响抑制方法,去除残留于直达声信号中的混响。项目整合成果,形成智能化的声学事件感知系统。
结项摘要
麦克风阵列由2个以及2个以上的声学传感器,按一种特定的拓扑结构组成,具有一定的空间滤波能力。麦克风阵列将人们从“麦克风近讲”模式的束缚中解放出来,实现更加自然的远场人机交互,通过相应的波束形成算法,达到语音增强,分离的效果。通过分析多通道信号,能够实现估计声源数目,发现声源方位,波束自适应跟随声源移动的功能,进而达到环境声学感知的功能。前人对声学感知进行了卓有成效的研究,但在两个方面受到瓶颈性的局限。其一,单通道的前端处理方法丢失声源空域信息,且没有长时依赖性。其二,基于阵列的方法没有给出去混响的解决方法。因此,需要全面考虑针对声学场景的前端阵列处理方法。本课题对这些问题进行了研究,设计出多种麦克风阵列电路板,且仿真和模拟生成上百小时的数据库,建立了一套实时定位与分离系统。基于该系统,本课题研究了单通道的语音分离和增强,利用单通道到多通道的矩阵转换算法,实现模型的长时依赖能力,提高语音分离后的人的感知效果。本课题针对多说话人的场景利用声纹识别技术增强模型的环境感知能力,实现分离识别一体化功能,提高系统的实用性。针对多通道的场景,充分利用麦克风的空间信息,本课题还结合传统的差分麦克风阵列原理,构建了基于差分计算的深度神经网络 (DMANet), 不仅语音分离和增强效果达到当时最优,模型小型化得到更进一步优化提升。语音发自人的声道,对人的发音机理研究可以提供更好的语音信号特征,所以本课题还从嗓音学入手,分析人在发元音基频,提出一种RS-CEPS方法,计算更加准确的频谱包络特征,并设计声纹识别模型进行个性特征验证。
项目成果
期刊论文数量(6)
专著数量(0)
科研奖励数量(1)
会议论文数量(8)
专利数量(11)
An Intelligent Classification Diagnosis based on Blood Oxygen Saturation Signals for Medical Data Supply Chain Including COVID-19 in Industry 5.0
工业5.0中包括COVID-19在内的医疗数据供应链基于血氧饱和度信号的智能分类诊断
- DOI:--
- 发表时间:2022
- 期刊:IEEE Transactions on Industrial Informatics
- 影响因子:12.3
- 作者:Mingdong Zhang;Jianguo Wei;Chaoyu Dong;Dongming Zhang;Ming-Lang Tseng
- 通讯作者:Ming-Lang Tseng
Residual Learning Diagnosis Detection: An Advanced Residual Learning Diagnosis Detection System for COVID-19 in Industrial Internet of Things
RLDD:IIoT 中针对 COVID-19 的高级残差学习诊断检测系统
- DOI:10.1109/tii.2021.3051952
- 发表时间:2021-09-01
- 期刊:IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS
- 影响因子:12.3
- 作者:Zhang, Mingdong;Chu, Ronghe;Xiong, Naixue
- 通讯作者:Xiong, Naixue
One-shot emotional voice conversion based on feature separation
基于特征分离的一次性情感语音转换
- DOI:10.1016/j.specom.2022.07.001
- 发表时间:2022-07
- 期刊:Speech Communication
- 影响因子:3.2
- 作者:Wenhuan Lu;Xinyue Zhao;Na Guo;Yongwei Li;Jianguo Wei;Jianhua Tao;Jianwu Dang
- 通讯作者:Jianwu Dang
GSS: A group similarity system based on unsupervised outlier detection for big data computing
GSS:一种基于无监督异常值检测的大数据计算群体相似度系统
- DOI:10.1016/j.ins.2022.11.078
- 发表时间:2022-11-24
- 期刊:INFORMATION SCIENCES
- 影响因子:8.1
- 作者:Ke,Wenjun;Wei,Jianguo;Hou,Qingzhi
- 通讯作者:Hou,Qingzhi
Design and analysis of a robust breast cancer diagnostic system based on multimode MR images
基于多模式 MR 图像的稳健乳腺癌诊断系统的设计和分析
- DOI:--
- 发表时间:2021
- 期刊:Mathematical Biosciences and Engineering
- 影响因子:2.6
- 作者:Hong Yu;Wenhuan Lu;Qilong Sun;Haiqiang Shi;Jianguo Wei;Zhe Wang;Xiaoman Wang;Naixue Xiong
- 通讯作者:Naixue Xiong
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
磁等离子体发动机性能仿真计算
- DOI:--
- 发表时间:2015
- 期刊:通信卫星工程
- 影响因子:--
- 作者:魏建国;孙斌;余虔;赵杨;邓永锋;韩先伟;谭畅
- 通讯作者:谭畅
孤立性纤维性肿瘤中GRIA2和STAT6的表达及意义
- DOI:--
- 发表时间:2018
- 期刊:临床与实验病理学杂志
- 影响因子:--
- 作者:曹 钟;魏建国;岑红兵;秦灵芝;敖启林
- 通讯作者:敖启林
中国区域旅行社业效率的时空分异及驱动机制
- DOI:--
- 发表时间:2017
- 期刊:地理与地理信息科学
- 影响因子:--
- 作者:胡宇娜;梅林;魏建国
- 通讯作者:魏建国
沥青稳定碎石排水层配合比设计研究
- DOI:--
- 发表时间:2013
- 期刊:公路
- 影响因子:--
- 作者:郑木莲;彭磊;李延猛;魏建国
- 通讯作者:魏建国
声道中气动声学问题的光滑粒子动力学模拟
- DOI:--
- 发表时间:2016
- 期刊:清华大学学报(自然科学版)
- 影响因子:--
- 作者:魏建国;韩江;侯庆志;王颂;党建武
- 通讯作者:党建武
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
魏建国的其他基金
基于自适应频率尺度变换的骨导鼾声识别关键技术研究
- 批准号:61471259
- 批准年份:2014
- 资助金额:85.0 万元
- 项目类别:面上项目
基于观测图像的发音器官运动合成研究
- 批准号:61175016
- 批准年份:2011
- 资助金额:59.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}