复杂声学环境下声学事件检测与音频场景识别方法研究

批准号:
U1736210
项目类别:
联合基金项目
资助金额:
256.0 万元
负责人:
韩纪庆
依托单位:
学科分类:
F0111.信号理论与信号处理
结题年份:
2021
批准年份:
2017
项目状态:
已结题
项目参与者:
郑铁然、闾海荣、金圣开、郑贵滨、陶焜、王伟、赵明
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
机器对环境声音的认知能力是类脑智能研究的重要方向之一。作为机器环境声音认知的一个重要方面,声学事件检测与音频场景识别受到了越来越多的重视。然而,现实中复杂的声学环境给声学事件检测与音频场景识别带来了新的挑战。与此同时,近年来信号处理与机器学习领域中理论与技术的长足发展,也为复杂声学环境下声学事件检测与音频场景识别的研究带来了新的机遇。本项目正是在这样的背景下提出的。项目拟从音频信号的降噪、特征选择与降维、基于机器学习的声学事件检测与音频场景识别方法等方面展开基础性研究。通过项目的研究提出若干具有自主知识产权的理论与技术,为提高机器对环境声音的认知能力提供理论基础和实用方法,促进类脑听觉认知学科的进步。
英文摘要
The cognitive ability of the computer for understanding the environmental sounds is one of the most important research directions in the brain-inspired intelligence. As one of the main aspects of the computer cognition of environmental sounds, the acoustic events detection and audio scenes recognition have been attracted more and more attention. However, there are new challenges for the acoustic events detection and audio scenes recognition in complex acoustic environments. Meanwhile there is also a new opportunity for the acoustic events detection and audio scenes recognition as the fast developments in the theories and technologies of the signal processing and machine learning. Based on the above background, this project is proposed and focuses on the fundamental researches in the denosing of audio signal, the feature selection and dimensionality reduction, and the new machine learning based methods in the acoustic events detection and audio scenes recognition. The main purpose of the project is to propose some theories and technologies with independent intellectual property rights and provide the theoretical principles and useful methods for improving the computer cognition of environmental sounds, and therefore make the progress of the field of the brain-inspired auditory perception.
本项目重点开展复杂声学环境下声学事件检测与音频场景识别的研究。在项目的执行过程中,按照项目计划书要求开展工作,已完成了所有的研究计划内容,并对部分内容进行了拓展性研究。在如下几方面取得了重要研究进展:① 时域与变换域先验知识兼顾的降噪方法; ② 基于半监督学习的音频信号特征选择与降维;③ 基于联合语义挖掘的声学事件与音频场景特征表示方法;④ 基于前景和背景声音特征融合的音频场景一致性特征表示方法;⑤ 基于多层多核支持向量机的声学事件检测及音频场景识别;⑥ 复杂声学环境下声学事件检测与音频场景识别在特定行业的验证。.项目组共在刊物和会议上发表学术论文37篇,其中15篇进入SCI检索源,35篇进入EI检索源。论文中有3篇发表在本领域顶级刊物IEEE/ACM Trans. on Audio, Speech, and Language Processing上,17篇发表在本领域顶级国际会议ICASSP、Interspeech和NeurIPS上,另有2篇论文被ICASSP2022录用;申请国家发明专利13项,已授权7项;获软件著作权登记2项。共培养研究生46名,其中博士研究生16名,硕士研究生30名。由2019年清华出版社出书一部。.尤为重要的是,所研发的相关技术已开始在通用技术研究院下属的黑龙江省分支机构进行了成果的应用转化,促进了其业务的开展。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Pyramidal Temporal Pooling With Discriminative Mapping for Audio Classification
用于音频分类的具有判别性映射的金字塔时间池
DOI:10.1109/taslp.2020.2966868
发表时间:2020-01
期刊:IEEE/ACM Transactions on Audio, Speech, and Language Processing
影响因子:--
作者:Liwen Zhang;Ziqiang Shi;Jiqing Han
通讯作者:Jiqing Han
Common subspace learning based semantic feature extraction method for acoustic event recognition
基于公共子空间学习的声事件识别语义特征提取方法
DOI:10.1016/j.apacoust.2022.108638
发表时间:2022-03
期刊:Applied Acoustics
影响因子:3.4
作者:Shi Qiuying;Deng ShiWen;Han Jiqing
通讯作者:Han Jiqing
Exporing Inter-Node Relations in CNNs for Environmental Sound Classicatin
揭示 CNN 中的节点间关系以实现环境无害分类
DOI:10.1109/lsp.2021.3130502
发表时间:2021
期刊:IEEE Signal Processing Letters
影响因子:3.9
作者:Hongwei Song;Deng Shiwen;Han Jiqing
通讯作者:Han Jiqing
Nonnegative Matrix Factorization Based Transfer Subspace Learning for Cross-Corpus Speech Emotion Recognition
基于非负矩阵分解的跨语料库语音情感识别的迁移子空间学习
DOI:10.1109/taslp.2020.3006331
发表时间:2020-01-01
期刊:IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING
影响因子:5.4
作者:Luo, Hui;Han, Jiqing
通讯作者:Han, Jiqing
Task-Driven Variability Model for Speaker Verification
用于说话人验证的任务驱动变异模型
DOI:10.1007/s00034-019-01315-7
发表时间:2019-11
期刊:Circuits, Systems, and Signal Processing
影响因子:--
作者:Chen Chen;Han Jiqing
通讯作者:Han Jiqing
面向领域不匹配的鲁棒说话人识别技术研究
- 批准号:62376071
- 项目类别:面上项目
- 资助金额:50万元
- 批准年份:2023
- 负责人:韩纪庆
- 依托单位:
基于内在与潜在语义特征的声音段落级语义识别方法研究
- 批准号:61471145
- 项目类别:面上项目
- 资助金额:86.0万元
- 批准年份:2014
- 负责人:韩纪庆
- 依托单位:
行车环境听觉模型及声音处理关键技术
- 批准号:91120303
- 项目类别:重大研究计划
- 资助金额:270.0万元
- 批准年份:2011
- 负责人:韩纪庆
- 依托单位:
鲁棒的非特定环境声学事件检测关键技术研究
- 批准号:61071181
- 项目类别:面上项目
- 资助金额:32.0万元
- 批准年份:2010
- 负责人:韩纪庆
- 依托单位:
基于内容的音频信息检索关键技术研究
- 批准号:60672163
- 项目类别:联合基金项目
- 资助金额:28.0万元
- 批准年份:2006
- 负责人:韩纪庆
- 依托单位:
基于子词网格的汉语语音检索关键技术研究
- 批准号:60575030
- 项目类别:面上项目
- 资助金额:22.0万元
- 批准年份:2005
- 负责人:韩纪庆
- 依托单位:
数字音频水印系统的基本模型和算法研究
- 批准号:60173044
- 项目类别:面上项目
- 资助金额:18.0万元
- 批准年份:2001
- 负责人:韩纪庆
- 依托单位:
心理紧张和应力影响下Robust语音识别方法研究
- 批准号:60085001
- 项目类别:专项基金项目
- 资助金额:14.0万元
- 批准年份:2000
- 负责人:韩纪庆
- 依托单位:
国内基金
海外基金
