空間アテンション機構に基づく新しい音響シーン識別手法の確立

基于空间注意力机制的声场景识别新方法的建立

基本信息

批准号：
20K11880
负责人：
山田武志
金额：
$ 2.58万
依托单位：
University of Tsukuba
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2020
资助国家：
日本
起止时间：
2020-04-01 至 2024-03-31
项目状态：
已结题

项目摘要

音響シーン識別において複数のマイクの録音信号を入力することにより、音源の周波数特性などの音響特徴に加えて、個々の音源の方向などの空間特徴を活用することが可能となり、識別性能のさらなる向上が期待できる。本研究の目的は、空間信号処理と識別器の融合による新しい音響シーン識別手法を確立することである。具体的には、音響シーンに存在する複数の音源の中からより重要な音源に自動的に焦点を当てる機能（空間アテンション機構）を有するニューラルネットワークを新たに開発する。これにより、音源の方向や種類などの事前情報を必要とせず、識別に適した指向特性を入力信号から自動的に形成することが可能となる。２０２２年度は、前年度に引き続き、空間アテンション機構に基づく音響シーン識別手法の開発に取り組んだ。主な研究成果を以下にまとめる。（１）複数の空間フィルタ出力への自動重み付けに基づく識別手法の開発：これは、異なる指向特性を有する空間フィルタを複数個用意し、それぞれの空間フィルタ出力に対する重みを推定して識別する手法であり、前年度までに実験によりその有効性を示した。２０２２年度は識別性能のさらなる向上のために、重みの推定を短時間毎に実行する手法を検討した。（２）空間フィルタの自動推定に基づく識別手法の開発：これは、空間フィルタそのものを推定し、推定した空間フィルタの出力を用いて識別する手法である。空間フィルタ生成器と識別器のネットワークを同時最適化するための損失関数を考案し、実験によってその有効性を検証した。その結果、学習の際に目的音の方向や教師信号といった事前情報を一切必要とせずに、注目すべき音を強調する空間フィルタを自動的に生成できることを示した。これらの研究成果を査読付き国際会議論文、査読なし国内会議論文として発表した。

通过在声学场景标识中输入来自多个麦克风的记录信号，可以利用空间特征，例如声源的频率特征以及空间特征，例如每个声源的方向，这可以进一步改善识别性能。这项研究的目的是通过组合空间信号处理和分类器来建立新的声学场景识别技术。具体而言，正在开发一种新的神经网络，该神经网络具有该功能（空间注意机制），该功能会自动关注声学场景中存在的多个声源中更重要的声源。这使得可以自动形成适合从输入信号识别的定向特性，而无需先前的信息，例如声源的方向和类型。在2022财年，就像上一年一样，我们致力于基于空间注意机制开发一种声学场景识别方法。主要研究结果总结为下面。（1）基于多个空间滤波器输出的自动加权的识别方法的开发：这是一种制备具有不同方向特征的多个空间过滤器的方法，并且估算和识别了每个空间滤波器输出的权重，并且这些方法的有效性是通过实验到上一年的实验证明的。在2022财年，我们考虑了每分钟估算权重的一种方法，以进一步提高识别效果。（2）基于自动空间滤波器估计的歧视方法的开发：这是一种使用估计的空间滤波器的输出来估算空间滤波器本身并识别空间滤波器的方法。设计了损耗函数，以同时优化空间滤波器发生器和分类器网络，并通过实验验证其有效性。结果，已经表明，可以自动生成空间过滤器，以强调没有任何先前信息（例如目标声音的方向或在学习过程中的教师信号）。这些研究结果作为同行评审的国际会议论文和同行评审的国内会议论文提出。