空間アテンション機構に基づく新しい音響シーン識別手法の確立
基于空间注意力机制的声场景识别新方法的建立
基本信息
- 批准号:20K11880
- 负责人:
- 金额:$ 2.58万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2020
- 资助国家:日本
- 起止时间:2020-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
音響シーン識別において複数のマイクの録音信号を入力することにより、音源の周波数特性などの音響特徴に加えて、個々の音源の方向などの空間特徴を活用することが可能となり、識別性能のさらなる向上が期待できる。本研究の目的は、空間信号処理と識別器の融合による新しい音響シーン識別手法を確立することである。具体的には、音響シーンに存在する複数の音源の中からより重要な音源に自動的に焦点を当てる機能(空間アテンション機構)を有するニューラルネットワークを新たに開発する。これにより、音源の方向や種類などの事前情報を必要とせず、識別に適した指向特性を入力信号から自動的に形成することが可能となる。2022年度は、前年度に引き続き、空間アテンション機構に基づく音響シーン識別手法の開発に取り組んだ。主な研究成果を以下にまとめる。(1)複数の空間フィルタ出力への自動重み付けに基づく識別手法の開発:これは、異なる指向特性を有する空間フィルタを複数個用意し、それぞれの空間フィルタ出力に対する重みを推定して識別する手法であり、前年度までに実験によりその有効性を示した。2022年度は識別性能のさらなる向上のために、重みの推定を短時間毎に実行する手法を検討した。(2)空間フィルタの自動推定に基づく識別手法の開発:これは、空間フィルタそのものを推定し、推定した空間フィルタの出力を用いて識別する手法である。空間フィルタ生成器と識別器のネットワークを同時最適化するための損失関数を考案し、実験によってその有効性を検証した。その結果、学習の際に目的音の方向や教師信号といった事前情報を一切必要とせずに、注目すべき音を強調する空間フィルタを自動的に生成できることを示した。これらの研究成果を査読付き国際会議論文、査読なし国内会議論文として発表した。
通过在声学场景标识中输入来自多个麦克风的记录信号,可以利用空间特征,例如声源的频率特征以及空间特征,例如每个声源的方向,这可以进一步改善识别性能。这项研究的目的是通过组合空间信号处理和分类器来建立新的声学场景识别技术。具体而言,正在开发一种新的神经网络,该神经网络具有该功能(空间注意机制),该功能会自动关注声学场景中存在的多个声源中更重要的声源。这使得可以自动形成适合从输入信号识别的定向特性,而无需先前的信息,例如声源的方向和类型。在2022财年,就像上一年一样,我们致力于基于空间注意机制开发一种声学场景识别方法。主要研究结果总结为下面。 (1)基于多个空间滤波器输出的自动加权的识别方法的开发:这是一种制备具有不同方向特征的多个空间过滤器的方法,并且估算和识别了每个空间滤波器输出的权重,并且这些方法的有效性是通过实验到上一年的实验证明的。在2022财年,我们考虑了每分钟估算权重的一种方法,以进一步提高识别效果。 (2)基于自动空间滤波器估计的歧视方法的开发:这是一种使用估计的空间滤波器的输出来估算空间滤波器本身并识别空间滤波器的方法。设计了损耗函数,以同时优化空间滤波器发生器和分类器网络,并通过实验验证其有效性。结果,已经表明,可以自动生成空间过滤器,以强调没有任何先前信息(例如目标声音的方向或在学习过程中的教师信号)。这些研究结果作为同行评审的国际会议论文和同行评审的国内会议论文提出。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Wave-U-Netと識別器のエンドツーエンド学習による音響シーン識別の検討
使用Wave-U-Net进行声学场景识别和分类器端到端学习的研究
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:山田友紀;山田武志;牧野昭二
- 通讯作者:牧野昭二
Neural beamformer with automatic detection of notable sounds for acoustic scene classification
神经波束形成器可自动检测值得注意的声音以进行声学场景分类
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Sota Ichikawa;Takeshi Yamada;Shoji Makino
- 通讯作者:Shoji Makino
Monitoring of Domestic Activities Using Multiple Beamformers and Attention Mechanism
- DOI:10.2299/jsp.25.239
- 发表时间:2021-11
- 期刊:
- 影响因子:0
- 作者:Y. Kaneko;Takeshi Yamada;S. Makino
- 通讯作者:Y. Kaneko;Takeshi Yamada;S. Makino
音響イベント検出におけるGANを用いた弱ラベルデータ生成による半教師あり学習
在声学事件检测中使用 GAN 生成弱标签数据的半监督学习
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:合馬一弥;山田武志;牧野昭二
- 通讯作者:牧野昭二
Semi-supervised learning using weakly labeled data generated by GAN in sound event detection
在声音事件检测中使用 GAN 生成的弱标记数据进行半监督学习
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Kazuya Ouma;Takeshi Yamada;Shoji Makino
- 通讯作者:Shoji Makino
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山田 武志其他文献
文字供養に見る日本人の供養意識と彼我の温度差 : 文字を惜しむ
日本民众追悼意识与书面追悼会所见的温差:对书面文字感到遗憾。
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
高橋 玄;山田 武志;小野 順貴;牧野 昭二;安本真也・横田崇・牛山素行・石黒聡士・関谷直也;相田満 - 通讯作者:
相田満
伝達関数ゲイン基底NMFにおけるマイク数・マイク配置と目的音強調性能の関係
基于传递函数增益的 NMF 中麦克风数量、麦克风放置位置和目标声音增强性能之间的关系
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
村瀬 慶和;千葉 大将;小野 順貴;宮部 滋樹;山田 武志;牧野 昭二 - 通讯作者:
牧野 昭二
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲 - 通讯作者:
中村 哲
ブロックチェーン技術を用いた占有グリッドマップの分散サービス化
使用区块链技术的去中心化服务网格地图
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
高橋 玄;山田 武志;小野 順貴;牧野 昭二;安本真也・横田崇・牛山素行・石黒聡士・関谷直也;相田満;渡辺 陽介 - 通讯作者:
渡辺 陽介
非同期マイクロホンアレーにおける伝達関数ゲイン基底非負値行列因子分解を用いた遠方音源抑圧
异步麦克风阵列中使用传递函数增益基础非负矩阵分解的远距离声源抑制
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
村瀬 慶和;小野 順貴;宮部 滋樹;山田 武志;牧野 昭二 - 通讯作者:
牧野 昭二
山田 武志的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山田 武志', 18)}}的其他基金
マイクロホンアレーを用いた音環境の認識に関する研究
基于麦克风阵列的声音环境识别研究
- 批准号:
12780259 - 财政年份:2000
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
サブシステム群の水平統合に基づく多様な環境に即応できる音響イベント定位・検出
基于子系统水平集成的声学事件定位和检测,可快速响应多样化环境
- 批准号:
24K20807 - 财政年份:2024
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
A study on environmental sound analysis based on unified and continual learning
基于统一持续学习的环境声分析研究
- 批准号:
23K16908 - 财政年份:2023
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Research on Innovative Microphone Array Technology for Recognition and Understanding of Acoustic Environments
用于声学环境识别和理解的创新麦克风阵列技术研究
- 批准号:
19H04131 - 财政年份:2019
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Sound event detection method capable of analyzing any environmental sound
能够分析任何环境声音的声音事件检测方法
- 批准号:
19K20304 - 财政年份:2019
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Research on cooking support using large-scale recipe data based on sound environment understanding and dialogue management technology
基于声环境理解和对话管理技术的大规模菜谱数据烹饪支持研究
- 批准号:
18K11369 - 财政年份:2018
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)