Mathematical Deepening of Audio Source Separation Based on Independence and Amplitude/Phase Modeling and Development of Multimodal Hearing-Aid system

基于独立性和幅度/相位建模的音频源分离的数学深化及多模助听系统的开发

基本信息

  • 批准号:
    22H03652
  • 负责人:
  • 金额:
    $ 11.07万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

本研究は,音響信号を対象とした音源分離技術の数理的深化と高性能化を目的とする.音源分離とは,複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である.特に,マイクの配置や音源位置,部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離(BSS)」と呼ばれる技術は,実用化と多くの応用が期待されている.しかし,BSSは事前情報が与えられない問題であり,現在でも実用化困難なレベルの性能である.本研究では,申請者が過去に提案したBSSフレームワークを大きく拡張することを目的としている.具体的には,これまで無視されてきた音の位相を表現する代数的・統計的数理モデルの構築と応用(数理的深化),深層学習に基づく様々な音の位相の教師有りモデリング(データ的拡張),ユーザと協働するインタラクティブ音源分離システムを搭載した補聴器の開発(応用的実装)の3つを主軸にした理論拡充に取り組む.課題遂行1年目の令和4年度では,時間周波数領域における位相情報(位相スペクトログラム)の新しい表現形として提案されている「修正位相スペクトログラム」をBSSに活用することについて検討した.修正位相スペクトログラムは振幅スペクトログラムと同様に音源の時間周波数構造が(通常の位相スペクトログラムよりも)はっきりと現れるものであり,位相情報をBSSの音源モデルに組み込む直接的な方法と考えている.しかしながら,修正位相スペクトログラム領域のBSSは信号の復元に分離音の位相スペクトログラムが必要となるため,これに対する解決策を考える必要がある.そこで令和4年度では,修正位相スペクトログラムの検討の前段階として,「時間微分複素スペクトログラム」を用いたBSSについて実験的な調査を実施した.調査結果として,時間微分複素スペクトログラムでも通常のBSSと同程度の性能が得られることを確認した.
This study, the object of audio signal を と た た the source separation technology of sound <s:1> the deepening of mathematics と the high performance を aims at とする. The topic of sound source separation と と, mixed multiple <s:1> sound sources が, <s:1> た観 signal measurement ら ら, and presumption of <s:1> 々 <s:1> sound source signals before mixing する is である. に, マ イ ク の configuration や sound source location, izutsu の reverberation や shapes such as intelligence and other necessary と を の advance し な い "ブ ラ イ ン ド audio source separation (BSS)" と shout ば れ は る technology, be use change と much く の 応 with が expect さ れ て い る. <s:1> で である, BSS <s:1> prior intelligence が and えられな えられな problems であ, current で pro practicalization difficulties なレベ である <s:1> performance である. This study で は, applicants が past に proposal し た BSS フ レ ー ム ワ ー ク を big き く company, zhang す る こ と を purpose と し て い る. Specific に は, こ れ ま で ignore さ れ て き た sound の phase を performance す る algebra, statistics of mathematical モ デ ル の build と 応 with deepening of (mathematical), deep learning に base づ く others 々 な sound の phase の teachers have り モ デ リ ン グ (デ ー タ company, zhang), ユ ー ザ と association 働 す る イ ン タ ラ ク テ ィ ブ audio source separation シ ス テ ム を carry し た fill の open 発 聴 device (応 be loaded) の 3 つ を spindle に し た theory company, filling に む り group. Subject carries out mesh の make 1 year and 4 year で は, time cycle for field に お け る phase intelligence (phase ス ペ ク ト ロ グ ラ ム) の new し い performance form と し て proposal さ れ て い る "fixed phase ス ペ ク ト ロ グ ラ ム" を BSS に use す る こ と に つ い て beg し 検 た. Fixed phase ス ペ ク ト ロ グ ラ ム は amplitude ス ペ ク ト ロ グ ラ ム と with others に audio の が time cycle for structure (usually の phase ス ペ ク ト ロ グ ラ ム よ り も) は っ き り と now れ る も の で あ り, phase intelligence を BSS の audio モ デ ル に group み 込 む な method directly と exam え て い る. し か し な が ら, fixed phase ス ペ ク ト ロ グ ラ ム field の BSS は の に separation to recover the sound signal の phase ス ペ ク ト ロ グ ラ ム が necessary と な る た め, こ れ に す seaborne る solving strategy を exam え る necessary が あ る. そ こ で make and 4 year で は, fixed phase ス ペ ク ト ロ グ ラ ム の 検 for front order と の し て, after "time differential element ス ペ ク ト ロ グ ラ ム" を with い た BSS に つ い て be 験 な survey を be applied し た. Survey results と し て, differential time after element ス ペ ク ト ロ グ ラ ム で も usually の BSS と の が performance to the same extent ら れ る こ と を confirm し た.

项目成果

期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction
基于多元广义高斯分布的盲语音提取缺基补秩约束空间协方差矩阵估计
  • DOI:
    10.1186/s13634-022-00905-z
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    1.9
  • 作者:
    Yuto Kondo;Yuki Kubo;Norihiro Takamune ;Daichi Kitamura;and Hiroshi Saruwatari
  • 通讯作者:
    and Hiroshi Saruwatari
DNN-based frequency-domain permutation solver for multichannel audio source separation
基于 DNN 的频域排列求解器,用于多通道音频源分离
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Fumiya Hasuike;Daichi Kitamura;and Rui Watanabe
  • 通讯作者:
    and Rui Watanabe
深層パーミュテーション解決法の汎化性能に関する実験的評価
深度排列求解方法泛化性能实验评估
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    蓮池郁也;北村大地;渡辺瑠伊
  • 通讯作者:
    渡辺瑠伊
周波数双方向再帰に基づく深層パーミュテーション解決法
基于频率双向递归的深度排列求解
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    蓮池郁也;北村大地;渡辺瑠伊;川口翔也
  • 通讯作者:
    川口翔也
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双向 LSTM 响度和 MFCC 幅度谱图预测和评估
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    川口翔也;北村大地
  • 通讯作者:
    北村大地
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

北村 大地其他文献

Hologram Printing Technology (HOPTECH)とその応用
全息打印技术(HOPTECH)及其应用
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    最上 伸一;高宗 典玄;北村 大地;猿渡 洋;高橋 祐;近藤 多伸;中嶋 広明;小野 順貴;S. Kondo;山本健詞
  • 通讯作者:
    山本健詞
コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換
使用上下文后验概率的序列到序列学习进行语音转换
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宇根 昌和;齋藤 佑樹;高道 慎之介;北村 大地;宮崎 亮一;猿渡 洋;高道 慎之介;高道 慎之介;三好 裕之
  • 通讯作者:
    三好 裕之
ポンプ内の摩擦を考慮した紐の運動解析
考虑泵内摩擦的管柱运动分析
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    成澤 直輝;池下 林太郎;高宗 典玄;北村 大地;中村 友彦;猿渡 洋;中谷 智広;松田大作,飯野哲平,廣田恭平,玉井佑,滝沢研二,Tayhun E. Tezduyar
  • 通讯作者:
    松田大作,飯野哲平,廣田恭平,玉井佑,滝沢研二,Tayhun E. Tezduyar
非負値行列因子分解を用いた被り音の抑圧
使用非负矩阵分解抑制重叠声音
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    溝渕 悠朔;北村 大地;中村 友彦;猿渡 洋;高橋 祐;近藤 多伸
  • 通讯作者:
    近藤 多伸
A macroscopic model for understanding lightness optical illusions
理解亮度视错觉的宏观模型
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    最上 伸一;高宗 典玄;北村 大地;猿渡 洋;高橋 祐;近藤 多伸;中嶋 広明;小野 順貴;S. Kondo
  • 通讯作者:
    S. Kondo

北村 大地的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('北村 大地', 18)}}的其他基金

独立性と振幅位相モデルに基づく音源分離の数理的深化及びマルチモーダル補聴器開発
基于独立性和幅相模型的声源分离数学深化及多模态助听器开发
  • 批准号:
    23K24908
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
スパース信号分解に基づく多次元音響メディア情報処理及びその音拡張現実感への応用
基于稀疏信号分解的多维音频媒体信息处理及其在音频增强现实中的应用
  • 批准号:
    14J10796
  • 财政年份:
    2014
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

独立性と振幅位相モデルに基づく音源分離の数理的深化及びマルチモーダル補聴器開発
基于独立性和幅相模型的声源分离数学深化及多模态助听器开发
  • 批准号:
    23K24908
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
脳刺激型補聴器の実現に向けた、コミュニケーション音声脳内処理機構の解明
阐明交流语音的大脑处理机制,实现脑刺激助听器
  • 批准号:
    23K27933
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
歯骨伝導で音の到来方向は知覚可能か? 次世代型歯骨伝導補聴器のための基礎的検討
是否可以通过牙骨传导来感知声音到来的方向?
  • 批准号:
    23K28125
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
老人性難聴用補聴器への話速・音高変換技術の応用
语速/音调转换技术在老年性耳聋助听器中的应用
  • 批准号:
    24K15867
  • 财政年份:
    2024
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
歯骨伝導で音の到来方向は知覚可能か? 次世代型歯骨伝導補聴器のための基礎的検討
是否可以通过牙骨传导来感知声音到来的方向?
  • 批准号:
    23H03435
  • 财政年份:
    2023
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
一側性難聴者の軟骨伝導補聴器による語音聴取改善に関する研究
使用软骨传导助听器改善单侧听力损失者言语可听度的研究
  • 批准号:
    22H04395
  • 财政年份:
    2022
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists
日本における適正な補聴器供給体制の確立に関する研究
日本建立适当的助听器供应体系的研究
  • 批准号:
    20K11168
  • 财政年份:
    2020
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声明瞭度向上を目的とした補聴器におけるノイズフロア決定手法
旨在提高语音清晰度的助听器本底噪声测定方法
  • 批准号:
    19K12908
  • 财政年份:
    2019
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
加齢性難聴に対する補聴器装用聴覚リハビリテーションの考案及びその効果の検討
使用助听器治疗年龄相关性听力损失的听觉康复的进展及其效果研究
  • 批准号:
    24931051
  • 财政年份:
    2012
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists
超磁歪素子を用いた次世代埋め込み型骨導補聴器の開発とその臨床評価
新一代超磁致伸缩植入式骨导助听器的研制及临床评价
  • 批准号:
    24390389
  • 财政年份:
    2012
  • 资助金额:
    $ 11.07万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了