多チャネル音源分離のための独立非全結合型深層学習行列分析の提案
多通道声源分离的独立非全连接深度学习矩阵分析的提出
基本信息
- 批准号:20K11886
- 负责人:
- 金额:$ 2.16万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2020
- 资助国家:日本
- 起止时间:2020-04-01 至 2023-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
従来の IDLMA は音源モデル推定ネットワークに全結合型 NN を用いている.IDLMA の音源モデル推定ネットワークには分離対象音源の振幅スペクトログラムを利用する必要がある.本研究では IDLMA の音源モデル推定ネットワークに,振幅スペクトログラムを出力可能な U-Net を用いることによって IDLMAの音源分離精度の向上を確認した.また U-Net に整数次倍音の振幅 (ピーク) を抽出するフィルタを組み込むことによって,U-Net 自身の精度向上も確認し,そのフィルタ付き U-Net を IDLMA に組み込むことで更に精度向上を図った.U-Net は元来,医科学分野の画像セグメンテーションのために開発された手法である.音声や楽器音は倍音というものを含んでいる.例えば楽器で A4 の音を出したと仮定する.A4 の周波数は一般的に 440Hz とされている.実際に楽器から発せられる音は,440Hzの他に整数倍の周波数付近の音が出ている.これらの波のことは整数次倍音と呼ばれている.またその他の周波数帯に発せられている音より大きな振幅になる特徴を持つ.この特徴を U-Net に取り入れた.IDLMA の音源モデル推定に U-Net を用いることで,精度向上が可能なことを確認した.また U-Net に整数次倍音による振幅のピークを抽出するフィルタを取り入れることで U-Net 自身の精度向上に寄与できることを確認した.今後の課題としてU-Net+IDLMA のパーミュテーション問題解決を行うこと,音源種類ごとに倍音を学習するネットワークの構築などが考えられる.
The IDLMA is used to estimate the amplitude of the sound source, and the IDLMA is used to estimate the amplitude of the sound source. In this study, the accuracy of IDLMA sound source separation was confirmed. U-Net is an integral multiple of the amplitude of the tone (s) extracted, the accuracy of the U-Net itself is confirmed upward, and the accuracy of the U-Net IDLMA group is confirmed upward.U-Net is an element of the medical science division of the picture. The sound of the sound is not the sound of the sound. For example, the frequency of A4 is constant. The frequency of A4 is normal at 440Hz. In the meantime, the sound of the generator is transmitted, and the sound of the 440Hz and other integer multiples of the number of cycles is transmitted. The whole number of times the sound is repeated. The frequency band of the other frequencies is transmitted to the sound, the amplitude and the characteristic. This feature is extracted from U-Net.IDLMA's sound source is estimated from U-Net. The accuracy is up. U-Net integer tone extraction The future problems of U-Net+IDLMA are: how to solve the problem, how to learn the sound source type, how to construct the sound source structure, how to solve the problem.
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
U-Net を用いた IDLMA によるボーカル音源の分離
使用 U-Net 使用 IDLMA 进行人声声源分离
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Pradipta Sasmal;Manas Kamal Bhuyan;Yuji Iwahori;三坂孝志;衛藤吉彦 吉村宏紀 西山正志 岩井儀雄
- 通讯作者:衛藤吉彦 吉村宏紀 西山正志 岩井儀雄
DNN を利用した音源モデルが IDLMA の性能に与える影響の調査・検討
使用 DNN 的声源模型对 IDLMA 性能影响的调查和检验
- DOI:
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:Ihara Urumu;Takafumi Katayama;Tian Song;Takashi Shimamoto;衛藤 吉彦 ,吉村 宏紀,西山 正志,岩井 儀雄
- 通讯作者:衛藤 吉彦 ,吉村 宏紀,西山 正志,岩井 儀雄
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
吉村 宏紀其他文献
河川の横断測量データに基づく水面比高分布を用いた生息場評価法
基于河流断面调查数据的水面高度分布生境评价方法
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
中野 翔太;四元 辰平;吉村 宏紀;西山 正志;岩井 儀雄;菅原 一孔;難波啓一;Kunimasa Miyazaki;竹門康弘・小林草平・崔 美景・寺田匡徳・竹林洋史・角 哲也 - 通讯作者:
竹門康弘・小林草平・崔 美景・寺田匡徳・竹林洋史・角 哲也
視線位置分布を用いたランダムフォレスト改良による人物性別の認識
利用注视位置分布改进随机森林来识别人类性别
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
山口 紗也加;吉村 宏紀;西山 正志;岩井 儀雄 - 通讯作者:
岩井 儀雄
身体動揺を用いた人物対応付けにおける待ち姿勢の影響調査
利用身体摇摆研究等待姿势对人员匹配的影响
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
山口 優太;神谷 卓也;吉村 宏紀;西山 正志;岩井 儀雄 - 通讯作者:
岩井 儀雄
身体動揺を用いた人物対応付けにおける立ち位置変動の影響調査
利用身体摇摆研究站立位置变化对人物匹配的影响
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
神谷 卓也;安形 俊輝;吉村 宏紀;西山 正志;岩井 儀雄 - 通讯作者:
岩井 儀雄
吉村 宏紀的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('吉村 宏紀', 18)}}的其他基金
多段砂時計型ニューラルネットワークを用いた背景有色雑音の除去による補聴器の開発
使用多级沙漏神经网络去除背景有色噪声开发助听器
- 批准号:
17700196 - 财政年份:2005
- 资助金额:
$ 2.16万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似国自然基金
基于U-net和Transformer的深度学习模型构建非增强CT急性缺血性脑卒中核心梗死区可视化分割系统
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
免造影剂增强心脏CT技术:深度学习GAN与U-Net架构的融合应用
- 批准号:2025JJ80644
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于两阶段3D U-Net深度学习模型的头颅CT引导三叉神经痛射频穿刺智能教学系统的研发与验证
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于自注意力机制的变异U-Net脑组织图像分割模型研究
- 批准号:
- 批准年份:2023
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于U-Net神经网络亚临床颈动脉斑块量化评估和矩阵多模态融合的心脑血管疾病预警模型研究
- 批准号:62171472
- 批准年份:2021
- 资助金额:62 万元
- 项目类别:面上项目
基于GF-5高光谱影像与U-net深度学习方法的互花米草遥感识别与潜在分布区预测
- 批准号:42001383
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
前列腺癌立体定向放疗中基于U-net和LSTM深度神经网络的肿瘤运动预测方法研究
- 批准号:81972848
- 批准年份:2019
- 资助金额:55.0 万元
- 项目类别:面上项目
基于密集连接残差U-net的深度学习模型在尿道狭窄影像精准诊断与疗效预测的方法学研究
- 批准号:81974264
- 批准年份:2019
- 资助金额:52.0 万元
- 项目类别:面上项目














{{item.name}}会员




