相補的な音楽と画像の構成要素間における共起性を考慮した解釈可能な検索・変換の実現

考虑互补音乐和图像成分共现的可解释搜索和转换的实现

基本信息

项目摘要

本年度は、音楽と画像におけるコンテンツデータの差異を超えて、相補的な音楽と画像を双方向に検索可能なクロスモーダル技術の研究開発を実施した。従来の研究における音楽と画像クロスモーダル検索技術の多くは、感情タグやムードタグいったメタデータを利用していた。しかしながら、そのようなメタデータが付与されている音楽と画像のデータは限られており、また、そのようなメタデータを含むデータセットを構築することは多くの労力を要する。この問題に対するアプローチとして、メタデータを利用せず、音楽と画像のコンテンツに基づく検索手法を研究開発した。楽曲とその代表画像(ジャケット画像、サムネイル画像など)といったペアデータに着目し、それらの特徴ベクトルが近くに配置されるような音楽と画像が共有する特徴量空間を構築した。この音楽と画像が共有する特徴量空間を構築する際、学習過程の特徴ベクトルをメモリ上に保存しておき、保存した特徴ベクトルを再度学習に利用する新しいメモリ機構を開発した。実験の結果、従来のコンテンツに基づく検索手法およびメモリ機構と比較して、正しいペアの音楽と画像を検索できることを示した。また、この音楽と画像が共有する特徴量空間では、性質の似たコンテンツ(音楽ジャンルなど)の特徴ベクトルが配置されていることを可視化した。そのためこの技術を用いることで、例えばポピュラー音楽の音楽音響信号をクエリとして、そのクエリにあった画像をメタデータを使わずに検索することが可能となった。これらの成果をまとめた論文がコンピュータビジョンの主要な国際会議であるIEEE/CVF WACV 2023に採択され、2023年1月に口頭、及びポスターで発表した。
This year, the research and development of technology for exploring the possibility of two-way communication between sound and image has been carried out. In recent years, research has been carried out on the use of sound and image technologies. The music and pictures are limited to the music and pictures, and the music and pictures are limited to the pictures. The problem is to develop a basic search method for the use of audio and video. The representative image of the song ( When constructing the feature space shared by the sound and image, the feature space of the learning process is preserved, the feature space is preserved, and the new feature space is utilized for re-learning. The result of the experiment is that the basic search method and the mechanism are compared, and the sound and image are displayed The feature space of the sound and image is visualized. For example, if you want to use the technology, you can use the technology. The results were presented at major international conferences such as IEEE/CVF WACV 2023, and in January 2023.

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Content-Based Music-Image Retrieval Using Self- and Cross-Modal Feature Embedding Memory
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

中塚 貴之其他文献

スペクトログラムとピッチグラムの深層クラスタリングに基づく複数楽器パート採譜
基于声谱图和音调图深度聚类的多乐器声部转录
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田中 啓太郎;中塚 貴之;錦見 亮;吉井 和佳;森島 繁生
  • 通讯作者:
    森島 繁生
深層クラスタリングを用いた任意楽器パートの自動採譜
使用深度聚类自动转录任意仪器部件
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田中 啓太郎;中塚 貴之;錦見 亮;吉井 和佳;森島 繁生
  • 通讯作者:
    森島 繁生

中塚 貴之的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

確率統計的アプローチに基づく旋律モデルを用いた音楽情報処理の研究
基于随机统计方法的旋律模型音乐信息处理研究
  • 批准号:
    11J09662
  • 财政年份:
    2011
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
楽譜情報をもとにした音楽活動の数理モデル化と音楽情報処理に関する研究
基于乐谱信息的音乐活动数学建模及音乐信息处理研究
  • 批准号:
    10J06240
  • 财政年份:
    2010
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
聴覚モデルに基づく新しい人工内耳の音声・音楽情報処理の研究
基于听觉模型的新型人工耳蜗语音和音乐信息处理研究
  • 批准号:
    19650038
  • 财政年份:
    2007
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
感性状態を考慮に入れた学習に基づく音楽情報処理(やすらぎ音楽生成システムの開発)
基于考虑情绪状态的学习的音乐信息处理(轻松音乐生成系统的开发)
  • 批准号:
    14780307
  • 财政年份:
    2002
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了