Music Information Processing Using Continuous Speech Recognition Methods

使用连续语音识别方法的音乐信息处理

基本信息

  • 批准号:
    14380156
  • 负责人:
  • 金额:
    $ 10.82万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2002
  • 资助国家:
    日本
  • 起止时间:
    2002 至 2004
  • 项目状态:
    已结题

项目摘要

We formulated music rhythm recognition for ranscribing MIDI data into music score as a Viterbi path search problem in HMM where hidden states and output probabilities represent the intended note values and actually played note lengths, respectively. We also solved rhythm recognition of polyphonic music by reducing polyphony intomonophony. Tempo modeling and tempo change detection were enabled with segmental k-means algorithm for speech recognition.Harmonization (chord finding) of given melodies was formulated as an isomorphic problem as continuous speech recognition by defining output by the given melody, hidden states by the chord behind the melody and stochastic language model by chord sequences. Automatic counterpoint was developed with a two-step maximum likelihood approach consisting of rhythm design and pitch allocation solved by dynamic programming.In polyphonic signal analysis, an algorithm named Harmonic-structured Clustering was developed based on the k-means clustering algorithm under harmonic constraint by modeling the framewise observed spectrum as overlapped harmonic structures and considering that the distributed energy in harmonic structure belongs to a single cluster. Furthermore, by introducing the probabilistic assignment to clusters, k-means was generalized into the EM-algorithm and attained higher performance of multi-pitch estimation. Utilizing an information criterion such as AIC, the number of sources and octave location were also enabled."Specmurt analysis" was proposed for polyphonic signal analysis. The inverse Fourier transform of linear spectrum with log-frequency was called "specmurt". Along log-scaled frequency, observed linear spectrum is regarded as convolution of distribution density of fundamental frequencies and harmonic structures of multiple tones which are assumed identical. This idea opened up a new signal processing capabilities.
我们为将MIDI数据称为hmm中的Viterbi路径搜索问题而制定了音乐节奏识别,其中隐藏的状态和输出概率代表了预期的注释值,并且分别播放了音符长度。我们还通过减少多相插曲来解决对复音音乐的识别。使用节度k-均值算法进行语音识别算法实现了节奏建模和速度变化检测。给定旋律的harmonization(和弦发现)被作为一个同构问题,作为同构问题作为连续的语音识别,通过通过旋律和结式模型在旋律和固定语言模型背后通过旋律的隐藏状态定义给定的旋律来识别持续的语音识别。自动对位的开发是通过动态编程通过节奏设计和俯仰分配组成的两步​​最大似然方法开发的。在多音信号分析中,一种算法的算法是基于k-means群集群集算法在谐波中构建型号的单个型号的谐波结构,并考虑了谐波构造的谐波,并考虑了谐波构造的谐波,并考虑了谐波构造的谐波,并考虑了谐波构造的谐波,并在谐波中建立了谐波,并在谐波上进行了谐波,并考虑了谐波构造的谐波,并将其视为谐波结构。 簇。此外,通过将概率分配引入簇,K-均值被推广到EM-Algorithm中,并获得了更高的多核估计效果。还启用了使用信息标准,例如AIC,源和八度位置的数量。“ SpecMurt Analysis”提出了用于多音信号分析的“ SpecMurt Analysis”。线性频谱的逆傅立叶变换使用对数频率称为“ SpecMurt”。沿着对数尺度的频率,观察到的线性光谱被认为是假定相同的多种音调的基本频率和谐波结构的分布密度的卷积。这个想法打开了新的信号处理功能。

项目成果

期刊论文数量(223)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Rhythm Recognition of Multiphonic MIDI Signals Using Probabilistic Models
使用概率模型识别多音 MIDI 信号的节奏
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Haruto Takeda;Takuya Nishimoto;Shigeki Sagayama
  • 通讯作者:
    Shigeki Sagayama
リズム語彙を用いたHMMによるMIDI演奏のリズムとテンポ推定
使用节奏词汇使用 HMM 进行 MIDI 演奏的节奏和节奏估计
調波スペクトル分離の原理Harmonic Clusteringと赤池情報量規準による多声部楽曲音響信号の同時発音数および多重ピッチの推定
使用谐波聚类、谐波频谱分离原理和 Akaike 信息准则估计复调音乐音频信号的同时语音数量和多个音高
Extraction of Multiple Fundamental Frequencies from Polyphonic Music Using Harmonic Clustering
使用谐波聚类从复调音乐中提取多个基本频率
Time-Space Clustering for Multi-pitch Spectral Segregation Using Kernel Audio Stream Model
使用内核音频流模型进行多音高频谱分离的时空聚类
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

SAGAYAMA Shigeki其他文献

DNN-Based Full-Band Speech Synthesis Using GMM Approximation of Spectral Envelope
使用频谱包络 GMM 近似的基于 DNN 的全频带语音合成
  • DOI:
    10.1587/transinf.2020edp7075
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0.7
  • 作者:
    KOGUCHI Junya;TAKAMICHI Shinnosuke;MORISE Masanori;SARUWATARI Hiroshi;SAGAYAMA Shigeki
  • 通讯作者:
    SAGAYAMA Shigeki

SAGAYAMA Shigeki的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('SAGAYAMA Shigeki', 18)}}的其他基金

Versatile music processing by combining statistical signal processing and music theory
结合统计信号处理和音乐理论的多功能音乐处理
  • 批准号:
    23240021
  • 财政年份:
    2011
  • 资助金额:
    $ 10.82万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Analysis, Recognition, Manipulation and Generation of Music Signal and Information based on Mathematical Models
基于数学模型的音乐信号和信息的分析、识别、操纵和生成
  • 批准号:
    20240017
  • 财政年份:
    2008
  • 资助金额:
    $ 10.82万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Research on Signal and Information Processing for Automatic Music Analysis, Recognition and Generation
自动音乐分析、识别和生成的信号和信息处理研究
  • 批准号:
    17300054
  • 财政年份:
    2005
  • 资助金额:
    $ 10.82万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Recognition of Cursive/Blind Kanji Handwriting Utilizing the Contuinous Speech Recognition Approach
利用连续语音识别方法识别草书/盲汉字手写体
  • 批准号:
    11480074
  • 财政年份:
    1999
  • 资助金额:
    $ 10.82万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)

相似国自然基金

基于音乐内容分析的音频版权认证方法研究
  • 批准号:
    61901356
  • 批准年份:
    2019
  • 资助金额:
    25.5 万元
  • 项目类别:
    青年科学基金项目
基于多维特征分析的音画情感联觉检索研究
  • 批准号:
    61402141
  • 批准年份:
    2014
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
面向智能信息处理的高级音频信息认知规律及其应用研究
  • 批准号:
    61171186
  • 批准年份:
    2011
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目

相似海外基金

Functional and structural characterization of human auditory cortex using high resolution MRI
使用高分辨率 MRI 表征人类听觉皮层的功能和结构
  • 批准号:
    10728782
  • 财政年份:
    2023
  • 资助金额:
    $ 10.82万
  • 项目类别:
MULTIREGIONAL ELECTRICAL ENCODING OF SOCIAL AGGRESSION
社会攻击的多区域电编码
  • 批准号:
    10583574
  • 财政年份:
    2021
  • 资助金额:
    $ 10.82万
  • 项目类别:
MULTIREGIONAL ELECTRICAL ENCODING OF SOCIAL AGGRESSION
社会攻击的多区域电编码
  • 批准号:
    10388271
  • 财政年份:
    2021
  • 资助金额:
    $ 10.82万
  • 项目类别:
Elucidating mechanisms underlying fluctuations of sustained attention and their influence on memory
阐明持续注意力波动的机制及其对记忆的影响
  • 批准号:
    10196922
  • 财政年份:
    2020
  • 资助金额:
    $ 10.82万
  • 项目类别:
Elucidating mechanisms underlying fluctuations of sustained attention and their influence on memory
阐明持续注意力波动的机制及其对记忆的影响
  • 批准号:
    10413923
  • 财政年份:
    2020
  • 资助金额:
    $ 10.82万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了