微分幾何学に基づく音声認識モデル適応法の研究

基于微分几何的语音识别模型自适应方法研究

基本信息

项目摘要

隠れマルコフモデル(HMM)を用いた現代の音声認識技術では、雑音環境・回線・話者などの使用条件が変わると、しばしば大きな性能低下を起こす。その理由は、環境雑音のような加法性要因、マイクロフォンやアンプの特性などのような乗法性要因、さらに話者の相違のように複雑な要素が絡み合っている要因などにより、音声スペクトルが変形するからである。この現象にHMMを適志させる手法において、微分幾何学的な発想で、定式化、アルゴリズム開発、検証を行った。今年度の主な成果を以下に示す。1.微分幾何に基づく音声認識モデルの雑音、チャネル、声道長への同時適応音声認識の音響特徴量としてよく用いられるケプストラム(MFCCもその一種)は、スペクトルを変形させる加法性の要因である雑音スペクトルに対しては非線形な関係を持つ。雑音環境下での音声は、雑音(応力に相当)によってそのケプストラムが歪む。その局所的関係はヤコビ行列(応カテンソルに相当)で表される。これを「ヤコビ適応法」の名で発表して以来、高速で性能が高いことから、国外からも関連研究発表がなされている。今年度は、話者による声道長の相違を、未知の声道長比で表し、観測された特徴量との関係を微分的な観点で局所線形モデルの最小二乗法で未知変数を求めるアルゴリズムを提案した。音声認識実験により、性能が向上することを実証した。2.ピッチ周波数(F_0)を要因とした変形を組み込んだHMMピッチ周波数と音声スペクトル包絡の間には何らかの相関があることは知られている。これを、HMMの隠れ状態ごとの未知のパラメータを含む線形モデルとして解くと、それを推定するEMアルゴリズムとしてはMLLR(最尤線形回帰)法に類似し牟アルゴリズムが導かれる。この方法による認識性能の向上を音声認識実験で実証した。3.雑音、チャネル、Lombard効果発声変形への同時要因推定と適応高騒音下での発声はいわゆるLombard効果により発声変形する、これをスペクトルの周波数軸の非線形伸縮として少数の未知パラメータによりモデル化すると、観測されるケプストラムは微分量で表現でき、雑音、チャネルと併せて同時適応アルゴリズムが構成できる。実験により音声認識性能向上を実証した。
Modern sound recognition technology is used in the field of sound environment, loop and speaker. The reasons are: additive factors of environmental noise, additive factors of characteristics of sound, additive factors of legal factors, contradictory factors of speech, additive factors of complex factors, additive factors of sound, additive factors of sound, and variable factors of sound. This phenomenon is characterized by HMM adaptation, differential geometry development, formalization, development, and verification. The main achievements of this year are shown below. 1. Differential geometry is the basis for sound recognition of sound, sound, and acoustic characteristics of simultaneous sound recognition. Under the sound environment, the sound is opposite to the sound (the sound force is equivalent). The relationship between the company and the company is similar to that of the company. The name of " This year, the speaker's channel length is different, the unknown channel length ratio is different, the measured characteristic quantity is different, the differential point is different, the least square method is different, the unknown number is different, and the method is different. Sound recognition, performance and performance 2. Frequency (F_0) is the most important factor in the formation of frequency (F_0). The HMM state is unknown, and the MLLR(most linear regression) method is similar to the EM state estimation method. The method of recognition of performance and upward sound recognition is realized. 3. Sound, noise, Lombard effect, sound shape, and simultaneous important factors are estimated to be suitable for sound transmission at high frequencies. Non-linear expansion of the cyclic wavenumber axis of the sound transmission is estimated to be suitable for sound shape, sound, and Lombard effect. A small number of unknown factors are estimated to be suitable for sound transmission. The sound recognition performance is up.

项目成果

期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
S.Sagayama, K.Shinoda, M.Nakai, H.Shinmodaira: "Analytic Methods for Acoustic Model Adaptation : A Review"Proceedings of ISCA Workshop on Adaptation Methods (Sophia Antipolice France), Aug 2001. (Invited Paper). 67-76 (2001)
S.Sagayama、K.Shinoda、M.Nakai、H.Shinmodaira:“声学模型适应的分析方法:综述”ISCA 适应方法研讨会论文集(法国 Sophia Antipolice),2001 年 8 月。(特邀论文)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.fujinaga, M.Nakai, H.Shimadaira, S.Sagayama: "Multiple-Regression Hidden Markov Model"Proceedings of ICASSP 2001. (2001)
K.fujinaga、M.Nakai、H.Shimadaira、S.Sagayama:“多重回归隐马尔可夫模型”ICASSP 2001 论文集。(2001)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
H.Shimodaira, N.Sakai, M.Nakai, S.Sagayama: "Jacobian Joint Adaptation to Noise, Channel and Vocal Tract Length"Proceedings of ICASSP2002, Orlando, USA, May 2002. (2002)
H.Shimodaira、N.Sakai、M.Nakai、S.Sagayama:“雅可比联合适应噪声、声道和声带长度”ICASSP2002 会议记录,美国奥兰多,2002 年 5 月。(2002 年)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
坂井 伸圭, 中井 満, 下平 博, 嵯峨山 茂樹: "ヤコビ適応法を用いた雑音環境・伝達特性・話者への同時適応"日本音響学会2001年秋季研究発表会講演論文集,3-1-21,, Oct. 133-134 (2001)
Nobukei Sakai、Mitsuru Nakai、Hiroshi Shimodaira、Shigeki Sagayama:“使用雅可比适应方法同时适应噪声环境、传递特性和扬声器”日本声学学会2001年秋季研究会议论文集,3-1 -21 ,, 十月 133-134 (2001)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
加藤裕,赤江俊彦,中井満,下平博,嵯峨山茂樹: "ヤコビ適応法を用いた雑音環境と伝達特性への同時適応"日本音響学会2000年秋季研究発表会講演論文集,1-5-9. 17-18 (2000)
Yutaka Kato、Toshihiko Akae、Mitsuru Nakai、Hiroshi Shimodaira、Shigeki Sagayama:“使用雅可比适应方法同时适应噪声环境和传递特性”日本声学学会 2000 年秋季研究会议论文集,1-5-9 17-18(2000)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

嵯峨山 茂樹其他文献

ステレオ分散録音された対話音声に対するDNNを用いた発話区間検出
使用 DNN 对立体声分布式录音中录制的对话语音进行话语片段检测
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    河内 秀人;若林 佑幸;小野 順貴;越智 景子;大和田 啓峰;児島 正樹;嵯峨山 茂樹;山末 英典
  • 通讯作者:
    山末 英典
介護老人保健施設の入居者と自動伴奏システムとのインタラクション
敬老院住客与自动陪伴系统互动
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    齋藤 康之;坂井 康二;五十嵐 優;阿方 俊;嵯峨山 茂樹
  • 通讯作者:
    嵯峨山 茂樹
調波構造・時間包絡・音色の等号的クラスタリング(HTTC)による複数楽器音楽信号の楽音分析
使用和声结构、时间包络和音色等效聚类 ​​(HTTC) 对多乐器音乐信号进行音调分析
弾き直しに対応した模範演奏との比較可視化によるピアノ練習支援
通过与支持重播的模型演奏的可视化比较来支持钢琴练习
音型のエントロピーに基づく合奏曲のピアノへの自動編曲
基于音型熵的钢琴合奏曲自动编排

嵯峨山 茂樹的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('嵯峨山 茂樹', 18)}}的其他基金

Automated Music Composition, Lyrics Generation and Accompaniment from the Speech Recognition Approach
利用语音识别方法自动作曲、生成歌词和伴奏
  • 批准号:
    21H03462
  • 财政年份:
    2021
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
複素スペクトル円心法(CSCC法)によるマイクロホンアレー信号処理に関する研究
复谱圆心法(CSCC法)麦克风阵列信号处理研究
  • 批准号:
    17650045
  • 财政年份:
    2005
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Exploratory Research

相似海外基金

Measurement of physiological load in online learning and verification of the effect of creating a background sound environment
在线学习生理负荷测量及背景音环境营造效果验证
  • 批准号:
    23K11370
  • 财政年份:
    2023
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Elucidation of methods for preserving the sound environment inside and outside urban childcare facilities
阐述城市托儿所内外良好环境的保护方法
  • 批准号:
    23K12742
  • 财政年份:
    2023
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
SOUND, ENVIRONMENT AND AGEING: BRINGING THE OUTSIDE INTO CARE HOMES
声音、环境和老龄化:将外部环境带入疗养院
  • 批准号:
    MR/Y010914/1
  • 财政年份:
    2023
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Research Grant
Design a music education program based on the regional sound environment.
根据区域声环境设计音乐教育方案。
  • 批准号:
    22K20240
  • 财政年份:
    2022
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
Effects of sound environment on infant behaviour and nursery
声音环境对婴儿行为和育儿的影响
  • 批准号:
    20K02647
  • 财政年份:
    2020
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Research for improving the sound environment of the classroom based on the understanding of the sensory characteristics of students with developmental disabilities
基于了解发育障碍学生感官特征的课堂声环境改善研究
  • 批准号:
    19H01706
  • 财政年份:
    2019
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Study of speech signal amplitude and phase reconstructions for understanding sound environment
研究语音信号幅度和相位重建以了解声音环境
  • 批准号:
    19K21546
  • 财政年份:
    2018
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
Research on cooking support using large-scale recipe data based on sound environment understanding and dialogue management technology
基于声环境理解和对话管理技术的大规模菜谱数据烹饪支持研究
  • 批准号:
    18K11369
  • 财政年份:
    2018
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
An investigation on the improvement plan on the construction of space in living spaces and the sound environment in Clubs for After School for Children.
儿童课后俱乐部生活空间建设及声环境改善方案调查
  • 批准号:
    16K00754
  • 财政年份:
    2016
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
System development of critical situation detection based on sound environment estimation
基于声环境估计的危急情况检测系统开发
  • 批准号:
    16K16094
  • 财政年份:
    2016
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了