構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
基本信息
- 批准号:19024023
- 负责人:
- 金额:$ 4.8万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research on Priority Areas
- 财政年份:2007
- 资助国家:日本
- 起止时间:2007 至 2008
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では, 線形・非線形を問わず, あらゆる可逆な変換・写像に対して不変な特徴量であるバタチャリヤ距離を用いた音声認識系について研究を行なった。主な成果は4つある。一つは1)不変量の一般式を導出したこと。即ち, 不変量はf-divergenceでなければならないことを数学的に証明したことである。二つ目は2)話者性による音声の違いを変換・写像として捉えた場合の, その写像関数の推定方法として現在広く使われているGMM法の欠点を明確にし, それを解決する新しい写像推定法を提案したこと, 3)f-divergenceに基づく表象は, 一般に強すぎる不変性を持つ。これは, 対象とする変換群にのみ不変性を示す表象技術を構築する必要があることを意味するが, 部分空間への分割, 及び部分空間での構造化を通してこの問題を解決したこと, 4)更には, 実用アプリケーションとして, 外国語発音評価システムを構築したことである。以下, 各々についてより詳細に示す。バタチャリヤ距離が任意の可逆かつ連続的な変換に対しても不変であることを既に証明されていたが, 本研究では, バタチャリヤ距離の一般形である, f-divergenceも不変性を満たし, また, 不変な尺度はf-divergenceでなければならないという必要性までも証明することに成功した。f-divergenceはバタチャリヤ距離, カルバックライブラ距離など, 様々な分布間距離の一般形として位置づけられており, より本質的な意味に置いて, 不変表象の数学的基盤を構築することができた。f-divergenceは変換不変であるが, 話者の変化はどのような変換関数としてモデル化されるのか? 従来この問題はGMMによる変換関数推定が広く行なわれているが, 本研究では, この従来法の欠点を明確にし, より正しい最適化手法を用いて変換関数推定を行なう手法を提案した。実験的にも提案手法を用いることで, 推定誤差を有意に削減できることを確認した。その一方で, f-divergenceに基づく音声表象は, 不変性が極めて強く, 例えば, 異なる単語が等しいと判定されることが起こりえる。これは, 話者の違いも音韻の違いも同一の物理量を変形することが原因であり, 一種のトレードオフとなる。結局望まれるのは, 話者性だけに不変な制約付きの不変性である。本研究では, 話者性の変換がどのような変換群を構成するのかに着眼し, 限られた変換群のみに対して不変性が成立する手法を提案し, 実験的にその有効性を検証した。また, f-divergenceは事象と事象の差分(間隔)を測る尺度であるため, 事象がN個存在する場合は, N(N-1)/2個の測定量が得られ, パラメータ次元数が容易に増加する。これを削減するために, LDAやPCAの効果的導入をはかり, eigen structureと呼ばれる特徴量表現を提案するに至った。更に, 実用アプリケーションとして, 外国語発音の評価システムを構築した。数年後には全ての公立小学校で英語教育が開始される。ここでは話す/聞く教育がメインとなるが, 例えば発音を指導できる教師は非常に限られている。このような情勢を考慮し, 子どもの声であっても頑健に処理できる音声の構造的表象を用いたCALL(Computer Aided Language Learning)システムの構築を行なった。600名以上の学習者の音声を評価し, 発音カルテと呼ばれる診断書の配布などを行なった。
在这项研究中,我们使用Batacharya距离研究了语音识别系统,这是任何可逆转换和映射(无论是线性还是非线性)的不变特征。有四个主要结果。一个是1)得出不变的一般公式。也就是说,这是数学证明的,不变的人必须是f-divermence。第二个是2)它阐明了GMM方法的缺点,GMM方法目前被广泛用作估计映射函数的方法,当绘制函数时,当说话者特征引起的语音差异被视为转换和映射,并提出了一种解决这些问题的新映射估计方法; 3)基于F-Divergence的表示通常太强烈。这意味着有必要构建仅在目标转换组中显示不变性的代表性技术,但是该问题是通过分裂为子空间和子空间中的结构来解决的。 4)此外,构建了外语发音评估系统作为实际应用。这些都在下面更详细地显示。已经证明,巴达查莉亚的距离对于任何可逆和持续的转变都是不变的,但是在这项研究中,F-Divergence是Batacharya距离的一般形式,也满足了不变性,并且已经成功地证明了不变的量表必须是F-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-Divergence。 F-Divergence定位为分布之间的各种距离的一般形式,例如Batacharya距离和Kalback Libra距离,在更重要的意义上,可以为不变表示的数学基础构建数学基础。尽管F-Diverence是变换不变的,但是说话者的更改是什么样的转换功能?尽管此问题已在GMM中广泛使用,但在这项研究中,我们阐明了这种常规方法的缺点,并提出了一种使用更准确的优化方法估算转换函数的方法。已经证实,通过使用实验提出的方法,可以显着降低估计误差。另一方面,基于F-Divergence的语音表示非常不变,例如,可以将不同的单词判断为平等。这是因为说话者和语音差异的差异是从相同的物理数量转化的,这是一种权衡。最后,所需的是不变性,只有说话者的性质才能限制和不变。在这项研究中,我们专注于说话者人格构成的哪种变换组,并提出了一种仅对于有限数量的转换组而存在的方法,并通过实验测试了其有效性。此外,由于f-divergence是测量事件之间差异(间隔)的量度,如果存在n事件,则可以获得n(n-1)/2测量值,并且参数维度的数量很容易增加。为了减少这一点,我们采取了LDA和PCAS的有效引入,并提出了一种称为特征结构的特征表达式。此外,已经构建了用于评估外语发音的系统作为实际应用。几年来,英语教育将在所有公立小学开始。这里的主要重点是说/倾听教育,但是例如,很少有教师可以教授发音。考虑到这种情况,我们使用语音的结构表示构建了一个呼叫(计算机辅助语言学习)系统,这些语音甚至可以加强儿童的声音。从600多名学习者和分布式医疗证书中评估了音频,称为发音图。
项目成果
期刊论文数量(33)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Pronunciation clinic -which part of your pronunciation to correct at first to become like your model speaker?-
发音诊所 - 为了变得像你的模范发音者,首先要纠正哪一部分发音?-
- DOI:
- 发表时间:2008
- 期刊:
- 影响因子:0
- 作者:N. Minematsu;K. Kamata;M. Takazawa;K. Takeuchi;S. Asakawa;T. Makino;Y. Yamauchi;T. Nishimura,' K. Hirose
- 通讯作者:T. Nishimura,' K. Hirose
Training of pronunciation as learning of the sound system embedded in the target language
发音训练即学习目标语言中嵌入的声音系统
- DOI:
- 发表时间:2008
- 期刊:
- 影响因子:0
- 作者:R. Kawai;A. Kashihara;大高泉;N.Minematsu
- 通讯作者:N.Minematsu
Automatic recognition of connected vowels only using speaker-invariant representation of speech dynamics
仅使用语音动态的说话人不变表示来自动识别连接元音
- DOI:
- 发表时间:2007
- 期刊:
- 影响因子:0
- 作者:S. Asakawa;N. Minematsu;K. Hirose
- 通讯作者:K. Hirose
Structural assessment of language learners' pronunciation
语言学习者发音的结构评估
- DOI:
- 发表时间:2007
- 期刊:
- 影响因子:0
- 作者:N. Minematsu;K. Kamata;S. Asakawa;T. Makino;T. Nishimura;K. Hiorse
- 通讯作者:K. Hiorse
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
峯松 信明其他文献
日本語上級中国人学習者と日本語母語話者教師の真偽疑問文と疑問詞疑問文の産出
日语高级汉语学习者及日语母语教师真/假疑问句及疑问疑问句的制作
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
伊達 宏子;中村 則子;峯松 信明;伊達宏子・花薗悟・郭田夫 - 通讯作者:
伊達宏子・花薗悟・郭田夫
生成過程モデルに基づく母語話者と中国語話者の日本語朗読音声の基本周波数パターン
基于生成过程模型的母语者和汉语者日语阅读语音的基本频率模式
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
平野 宏子;広瀬 啓吉;河合 剛;顧文 涛;峯松 信明 - 通讯作者:
峯松 信明
Evaluation of the Prosodic Naturalness of Japanese Learners’ Utterances after Practicing with OJAD Suzuki-kun
与 OJAD Suzuki-kun 一起练习后日语学习者言语韵律自然度的评估
- DOI:
10.24467/onseikenkyu.23.0_6 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
伊達 宏子;中村 則子;峯松 信明 - 通讯作者:
峯松 信明
Effects of English Shadowing Training Using Unlearned Passages on Listening and Speaking Skills
使用未学过的段落进行英语影子训练对听力和口语技能的影响
- DOI:
10.24539/let.59.0_77 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
中西 のりこ;峯松 信明;椢原 卓弥 - 通讯作者:
椢原 卓弥
孤立音正[あ]を聞いて/あ/と同定する能力は音声言語に必要か?
听到孤立的正确声音 [a] 并将其识别为 /a/ 的能力对于口语来说是必要的吗?
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
峯松 信明;他 - 通讯作者:
他
峯松 信明的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('峯松 信明', 18)}}的其他基金
Measurement of L2 pronunciation deviation and L2 listening disfluency and its application to prosody training for smooth international communication
二语发音偏差和二语听力不流利度测量及其在国际交流顺畅韵律训练中的应用
- 批准号:
23K17459 - 财政年份:2023
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Challenging Research (Pioneering)
Measurement and modeling of cognitive breakdown and their use to enhance cognitive robustness for international oral communication
认知崩溃的测量和建模及其用于增强国际口头交流认知稳健性的用途
- 批准号:
22H00527 - 财政年份:2022
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
Technically-enhanced high variability phonetic training and its effective application to English listening training for Japanese learners
技术强化的高变异性语音训练及其在日语学习者英语听力训练中的有效应用
- 批准号:
18F18724 - 财政年份:2018
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究
基于结构不变性定理的听觉、视觉和物理媒体普遍表征的基础研究
- 批准号:
07F07078 - 财政年份:2007
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for JSPS Fellows
言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用
整合语言和副语言信息的语音结构表示的提出及其在语音合成中的应用
- 批准号:
19650036 - 财政年份:2007
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Exploratory Research
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
- 批准号:
18049018 - 财政年份:2006
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
- 批准号:
16016219 - 财政年份:2004
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
発音の明瞭性に着眼した発音構造の包括的記述とその語学学習への応用に関する研究
以发音清晰度为核心的发音结构综合描述及其在语言学习中的应用研究
- 批准号:
15652033 - 财政年份:2003
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Exploratory Research
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
- 批准号:
15017225 - 财政年份:2003
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
人間による音声言語処理過程の分析とそれに立脚した音声対話システムの構築
人类口语处理过程分析及基于其的口语对话系统构建
- 批准号:
14019021 - 财政年份:2002
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
相似海外基金
Study of the splitting-*-homomorphisms by ordered zero completely positive maps and the heredity of invariant properties of C*-algebras
有序零完全正映射的分裂-*-同态及C*-代数不变性质的遗传性研究
- 批准号:
20K03644 - 财政年份:2020
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of para-linguistic information processing systems based on Gestalt perception and understanding of behaviors of individuals with developmental disorder
基于格式塔感知和对发育障碍个体行为的理解的副语言信息处理系统的开发
- 批准号:
23650133 - 财政年份:2011
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
Technical development of environments for learning and teaching foreign languages by using structural representation of pronunciation
利用发音结构表征进行外语学习和教学环境的技术开发
- 批准号:
20300265 - 财政年份:2008
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究
基于结构不变性定理的听觉、视觉和物理媒体普遍表征的基础研究
- 批准号:
07F07078 - 财政年份:2007
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for JSPS Fellows
言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用
整合语言和副语言信息的语音结构表示的提出及其在语音合成中的应用
- 批准号:
19650036 - 财政年份:2007
- 资助金额:
$ 4.8万 - 项目类别:
Grant-in-Aid for Exploratory Research