構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究

基于结构不变性定理的听觉、视觉和物理媒体普遍表征的基础研究

基本信息

  • 批准号:
    07F07078
  • 负责人:
  • 金额:
    $ 1.41万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2007
  • 资助国家:
    日本
  • 起止时间:
    2007 至 2008
  • 项目状态:
    已结题

项目摘要

本研究では,線形・非線形を問わず,あらゆる可逆な変換・写像に対して不変な特徴量であるバタチャリヤ距離を用いたメディア情報処理について研究を行なった。主な成果は4つある。一つは1)不変量の一般式を導出したこと。即ち,不変量はf-divergenceでなければならないことを数学的に証明したことである。二つ目は2)話者性による音声の違いを変換・写像として捉えた場合の,その写像関数の推定方法として現在広く使われているGMM法の欠点を明確にし,それを解決する新しい写像推定法を提案したこと,3)f-divergenceに基づく表象は,一般に強すぎる不変性を持つ。これは,対象とする変換群にのみ不変性を示す表象技術を構築する必要があることを意味するが,部分空間への分割,及び部分空間での構造化を通してこの問題を解決したこと,4)更には,音声以外の身体運動メディアに対しても構造表象の応用を検討したこと,である。以下,各々についてより詳細に示す。バタチャリヤ距離が任意の可逆かつ連続的な変換に対しても不変であることを既に証明されていたが,本研究では,バタチャリヤ距離の一般形である,f-divergenceも不変性を満たし,また,不変な尺度はf-divergenceでなければならないという必要性までも証明することに成功した。f-divergenceはバタチャリヤ距離,カルバックライブラ距離など,様々な分布間距離の一般形として位置づけられており,より本質的な意味に置いて,不変表象の数学的基盤を構築することができた。f-divergenceは変換不変であるが,話者の変化はどのような変換関数としてモデル化されるのか?従来この問題はGMMによる変換関数推定が広く行なわれているが,本研究では,この従来法の欠点を明確にし,より正しい最適化手法を用いて変換関数推定を行なう手法を提案した。実験的にも提案手法を用いることで,推定誤差を有意に削減できることを確認した。その一方で,f-divergenceに基づく音声表象は,不変性が極めて強く,例えば,異なる単語が等しいと判定されることが起こりえる。これは,話者の違いも音韻の違いも同一の物理量を変形することが原因であり,一種のトレードオフとなる。結局望まれるのは,話者性だけに不変な制約付きの不変性である。本研究では,話者性の変換がどのような変換群を構成するのかに着眼し,限られた変換群のみに対して不変性が成立する手法を提案し,実験的にその有効性を検証した。また,f-divergenceは事象と事象の差分(間隔)を測る尺度であるため,事象がN個存在する場合は,N(N-1)/2個の測定量が得られ,パラメータ次元数が容易に増加する。この効果を削減するために,LDAやPCAの効果的導入をはかり,eigen structureと呼ばれる特徴量表現を提案するに至った。更に,非音声メディアでの応用事例として,構音障害者支援のための「話す手」プロジェクトにおいて,構造表象を応用した。ここではデータグローブから得られる手(指)の姿勢に応じて音声が生成されるシステムの開発である。手の姿勢空間と音色の空間とに写像を張り,手を動かす事で様々な声を生成する。ここでも,構造表象の導入により最適姿勢の決定を行なう等,一定の成果を出すことができた。
This study で は, linear, nonlinear を asked わ ず, あ ら ゆ る reversible な variations, in writing, like に し seaborne て - not な, 徴 quantity で あ る バ タ チ ャ リ を ヤ distance with い た メ デ ィ ア intelligence 処 Richard に つ い て を line な っ た. Main な results な 4 ある ある. 1) The invariant <s:1> general form を leads to た た と と と. That is, ち, the に proof of the invariant <s:1> f-divergenceでなければならな に とを とを とを とを とを とを in mathematics. Two つ mesh は 2) words に よ る sounds の violations い を variations, in writing, like と し て catch え の た situations, そ の write like masato presumption の way と し て now hiroo く make わ れ て い る GMM method is の points less を clear に し, そ れ を solve す る new し い write like presumption method proposed を し た こ と, 3) f - divergence に base づ は く representation, strong に す commonly Youdaoplaceholder0 immutability を holds ぎる. こ れ は, like と seaborne す る variations in group of に の み - sexual を を す representation technology in constructing す る necessary が あ る こ と を mean す る が, part of the space へ の segmentation, and び part space で の structured を tong し て こ の を solve し た こ と, 4) more に は, sounds outside の body movement メ デ ィ ア に し seaborne て も structure representation の 応 with を beg し 検 た こ と, で Youdaoplaceholder0. Below, the details of each 々に, 々に, てよ, てよ, に are shown す. バ タ チ ャ リ ヤ arbitrary distance が の reversible か つ even 続 な variations in に し seaborne て も - not で あ る こ と を に prove both さ れ て い た が, this study で は, バ タ チ ャ リ ヤ distance の general shape で あ る, f - divergence も - sexual を against た し, ま た, not - な scale は f - divergence で な け れ ば な ら な い と Youdaoplaceholder2 う necessity まで まで proof する とに success た た. F - divergence は バ タ チ ャ リ ヤ distance, カ ル バ ッ ク ラ イ ブ ラ distance な ど, others 々 な distribution distance between の general shape と し て position づ け ら れ て お り, よ り nature な mean に buy い て, not の mathematics - representation of base plate を build す る こ と が で き た. F - divergence は - in - not で あ る が, の the speaker's words - the は ど の よ う な variations in number of masato と し て モ デ ル change さ れ る の か? 従 to こ の problem は GMM に よ る variations in masato several constructive が hiroo く line な わ れ て い る が, this study で は, こ の 従 to method の points less を clear に し, よ り is し い optimization technique を with い て variations in line masato several constructive を な う technique proposed を し た. Be the 験 に も proposal gimmick を with い る こ と で, presumption error を intentionally に cut で き る こ と を confirm し た. そ の で a party, the f - divergence に base づ く は sounds representation, not - sex が め extremely strong て く, example え ば, different な る が 単 language such as し い と determine さ れ る こ と が up こ り え る. The speaker violates the homophonic sound of を, violates the form of を of the same physical quantity, the reason for する とが, and the cause of であ, ド, フとなる, フとなる and フとなる. The outcome is expected to be まれる and, and the speaker 's だけに invariance な restricts the まれる and <s:1> invariance である. , this study で は words の variations in が ど の よ う な variations in group of を constitute す る の か に し, limit ら れ た variations in group of の み に し seaborne て - not established sex が す る を proposal し approach, be the 験 に そ の have sharper sex を 検 card し た. ま た, f - divergence は things like と things like の difference (interval) を る measurement scale で あ る た め, things like が N existence す は る situations, N (N - 1) / 2 の measured quantity が have ら れ, パ ラ メ ー タ が に easily raised over time plus す る. こ の unseen fruit を cut す る た め に, LDA や PCA の unseen fruit import を は か り, eigen structure と shout ば れ る, 徴 quantity performance を proposal す る に to っ た. More に, sounds メ デ ィ ア で の 応 with case と し て, compose sound barrier against the support の た め の す "words hand" プ ロ ジ ェ ク ト に お い て, structural representation を 応 with し た. こ こ で は デ ー タ グ ロ ー ブ か ら have ら れ る hand (refer to) の posture に 応 じ て sounds が generated さ れ る シ ス テ ム の open 発 で あ る. Hand の posture space と tone の space と に write like を り, hand dynamic か を で す things others 々 な sound を generated す る. Youdaoplaceholder0 で で, construct the image, import によ によ, determine the optimal posture, decide the を row なう, etc., and definitely the result を will be す, す, とがで, た, た.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Training of pronunciation as learning of the sound system embedded in the target language
发音训练即学习目标语言中嵌入的声音系统
Unsupervised optiomal phoneme segmentation: objective, algorithm, and comparisons
无监督最优音素分割:目标、算法和比较
音声の構造的表象に基づく日本語孤立母音系列を対象とした音声認識
基于语音结构表示的日语孤立元音序列语音识别
Mixture of probabilistic linear regression models for voice conversion
用于语音转换的概率线性回归模型的混合
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Y. Qiao;D. Saito;N. Minematsu
  • 通讯作者:
    N. Minematsu
Speech as timbre-based melody--What in parants' voices do infants imitate acoustically?--
言语作为基于音色的旋律——婴儿在听觉上模仿父母的声音中的什么?
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

峯松 信明其他文献

日本語上級中国人学習者と日本語母語話者教師の真偽疑問文と疑問詞疑問文の産出
日语高级汉语学习者及日语母语教师真/假疑问句及疑问疑问句的制作
生成過程モデルに基づく母語話者と中国語話者の日本語朗読音声の基本周波数パターン
基于生成过程模型的母语者和汉语者日语阅读语音的基本频率模式
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    平野 宏子;広瀬 啓吉;河合 剛;顧文 涛;峯松 信明
  • 通讯作者:
    峯松 信明
Effects of English Shadowing Training Using Unlearned Passages on Listening and Speaking Skills
使用未学过的段落进行英语影子训练对听力和口语技能的影响
  • DOI:
    10.24539/let.59.0_77
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中西 のりこ;峯松 信明;椢原 卓弥
  • 通讯作者:
    椢原 卓弥
Evaluation of the Prosodic Naturalness of Japanese Learners’ Utterances after Practicing with OJAD Suzuki-kun
与 OJAD Suzuki-kun 一起练习后日语学习者言语韵律自然度的评估
A viewpoint shift from technical aid for speaking to that for listening: From output to input
从口语技术援助到听力技术援助的观点转变:从输出到输入

峯松 信明的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('峯松 信明', 18)}}的其他基金

Measurement of L2 pronunciation deviation and L2 listening disfluency and its application to prosody training for smooth international communication
二语发音偏差和二语听力不流利度测量及其在国际交流顺畅韵律训练中的应用
  • 批准号:
    23K17459
  • 财政年份:
    2023
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Pioneering)
Measurement and modeling of cognitive breakdown and their use to enhance cognitive robustness for international oral communication
认知崩溃的测量和建模及其用于增强国际口头交流认知稳健性的用途
  • 批准号:
    22H00527
  • 财政年份:
    2022
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Technically-enhanced high variability phonetic training and its effective application to English listening training for Japanese learners
技术强化的高变异性语音训练及其在日语学习者英语听力训练中的有效应用
  • 批准号:
    18F18724
  • 财政年份:
    2018
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
  • 批准号:
    19024023
  • 财政年份:
    2007
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用
整合语言和副语言信息的语音结构表示的提出及其在语音合成中的应用
  • 批准号:
    19650036
  • 财政年份:
    2007
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
  • 批准号:
    18049018
  • 财政年份:
    2006
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
  • 批准号:
    16016219
  • 财政年份:
    2004
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
発音の明瞭性に着眼した発音構造の包括的記述とその語学学習への応用に関する研究
以发音清晰度为核心的发音结构综合描述及其在语言学习中的应用研究
  • 批准号:
    15652033
  • 财政年份:
    2003
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
  • 批准号:
    15017225
  • 财政年份:
    2003
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
人間による音声言語処理過程の分析とそれに立脚した音声対話システムの構築
人类口语处理过程分析及基于其的口语对话系统构建
  • 批准号:
    14019021
  • 财政年份:
    2002
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了