言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用

整合语言和副语言信息的语音结构表示的提出及其在语音合成中的应用

基本信息

  • 批准号:
    19650036
  • 负责人:
  • 金额:
    $ 2.11万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Exploratory Research
  • 财政年份:
    2007
  • 资助国家:
    日本
  • 起止时间:
    2007 至 2008
  • 项目状态:
    已结题

项目摘要

音声が運ぶ情報は大きく,言語的情報,パラ言語的情報,非言語的情報に分かれる。我々は音声から非言語的情報に相当する音響特徴量のみを分離する方法を提案している。年齢・性別による音声の音響的変形,収録機器・伝送機器による音声の音響的変形はいずれも,静的な空間写像として数学的にモデル化できる。よって,写像不変量でもって音声を表象・モデル化することで,静的な変形(変換)に不変な音声情報処理が可能となる。我々は分布間の距離尺度であるf-divergenceが如何なる変換に対しても不変であることを証明しており,発声中の全ての音響事象を分布として捉え,任意の二分布間(事象間)距離を計測し,距離行列として音声を(話者不変的に)表象する手法を提案している。距離行列は一つの幾何学的形態を規定するため,これを音声の構造的表象と呼んでいる。非言語情報がそぎ落とされるということは,言語情報とパラ言語情報のみが表象された音声表象であることを意味する。本研究では,この構造表象に対して,非言語的情報である話者の性別,年齢,体格(即ち声道形状)を戻すことで音声を生成する枠組みを検討した。即ち,言語情報,パラ言語情報は構造として与えられ,その構造を音に変換する声道の長さや形状の情報(非言語的情報)を付与することで音に変換する枠組みである。具体的には,幾つかの既に実現された音事象を初期条件として与え,構造的表象を制約条件としてその後の音事象を次々と音響空間内に定位する方法を採択した。この場合,定位済みの事象群をn個とすると,このn個の事象を中心とする超楕円を描き,n個の超楕円の交点が次に生成すべき音の定位場所,となる。この探索問題を計算機上に実装し,また,いくつかの高速化アルゴリズムを検討することで,現実的な計算量で構造からの音声生成を可能にした。この音声生成方式は,言語情報+パラ言語情報が混在した音声表象(構造的表象)を出発点として音を導出するという点が従来の音声生成方式とは大きく異なる。
Sound が transport ぶ information く large く く, verbal information パラ verbal information, non-verbal information に divided into れる れる. I 々 は sounds か ら nonverbal intelligence に quite す る acoustics, 徴 quantity の み を separation す る method proposed を し て い る. Years 齢 · gender に よ る sounds の sound variations of shape, 収 record machine, 伝 send machine に よ る sounds の acoustics - shape は い ず れ も, static な space to write like と し て mathematical に モ デ ル change で き る. よ っ て, write like no - で も っ て sounds を representation, モ デ ル change す る こ と で, static な (-) - shape に - not な sounds intelligence 処 Richard が may と な る. I 々 は の distance between distribution scale で あ る f - divergence が how な る variations in に し seaborne て も - not で あ る こ と を prove し て お り, the sound 発 の all て の sound things like を distribution と し て catch え, arbitrary の (things like between) distance between two distribution を measuring し, distance among と し て sounds を representation (words - not に) す る gimmick し を bill Youdaoplaceholder0 て る. The distance between the rows and columns を - the shape of <s:1> geometry を stipulates するため, れを れを the appearance of the structure of the sound <s:1> と call んで る る る. Nonverbal intelligence が そ ぎ fall と さ れ る と い う こ と は, verbal intelligence と パ ラ verbal intelligence の み が representation さ れ た sounds representation で あ る こ と を mean す る. This study で は, こ の structure representation に し seaborne て, nonverbal intelligence で あ る の gender, the speaker's words in 齢, physique (namely ち channel shape) を 戻 す こ と で sounds を generated す る 枠 group み を beg し 検 た. Namely ち, verbal intelligence, パ ラ verbal intelligence は tectonic と し て and え ら れ, そ を sound に の structure variations in す る long track の さ や shape の intelligence (nonverbal intelligence) を give す る こ と で sound に variations in す る 枠 group み で あ る. Specific に は, several つ か の に both be presently さ れ た sound things like を initial conditions と し て え and structural representation を restriction conditions と し て そ の sound things like を time since の 々 に と acoustics space positioning す る method を mining 択 し た. こ の occasions, positioning 済 み の thing elephant を n と す る と, こ の n の things like を center と す る super 楕 has drifted back towards &yen; を tracing き, n の super 楕 has drifted back towards &yen; の intersection が times に generated す べ き の positioning places, と な る. こ の explore problems に を computer be し, ま た, い く つ か high speed の ア ル ゴ リ ズ ム を beg す 検 る こ と で, now be な computation で tectonic か ら の sounds possible に を し た. こ の way sounds generated は, verbal intelligence + パ ラ verbal intelligence が mixed し た representation (construction) sounds representation を と 発 point し て sound を export す る と い う point が 従 to の sounds generation と は big き く different な る.

项目成果

期刊论文数量(17)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

峯松 信明其他文献

日本語上級中国人学習者と日本語母語話者教師の真偽疑問文と疑問詞疑問文の産出
日语高级汉语学习者及日语母语教师真/假疑问句及疑问疑问句的制作
生成過程モデルに基づく母語話者と中国語話者の日本語朗読音声の基本周波数パターン
基于生成过程模型的母语者和汉语者日语阅读语音的基本频率模式
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    平野 宏子;広瀬 啓吉;河合 剛;顧文 涛;峯松 信明
  • 通讯作者:
    峯松 信明
Effects of English Shadowing Training Using Unlearned Passages on Listening and Speaking Skills
使用未学过的段落进行英语影子训练对听力和口语技能的影响
  • DOI:
    10.24539/let.59.0_77
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中西 のりこ;峯松 信明;椢原 卓弥
  • 通讯作者:
    椢原 卓弥
Evaluation of the Prosodic Naturalness of Japanese Learners’ Utterances after Practicing with OJAD Suzuki-kun
与 OJAD Suzuki-kun 一起练习后日语学习者言语韵律自然度的评估
A viewpoint shift from technical aid for speaking to that for listening: From output to input
从口语技术援助到听力技术援助的观点转变:从输出到输入

峯松 信明的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('峯松 信明', 18)}}的其他基金

Measurement of L2 pronunciation deviation and L2 listening disfluency and its application to prosody training for smooth international communication
二语发音偏差和二语听力不流利度测量及其在国际交流顺畅韵律训练中的应用
  • 批准号:
    23K17459
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Pioneering)
Measurement and modeling of cognitive breakdown and their use to enhance cognitive robustness for international oral communication
认知崩溃的测量和建模及其用于增强国际口头交流认知稳健性的用途
  • 批准号:
    22H00527
  • 财政年份:
    2022
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Technically-enhanced high variability phonetic training and its effective application to English listening training for Japanese learners
技术强化的高变异性语音训练及其在日语学习者英语听力训练中的有效应用
  • 批准号:
    18F18724
  • 财政年份:
    2018
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究
基于结构不变性定理的听觉、视觉和物理媒体普遍表征的基础研究
  • 批准号:
    07F07078
  • 财政年份:
    2007
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
  • 批准号:
    19024023
  • 财政年份:
    2007
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
  • 批准号:
    18049018
  • 财政年份:
    2006
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
  • 批准号:
    16016219
  • 财政年份:
    2004
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
発音の明瞭性に着眼した発音構造の包括的記述とその語学学習への応用に関する研究
以发音清晰度为核心的发音结构综合描述及其在语言学习中的应用研究
  • 批准号:
    15652033
  • 财政年份:
    2003
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
  • 批准号:
    15017225
  • 财政年份:
    2003
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
人間による音声言語処理過程の分析とそれに立脚した音声対話システムの構築
人类口语处理过程分析及基于其的口语对话系统构建
  • 批准号:
    14019021
  • 财政年份:
    2002
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了