Study on Speaker Individuality in Speech and its Control

言语中说话者个性及其控制研究

基本信息

项目摘要

Although speech can be described by its physical aspects ; that is fine spectral envelopes reflecting vocal tract features and fundamental frequencies related to glottal vibration characteristics, the physical correlates of speaker individuality embedded in the physical aspects have not been discussed in detail. This report investigates speaker individuality in spectral envelopes and fundamental frequency contours. Additionally, this report focuses on speech timbre related to spectral envelope shapes through acoustical features and articulatory movement of lateral misarticulations (LM). The findings lead to the following conclusions.1. Spectral envelope : (1) the peaks in the spectral envelopes are more significant than dips for speaker identification, (2) speaker individuality mainly exists in the frequency band higher than the peak around 1740 Hz, and (3) the voice quality can be controlled by replacing the frequency band of one speaker with that of other speakers.2. Fundamental frequency : (1) Speaker individuality exists in the fundamental frequency contours, (2) some specific parameters related to the height and the timing of the fundamental frequency have more speaker individuality features, and (3) the manipulation of these parameters can control speaker individuality.3. Lateral misarticulation : (1) the spectral envelopes of LM are flat in the frequency band above approximately 4 kHz and there is a substantial peak around 3.2 kHz in LM,which varies with time almost periodically ; (2) the replacement of the spectral envelope between 2.5 and 4.5kHz of normal speech with that of LM resulted in a remarkable increase auditory impressions of LM,and (3) the typical peaks of LM are related to the length and the position of the vocal tract constriction region.
虽然语音可以通过其物理方面来描述,即反映声道特征和与声门振动特性相关的基频的精细频谱包络,但是嵌入在物理方面中的扬声器个性的物理相关性尚未详细讨论。本报告调查了频谱包络和基本频率轮廓中的扬声器个性。此外,这份报告的重点是语音音色相关的频谱包络形状,通过声学特征和发音运动的横向发音错误(LM)。研究结果得出以下结论:1.光谱包络:(1)频谱包络中的峰值比凹陷对说话人识别更重要,(2)说话人个性主要存在于高于1740 Hz附近峰值的频带中,(3)语音质量可以通过用其他说话人的频带替换一个说话人的频带来控制.基频:(1)说话人个性存在于基频轮廓中;(2)与基频的高度和定时相关的一些特定参数更具有说话人个性特征;(3)对这些参数的操纵可以控制说话人个性.横向发音错误:(1)LM的频谱包络在约4kHz以上的频带内是平坦的,并且在LM中在3.2kHz附近存在基本峰值,其几乎周期性地随时间变化;(2)用正常语音的2.5 ~ 4.5kHz的频谱包络代替LM的频谱包络,可使LM的听觉印象显著增加,LM的典型峰与声道缩窄区的长度和位置有关。

项目成果

期刊论文数量(28)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
斉藤,赤木 他: "舌・口底切除症例における構音動態及び音響特性" 電子情報通信学会技術報告. SP(平成10年3月発表予定). (1998)
Saito, Akagi 等人:“舌头和口底切除病例中的发音动力学和声学特征”IEICE SP(计划于 1998 年 3 月出版)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Akagi and Ienaga: "Speaker individualities in fundamental freguency contours and its control" Proc. EUROSPEECH 95. 439-442 (1995)
Akagi 和 Ienaga:“基本频率轮廓中的扬声器个性及其控制”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
北村,赤木: "話者識別に寄与するスペクトル包絡の成分について" 電子情報通信学会技術報告. (平成8年3月発表予定).
Kitamura、Akagi:“关于有助于说话人识别的频谱包络成分”IEICE 技术报告(计划于 1996 年 3 月出版)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Akagi M.et.al.: "Perception of lateral misarticulation and its physical correlates" Proc.ASA-ASJ Joint Meeting. 933-936 (1996)
Akagi M.et.al.:“横向错位的感知及其物理相关性”Proc.ASA-ASJ 联合会议。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
赤木,高木,北村,鈴木,藤田,道: "側音化構音の知覚と物理関連量" 電子情報通信学会技術報告. SP96-34. (1996)
Akagi、Takagi、Kitamura、Suzuki、Fujita、Michi:“侧向关节的感知和物理相关量”IEICE 技术报告(1996)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

AKAGI Masato其他文献

AKAGI Masato的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('AKAGI Masato', 18)}}的其他基金

A study on new strategy of emotion recognition in speech
语音情感识别新策略研究
  • 批准号:
    22650032
  • 财政年份:
    2010
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
A study on measurement of brain activities with speech production and perception under transferred auditory feedback conditions
转移听觉反馈条件下言语产生和感知的大脑活动测量研究
  • 批准号:
    20300064
  • 财政年份:
    2008
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
A study on interaction between production and perception in speech communication
言语交际中产生与感知交互作用的研究
  • 批准号:
    16300053
  • 财政年份:
    2004
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
A study on fluctuation of auditory information based on acoustic information deviations and its perception
基于声信息偏差的听觉信息波动及其感知研究
  • 批准号:
    13610079
  • 财政年份:
    2001
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A study on signal extraction in noisy and reverberant environment
噪声混响环境下信号提取的研究
  • 批准号:
    10680374
  • 财政年份:
    1998
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了