人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
基本信息
- 批准号:16016219
- 负责人:
- 金额:$ 7.42万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research on Priority Areas
- 财政年份:2004
- 资助国家:日本
- 起止时间:2004 至 2005
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
音声によって伝搬される情報は,言語情報,パラ言語情報,非言語情報に分類される。従来の音声情報処理パラダイムでは,まずパラ言語情報を音声の物理現象から分離し,言語情報+非言語情報となった音声に対して,非言語情報の和をとることで(即ち,数千,数万という話者の音声を集めることで)言語情報を抽出する,という方法論を構築してきた。聴覚生理学,脳科学の知見によれば,言語情報と非言語情報は分離して脳で処理されているとのモデルが提案されている。即ち「集めること」なく,両者を分離できる,ということである。本研究では,音声の物理現象から話者,音響機器特性などの静的な非言語情報を分離する枠組みを,脳科学の知見を考慮しつつ提案した。その応用として,一人の話者の音声を用いた不特定話者音声認識や,感情・意図といったパラ言語情報の高精度抽出を実現した。ケプストラムの時系列として表現される音声スペクトルを分布系列へと変換し,任意の二分布間距離と求める。この時,非ユークリッド空間における分布間距離を採用する(バタチャリヤ距離)と,非言語的特徴を表現する数学モデルであるアフィン変換に対して,分布間距離は不変となる。全ての二分布間距離を求めることは,全分布で張られる幾何学構造を規定することに等しいが,距離不変は構造不変の性質をもたらす。これは,構造音韻論と呼ばれる言語学の一分野を数学的,物理学的に解釈することに成功したことを意味する。音的差異(コントラスト)のみに着眼して音声を構造的に表象する方法論に基づいて,音声認識,及び感情・意図推定を検討した。前者については,孤立母音系列という非常に限られたタスクではあるが,四千人以上の音声データを用いた音響モデルよりも高い精度を示し,後者においても,ピッチに関する情報を付与することで従来方法と比較して,より精度の高い方法を実現した。
Audio によって伝 moving される intelligence によって伝, verbal intelligence パラ verbal intelligence, non-verbal intelligence に classification される. 従 to の voice information 処 Richard パ ラ ダ イ ム で は, ま ず パ ラ verbal intelligence を sounds の physical phenomena か ら separation し, verbal intelligence + nonverbal intelligence と な っ た sounds に し seaborne て, nonverbal intelligence の and を と る こ と で (namely ち, thousands, tens of thousands of と い う の sounds of the speaker's words を set め る こ と で) verbal intelligence を spare す る, と い を う methodology to construct し て き Youdaoplaceholder0. Hearing physiology, の 脳 science knowledge に よ れ ば, verbal intelligence と nonverbal intelligence は separation し て 脳 で 処 Richard さ れ て い る と の モ デ ル が proposal さ れ て い る. Namely ち "set め る こ と" な く, who struck を separation で き る, と い う こ と で あ る. This study で は, sounds の physical phenomena か ら words, sound machine features な ど の static な nonverbal intelligence を separation す る 枠 group み を, の 脳 science knowledge を consider し つ つ proposal し た. そ の 応 with と し て, one の の sounds of the speaker's words を with い た no particular words sounds know や, emotion, meaning 図 と い っ た パ ラ verbal intelligence の high-precision extraction を be presently し た. When ケ プ ス ト ラ ム の series と し て performance さ れ る sounds ス ペ ク ト ル を distribution series へ と variations in し, arbitrary の the distance between the two distribution め と o る. こ の, non ユ ー ク リ ッ ド space に お け る distribution distance between を using す る (バ タ チ ャ リ ヤ distance) と, non-verbal, 徴 を performance す る mathematical モ デ ル で あ る ア フ ィ ン variations in に し seaborne て, distribution of the distance between the は - not と な る. All て の the distance between the two distribution を o め る こ と は, full distribution で zhang ら れ る を geometry structure regulation す る こ と に etc し い が, distance is not - は structure - not の nature を も た ら す. こ れ は, tectonic theory of phonological と shout ば れ る words learning の eset を math, physics 釈 に solution す る こ と に successful し た こ と を mean す る. Tone differences (コ ン ト ラ ス ト) の み に eyes し て sounds を constructed に representation す る methodology に base づ い て, sounds, and び feelings presumption, meaning 図 を beg し 検 た. The former に つ い て は, isolated vowels series と い う very に limit ら れ た タ ス ク で は あ る が, more than four thousand people の sounds デ ー タ を with い た sound モ デ ル よ り も high precision い を し, the latter に お い て も, ピ ッ チ に masato す る intelligence を give す る こ と で 従 と compared to method し て, よ り の high precision を い method be presently し た.
项目成果
期刊论文数量(22)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mathematical evidence of the acoustic universal structure in speech
语音中声学通用结构的数学证据
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:峯松信明;西村多寿子;櫻庭京子;N.Minematsu
- 通讯作者:N.Minematsu
Japanese vowel recognition using external structure of speech
使用语音外部结构的日语元音识别
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:T. Murakami;K. Maruyama;N. Minematsu;K. Hirose
- 通讯作者:K. Hirose
The acoustic universal structure in speech and its correlation to para-linguistic information in speech
语音中的声学通用结构及其与语音中的副语言信息的相关性
- DOI:
- 发表时间:2004
- 期刊:
- 影响因子:0
- 作者:丸山;村上;峯松;広瀬;N.Minematsu et al.
- 通讯作者:N.Minematsu et al.
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
峯松 信明其他文献
日本語上級中国人学習者と日本語母語話者教師の真偽疑問文と疑問詞疑問文の産出
日语高级汉语学习者及日语母语教师真/假疑问句及疑问疑问句的制作
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
伊達 宏子;中村 則子;峯松 信明;伊達宏子・花薗悟・郭田夫 - 通讯作者:
伊達宏子・花薗悟・郭田夫
生成過程モデルに基づく母語話者と中国語話者の日本語朗読音声の基本周波数パターン
基于生成过程模型的母语者和汉语者日语阅读语音的基本频率模式
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
平野 宏子;広瀬 啓吉;河合 剛;顧文 涛;峯松 信明 - 通讯作者:
峯松 信明
Effects of English Shadowing Training Using Unlearned Passages on Listening and Speaking Skills
使用未学过的段落进行英语影子训练对听力和口语技能的影响
- DOI:
10.24539/let.59.0_77 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
中西 のりこ;峯松 信明;椢原 卓弥 - 通讯作者:
椢原 卓弥
Evaluation of the Prosodic Naturalness of Japanese Learners’ Utterances after Practicing with OJAD Suzuki-kun
与 OJAD Suzuki-kun 一起练习后日语学习者言语韵律自然度的评估
- DOI:
10.24467/onseikenkyu.23.0_6 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
伊達 宏子;中村 則子;峯松 信明 - 通讯作者:
峯松 信明
A viewpoint shift from technical aid for speaking to that for listening: From output to input
从口语技术援助到听力技术援助的观点转变:从输出到输入
- DOI:
10.20697/jasj.79.3_154 - 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
峯松 信明 - 通讯作者:
峯松 信明
峯松 信明的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('峯松 信明', 18)}}的其他基金
Measurement of L2 pronunciation deviation and L2 listening disfluency and its application to prosody training for smooth international communication
二语发音偏差和二语听力不流利度测量及其在国际交流顺畅韵律训练中的应用
- 批准号:
23K17459 - 财政年份:2023
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for Challenging Research (Pioneering)
Measurement and modeling of cognitive breakdown and their use to enhance cognitive robustness for international oral communication
认知崩溃的测量和建模及其用于增强国际口头交流认知稳健性的用途
- 批准号:
22H00527 - 财政年份:2022
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
Technically-enhanced high variability phonetic training and its effective application to English listening training for Japanese learners
技术强化的高变异性语音训练及其在日语学习者英语听力训练中的有效应用
- 批准号:
18F18724 - 财政年份:2018
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究
基于结构不变性定理的听觉、视觉和物理媒体普遍表征的基础研究
- 批准号:
07F07078 - 财政年份:2007
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
- 批准号:
19024023 - 财政年份:2007
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用
整合语言和副语言信息的语音结构表示的提出及其在语音合成中的应用
- 批准号:
19650036 - 财政年份:2007
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for Exploratory Research
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
- 批准号:
18049018 - 财政年份:2006
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
発音の明瞭性に着眼した発音構造の包括的記述とその語学学習への応用に関する研究
以发音清晰度为核心的发音结构综合描述及其在语言学习中的应用研究
- 批准号:
15652033 - 财政年份:2003
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for Exploratory Research
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
- 批准号:
15017225 - 财政年份:2003
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
人間による音声言語処理過程の分析とそれに立脚した音声対話システムの構築
人类口语处理过程分析及基于其的口语对话系统构建
- 批准号:
14019021 - 财政年份:2002
- 资助金额:
$ 7.42万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas














{{item.name}}会员




