人間による音声言語処理過程の分析とそれに立脚した音声対話システムの構築
人类口语处理过程分析及基于其的口语对话系统构建
基本信息
- 批准号:14019021
- 负责人:
- 金额:$ 4.1万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research on Priority Areas
- 财政年份:2002
- 资助国家:日本
- 起止时间:2002 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では,人と計算機間との音声対話をより高度なものにすることを目的とし,音声中の非語彙情報として「知覚的年齢」の推定に焦点を当て研究を行なった。昨年度の研究では,高齢者と非高齢者との識別を音声情報から行なうことを検討したが,本年度は対象とする年齢幅を広げ,また二値判断ではなく(聞こえとしての)年齢そのものを推定対象とした。まず,計500名からなる幅広い音声データベースに対して聴取実験を通して知覚的年齢ラベリングを施した。この場合,音声中の言語情報(文意)に引きずられずに年齢推定を行なうよう指示した。得られたラベル情報からデータベース話者の知覚的年齢を定義することになるが,この場合,被験者間の平均値を用いて「ラベル」として定義する方法と,知覚的年齢を「分布」として定義する二つの方法を検討した。次に,話者認識技術を用いてデータベース話者の各々をGMMを用いてモデル化した。その結果,入力未知話者音声に対して,データベース話者(約500名)との距離が計算されることになる。この距離値を用いて,ラベル/分布として定義した知覚的年齢の期待値(重み付き平均)を求めることで,未知入力話者の知覚的年齢を推定する。しかしながら,データベース話者の年齢分布に偏りがあるため,この偏りをキャンセルする必要がある。ここでは,年齢の事前分布として一様な分布を想定し,データベースの全話者から等しい距離にある入力話者の推定年齢が一様分布となる(即ち完全な年齢不詳者となる)ようキャンセル関数を用意した。実験の結果,分布としてデータベース話者の知覚的年齢を定義した場合の有効性が示され,また,聴取実験より定義した知覚的年齢と推定年齢とには,ほぼy=xの関係があることを示すことができた。しかし,一部のデータにおいて大きなずれが生じることも実験的に明確になった。種々の検討を行なったが,話者モデリング技術(即ち,音声のスペクトル包絡の時間平均パターンで個人性をモデル化する技術)のみに基づくことの技術的限界点であると考察している。昨年度高齢者同定実験において,パワーの微小変動や,話速などの韻律的特徴の有効性が示されており,これらの有効利用を検討する必要があると考えている。また,年齢同定技術の応用可能性についても検討する必要がある。
This study focuses on the estimation of non-word information in the voice between human and computer. This year's study is based on the analysis of the relationship between the two countries. In addition, 500 people were selected to participate in the annual training program. In this case, the speech information (text) in the sound is introduced into the sound, and the line is presumed to be indicated. In this paper, we discuss the method of defining the average value among the respondents, and the method of defining the distribution of the information. Second, the use of speaker recognition technology to identify the user's various ways of using GMM As a result, the number of incoming speakers is unknown, and the number of incoming speakers (about 500) is calculated. This distance value is used to determine the expected value of the year of knowledge (mean value) and the estimated year of knowledge of unknown entrants. The annual distribution of the speakers is biased, and it is necessary to be biased. The estimated annual distribution of the total number of participants is estimated to be the same as that of the total number of participants. The result of this study is that the distribution of the number of years in which the speaker knows the number of years in which The first part of the book is about the relationship between the two. The boundary point of the basic technology of the technology is to investigate the boundary point of the technology of the technology The characteristics of the rhythm of the speech speed are shown in the same way as those of the previous year, and it is necessary to investigate the use of the rhythm. It is necessary to discuss the possibility of using the same technology in the same year.
项目成果
期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
N.Minematsu, M.Sekiguchi, K.Hirose: "Automatic Estimation of One's Age with His/her Speech Based upon Acoustic Modeling Techniques of Speakers"Proc.IEEE Inf.Conf.Acoustics, speech, & Signal Processing. 1. 137-140 (2002)
N.Minematsu、M.Sekiguchi、K.Hirose:“基于扬声器声学建模技术自动估计一个人的年龄”Proc.IEEE Inf.Conf.Acoustics,演讲,
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
山内景太, 峯松信明, 広瀬啓吉: "話者認識技術を応用した知覚的年齢分布の自動推定"電子情報通信学会音声研究会. SP2002-186. 43-48 (2003)
Keita Yamauchi、Nobuaki Minematsu、Keikichi Hirose:“应用说话人识别技术自动估计感知年龄分布”IEICE SP2002-186 (2003)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
N.Minematsu, R.Kita, K.Hirose: "Automatic Estimation of Accentual Attribute Values of Words for Accent Sandhi Rules of Japanese Text-to-speech Conversion"Trans.IEICE. (掲載予定). (2003)
N.Minematsu、R.Kita、K.Hirose:“日语文本到语音转换的重音连读规则的单词重音属性值的自动估计”Trans.IEICE(待出版)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
峯松信明, 広瀬啓吉, 関口真里子: "話者認識技術を利用した主観的高齢話者の同定とそれに基づく主観的年代の推定"情報処理学会論文誌. 43,7. 2186-2196 (2002)
Nobuaki Minematsu、Keikichi Hirose、Mariko Sekiguchi:“使用说话人识别技术对老年说话人进行主观识别并据此估计主观年龄”,日本信息处理学会汇刊 43,7 (2002)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
成澤修一, 峯松信明, 広瀬恵吉, 藤崎博也: "音声の基本周波数パターン生成過程モデルのパラメータ自動抽出法"情報処理学会論文誌. 43,7. 2155-2169 (2002)
Shuichi Narisawa、Nobuaki Minematsu、Keikichi Hirose、Hiroya Fujisaki:“语音基频模式生成过程模型的自动参数提取方法”日本信息处理学会会刊 43,7(2002)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
峯松 信明其他文献
日本語上級中国人学習者と日本語母語話者教師の真偽疑問文と疑問詞疑問文の産出
日语高级汉语学习者及日语母语教师真/假疑问句及疑问疑问句的制作
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
伊達 宏子;中村 則子;峯松 信明;伊達宏子・花薗悟・郭田夫 - 通讯作者:
伊達宏子・花薗悟・郭田夫
生成過程モデルに基づく母語話者と中国語話者の日本語朗読音声の基本周波数パターン
基于生成过程模型的母语者和汉语者日语阅读语音的基本频率模式
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
平野 宏子;広瀬 啓吉;河合 剛;顧文 涛;峯松 信明 - 通讯作者:
峯松 信明
Effects of English Shadowing Training Using Unlearned Passages on Listening and Speaking Skills
使用未学过的段落进行英语影子训练对听力和口语技能的影响
- DOI:
10.24539/let.59.0_77 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
中西 のりこ;峯松 信明;椢原 卓弥 - 通讯作者:
椢原 卓弥
Evaluation of the Prosodic Naturalness of Japanese Learners’ Utterances after Practicing with OJAD Suzuki-kun
与 OJAD Suzuki-kun 一起练习后日语学习者言语韵律自然度的评估
- DOI:
10.24467/onseikenkyu.23.0_6 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
伊達 宏子;中村 則子;峯松 信明 - 通讯作者:
峯松 信明
A viewpoint shift from technical aid for speaking to that for listening: From output to input
从口语技术援助到听力技术援助的观点转变:从输出到输入
- DOI:
10.20697/jasj.79.3_154 - 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
峯松 信明 - 通讯作者:
峯松 信明
峯松 信明的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('峯松 信明', 18)}}的其他基金
Measurement of L2 pronunciation deviation and L2 listening disfluency and its application to prosody training for smooth international communication
二语发音偏差和二语听力不流利度测量及其在国际交流顺畅韵律训练中的应用
- 批准号:
23K17459 - 财政年份:2023
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Challenging Research (Pioneering)
Measurement and modeling of cognitive breakdown and their use to enhance cognitive robustness for international oral communication
认知崩溃的测量和建模及其用于增强国际口头交流认知稳健性的用途
- 批准号:
22H00527 - 财政年份:2022
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
Technically-enhanced high variability phonetic training and its effective application to English listening training for Japanese learners
技术强化的高变异性语音训练及其在日语学习者英语听力训练中的有效应用
- 批准号:
18F18724 - 财政年份:2018
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究
基于结构不变性定理的听觉、视觉和物理媒体普遍表征的基础研究
- 批准号:
07F07078 - 财政年份:2007
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for JSPS Fellows
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
- 批准号:
19024023 - 财政年份:2007
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用
整合语言和副语言信息的语音结构表示的提出及其在语音合成中的应用
- 批准号:
19650036 - 财政年份:2007
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Exploratory Research
構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築
提出基于结构不变性定理的语音可供性并构建基于其的语音识别系统
- 批准号:
18049018 - 财政年份:2006
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
- 批准号:
16016219 - 财政年份:2004
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
発音の明瞭性に着眼した発音構造の包括的記述とその語学学習への応用に関する研究
以发音清晰度为核心的发音结构综合描述及其在语言学习中的应用研究
- 批准号:
15652033 - 财政年份:2003
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Exploratory Research
人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築
分析人类语音信息处理过程并利用该分析构建语音对话界面
- 批准号:
15017225 - 财政年份:2003
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
相似海外基金
深層学習に基づく話者認識システムの法科学利用に向けた信頼性の検証
验证基于深度学习的说话人识别系统在法医科学应用中的可靠性
- 批准号:
24K07957 - 财政年份:2024
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
人工音声による話者認識器詐称防止に関する研究
利用人工语音预防说话人识别器欺骗的研究
- 批准号:
19K11975 - 财政年份:2019
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
話者認識のための局所話者識別的特徴処理の研究
说话人识别中的本地说话人判别特征处理研究
- 批准号:
09F09805 - 财政年份:2009
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for JSPS Fellows
科学捜査に対応したテキスト依存型自動話者認識システム(FASR)に関する研究
用于法医调查的文本相关自动说话人识别系统(FASR)的研究
- 批准号:
20921016 - 财政年份:2008
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
実世界環境下における遠隔発話の音声認識と話者認識およびインデックス化に関する研究
现实环境中的语音识别、说话人识别和远程语音索引研究
- 批准号:
19650040 - 财政年份:2007
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
複数のバイオメトリクス個人情報を利用したロバストな話者認識手法に関する研究
利用多种个人生物特征信息的鲁棒说话人识别方法研究
- 批准号:
14780274 - 财政年份:2002
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
3次元声道モデルと音声の並列分散処理による個人性情報の抽出と対話型話者認識
使用 3D 声道模型和并行分布式语音处理提取个人信息和交互式说话人识别
- 批准号:
04750366 - 财政年份:1992
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
音声生成過程での特徴とニューラルネットワークを用いた話者認識システムの開発
利用语音生成过程和神经网络中的特征开发说话人识别系统
- 批准号:
01780057 - 财政年份:1989
- 资助金额:
$ 4.1万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)