複数のバイオメトリクス個人情報を利用したロバストな話者認識手法に関する研究
利用多种个人生物特征信息的鲁棒说话人识别方法研究
基本信息
- 批准号:14780274
- 负责人:
- 金额:$ 1.47万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2002
- 资助国家:日本
- 起止时间:2002 至 2003
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では,音声や行動様式に含まれる個人性を利用したバイオメトリクス個人認識について以下の検討を行った.(1)混合因子分析に基づく話者モデルのパラメータの共有構造について我々は前年度までに,話者認識のモデルを混合因子分析に基づいて構築することによって,従来の混合正規分布に基づく話者モデルに比べて高い認識性能が得られることを報告した.本年度は,この混合因子分析における共分散行列のパラメータの共有方法の違いについて検討した.混合因子分析における共分散行列の因子負荷量,もしくは対角成分のパラメータを混合要素間で共有する場合と,パラメータを共有しない場合の三つの方法について比較した結果,対角要素のパラメータのみを共有する場合に最も良い認識結果が得られた.また,比較的小さい因子数でも高い認識性能が得られることがわかった.(2)最小分類誤り学習による話者モデルのオンライン学習法について音声で人を識別する家庭用ペットロボットのためのオンライン話者識別学習について検討した.ロボットが話者を誤って識別した場合に,不正解であるという情報のみがロボットへフィードバックされる状況を想定し,不正解であるという情報を有効利用するための最小分類誤り学習を提案した.実験の結果,不正解の情報を利用しない場合に比べ,約1.5倍の速度で学習ができることがわかった.また,過去に入力された音声データを複数まとめて,再度学習に利用することによって,より高速な学習が可能であることがわかった.(3)運転行動信号を用いた個人認識について自動車のアクセルやブレーキ,ハンドル操作などの運転行動に表れる個人性を利用して運転者を認識できれば,運転者に合わせた運転支援や車内環境の自動設定などへの応用が期待できる.アクセルペダル・ブレーキペダル踏力の分布を混合正規分布でモデル化し,30名の運転者の認識実験を行った結果,アクセル,もしくはブレーキのみでは30%程度の識別率であったのに対し,これらの信号の時間変化を動的特徴量として加え,さらにアクセルとブレーキを組み合わせて用いることにより73%まで識別率が向上した.また,動的特徴量を求める時間窓幅について検討した結果,800ms程度が最も有効であることがわかった.識別実験に加えて照合実験も行ったが,識別実験と同様の特徴量が有効であり,8%の等誤り率が得られた.運転行動信号を用いた個人認識の研究はこれまでに報告されていないが,本研究によってその可能性が示された.
This study discusses the following issues: voice, voice, behavior, and personality. (1)Mixed factor analysis is used to analyze the common structure of the basic speaker, the speaker recognition, the mixed factor analysis is used to analyze the common structure of the basic speaker, the mixed normal distribution is used to analyze the common structure of the basic speaker, the speaker recognition, the speaker recognition, the mixed normal distribution is used to analyze the common structure of the basic speaker, the speaker recognition, the speaker recognition. This year, the mixed factor analysis was conducted to investigate the violation of the common method. Mixed factor analysis is used to analyze the factor load of the co-dispersed array. In the case where the angle component is shared among the mixed elements, the method of three sets of methods is used to compare the results. In the case where the angle component is shared among the mixed elements, the best recognition result is obtained. The number of small factors in comparison is high, and cognitive performance is high. (2)Minimum classification error: learning from speaker: learning from speaker: In the case of incorrect identification of the speaker, the incorrect solution of the information is determined, and the incorrect solution of the information is used to determine the minimum classification error. As a result, the learning speed is about 1.5 times faster than that of the correct solution information. In the past, the sound of the voice was mixed, and the use of high speed learning was possible. (3)The movement action signal is used in the personal recognition of the automatic vehicle, the operation of the vehicle action table is used in the personal recognition of the operator, the operator is combined with the movement support and the automatic setting of the vehicle interior environment. The results show that the recognition rate of 30 operators is 30%, and the recognition rate of the time-varying characteristics of the signal is 73%. The characteristic quantity of motion is calculated by the time range. The result of the investigation is that the degree of 800ms is the most important. The identification of the same characteristics is effective, and the error rate of 8% is obtained. The study of personal cognition in the use of mobile action signals is reported in this paper, and the possibility of this study is shown.
项目成果
期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
山本啓善, 南角吉彦, 宮島千代美, 徳田恵一, 北村正: "混合因子分析に基づく話者識別モデルのパラメータ共有構造"情報処理学会音声言語処理研究会研究報告. vol.2003 no.124. 91-96 (2003)
Keizen Yamamoto、Yoshihiko Minamikado、Chiyomi Miyajima、Keiichi Tokuda、Tadashi Kitamura:“基于混合因素分析的说话人识别模型的参数共享结构”日本信息处理学会语音和语言处理研究小组研究报告。2003年第124卷。 91- 96 (2003)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
H.Suzuki, H.Zen, Y.Nankaku, C.Miyajima, K.Tokuda, T.Kitamura: "Speech recognition using voice characteristic dependent acoustic models"Proceedings of 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing. (未定)(発表予定). (2003)
H.Suzuki、H.Zen、Y.Nankaku、C.Miyajima、K.Tokuda、T.Kitamura:“使用与语音特征相关的声学模型进行语音识别”2003 年 IEEE 国际声学、语音和信号处理会议论文集。待公布)(待公布)(2003)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
山本啓善, 南角吉彦, 宮島千代美, 徳田恵一, 北村正: "混合因子分析に基づく話者モデルのパラメータ共有構造の検討"2003年日本音響学会秋季研究発表会講演論文集. vol.1. 101-102 (2003)
Keizen Yamamoto、Yoshihiko Minamikaku、Chiyomi Miyajima、Keiichi Tokuda、Tadashi Kitamura:“基于混合因子分析的扬声器模型参数共享结构的研究”日本声学学会 2003 年秋季会议论文集 101-102。 (2003)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
板谷洋平, 宮島千代美, 徳田恵一, 北村正: "DAEMアルゴリズムを用いた話者認識のためのGMM学習法"2003年日本音響学会春季研究発表会講演論文集. vol.1. 115-116 (2003)
Yohei Itaya、Chiyomi Miyajima、Keiichi Tokuda、Tadashi Kitamura:“使用 DAEM 算法进行说话人识别的 GMM 学习方法”日本声学学会 2003 年春季会议记录第 115-116 卷。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
柳哲, 柳生雄午, 宮島千代美, 徳田恵一, 北村正: "ジェスチャーを用いた個人識別におけるPCAの次元数の検討"2002年情報科学技術フォーラム講演論文集. no.I-21. 41-42 (2002)
Satoshi Yanagi、Yugo Yagyu、Chiyomi Miyajima、Keiichi Tokuda、Tadashi Kitamura:“使用手势进行个人识别中 PCA 维数的研究”信息科学与技术论坛论文集 2002 年。第 41-42 期(2002 年) )
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
宮島 千代美其他文献
残響下音声認識評価基盤(CENSREC-4)の構築
混响语音识别评估平台(CENSREC-4)的构建
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
西浦 敬信;中山 雅人;傳田 遊亀;北岡 教英;山本 一公;山田 武志;藤本 雅清;柘植 覚;宮島 千代美;滝口 哲也;田村 哲嗣;小川 哲司;松田 繁樹;黒岩 眞吾;武田 一哉;中村 哲 - 通讯作者:
中村 哲
特徴空間を用いた繰り返しパターンの検出と画像間の対応付け
使用特征空间检测图像之间的重复模式和对应关系
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
窄山 勝也;森 真貴;宮島 千代美;北岡 教英;武田 一哉;澤岻明菜,金澤 靖;下村涼太,金澤 靖;常盤勇太,金澤 靖;丹野芳樹,金澤 靖 - 通讯作者:
丹野芳樹,金澤 靖
Colloidal nanoparticles from poly (N-isopropylacrylamide)-graft-DNA for single nucleotide discrimination based on salt-induced aggregation
来自聚(N-异丙基丙烯酰胺)-移植物-DNA 的胶体纳米粒子,用于基于盐诱导聚集的单核苷酸辨别
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
山田 善之;宮島 千代美;伊藤 克亘;武田 一哉;Zhonglan Tang et al. - 通讯作者:
Zhonglan Tang et al.
宮島 千代美的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('宮島 千代美', 18)}}的其他基金
Detecting risky driving scenes and analyzing risk factors based on a driver risk feeling estimation model
基于驾驶员风险感受估计模型检测危险驾驶场景并分析风险因素
- 批准号:
20K05014 - 财政年份:2020
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
自己組織化特徴マップを導入した新しい音声認識モデル
引入自组织特征图的新语音识别模型
- 批准号:
98J08177 - 财政年份:1998
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
グローバルコミュニケーションに資する大脳皮質の音声情報処理機能単位の解明
阐明有助于全球交流的大脑皮层声音信息处理功能单元
- 批准号:
24K15685 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声離散表現の超圧縮による教師なし音声言語学習の言語学的妥当性向上
通过超压缩离散语音表示提高无监督口语学习的语言有效性
- 批准号:
24K15087 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
超ミキシングを実現する成分選択と相互同調の研究および音声・音楽データベースの完成
研究组件选择和互调以实现超级混音,并完成音频/音乐数据库
- 批准号:
24K14989 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
読み書き困難児に音声に頼る学習方略を安心して奨められるようになるための環境整備
创造一个环境,鼓励有阅读和写作困难的孩子安心地使用基于音频的学习策略
- 批准号:
23K22301 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
多様な英語の音声理解のメカニズムの研究:アジア・アフリカの英語を中心に
各种英语语言的语音理解机制研究——以亚洲和非洲英语为中心
- 批准号:
23K20468 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
人工知能を活用した津軽弁から共通語への音声・文字情報変換システムの基盤技術開発
利用人工智能开发从津轻方言到通用语言的语音和文本信息转换系统的基础技术
- 批准号:
23K25330 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
対人サービスにおける共創価値は音声非言語情報から測定が可能か?
是否可以通过音频和非语言信息来衡量人际服务中共同创造的价值?
- 批准号:
23K24948 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
調音の構造的分析による東北方言音声の通時的変化の解明-30年前の全域調査との比較-
通过发音结构分析阐明东北方言语音的历时变化 - 与 30 年前全国调查的比较 -
- 批准号:
24K03909 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
インターネットデータの活用によるテキスト音声合成の感情表現力向上
利用互联网数据提高文本语音合成的情感表现力
- 批准号:
24KJ0860 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for JSPS Fellows
音声・楽器音の物理的生成過程を加味した深層音分析合成法の確立
建立考虑人声和器乐声音物理产生过程的深度声音分析和合成方法
- 批准号:
24KJ1236 - 财政年份:2024
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for JSPS Fellows