音・映像情報の相補的結合に基づくハンズフリー音声コミュニケーションシステムの構築
基于音视频信息互补组合的免提语音通信系统的构建
基本信息
- 批准号:14780288
- 负责人:
- 金额:$ 2.43万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2002
- 资助国家:日本
- 起止时间:2002 至 2004
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
近年、遠隔発話音声受音の最有力候補として複数のマイクロホン素子を利用するマイクロホンアレーを用いた音声インタフェースの構築が高い注目を浴びている。現在までのマイクロホンアレーを用いたハンズフリー音声認識・音声コミュニケーションの研究では、計算機上でのシミュレーションや実験室などの人為的に制御された環境においては、ある程度の成果を収めている。しかしながら、実際の環境(我々の生活環境)における性能は不十分であり、実用化は困難な状況であった。実際問題として人と人とのコミュニケーションでは、聴覚だけでなく視覚情報も最大限有効利用することにより、スムーズなコミュニケーションを実現している。そこで本研究では、平成14年度から平成16年度の3年間において、空間内の音情報だけでなく映像情報を積極的に利用することにより、環境内の雑音や残響に頑健な発話者同定やハンズフリー音声認識・音声コミュニケーションの実現を目指すものである。平成16年度は、マイクロホンアレーを用いて獲得した音情報とビデオカメラを用いて獲得した映像情報を相補的に有機統合して、発話者の位置だけでなくその発話者の音声を高精度に抽出することも行い、さらに高精度なハンズフリー音声コミュニケーションシステムの構築を行った。またシステムが雑音環境下でも高精度に動作するよう、対雑音性においても重点的に研究を行った。本年度の本研究成果として、学術雑誌論文5件、国際会議5件の採録を得た。本研究期間(3年間)において音・映像情報を相補的に結合したハンズフリー音声コミュニケーションシステムの構築を試み、ビデオカメラから取得した映像情報とマイクロホンアレーから取得した音情報を相補的に結合することによって実機にてリアルタイムで動作可能なシステムを構築することができた。
In recent years, the most powerful candidate for distant sound reception has been the use of multiple sound elements. Now, the research on the application of sound and sound in computer science has been carried out in order to control the environment artificially. The environment (my living environment) is not very good, and the application is difficult. The problem is that the maximum use of visual information is not possible. During the three years from 2004 to 2006, sound and image information in space were actively utilized, and sound and residual sound in the environment were identified as sound recognition and sound realization indicators. In 2016, the voice information was obtained and the image information was obtained. The position of the speaker was divided into two parts. The voice of the speaker was extracted with high precision. The voice information was constructed with high precision. High precision operation in acoustic environment, key research in acoustic environment This year's research achievements, academic journal papers 5, international conferences 5 and recorded During this study period (3 years), the combination of sound and image information was tested and the combination of sound and image information was obtained.
项目成果
期刊论文数量(18)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
西浦敬信, 中村哲, 三木一浩, 鹿野清宏: "Environmental Sound Source Identification Based on Hidden Markov Model For Robust Speech Recognition"Proc.8th.European Conference on Speech Communication and Technology. 2157-2160 (2003)
Takanobu Nishiura、Tetsu Nakamura、Kazuhiro Miki、Kiyohiro Kano:“基于隐马尔可夫模型的鲁棒语音识别环境声源识别”Proc.8th.欧洲语音通信与技术会议 2157-2160 (2003)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Robust Speech Recognition Using Multiple Beamforming with Reflection Signal Equalization
使用具有反射信号均衡的多波束形成的鲁棒语音识别
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:西浦敬信;中村哲;鹿野清宏
- 通讯作者:鹿野清宏
西浦敬信, 中村哲: "A Study of Environmental Sound Source Identification Based on Hidden Markov Model For Robust Speech Recognition"Proc.Meeting of Acoustic Society of America. 2399 (2003)
Takanobu Nishiura、Satoshi Nakamura:“基于隐马尔可夫模型的鲁棒语音识别环境声源识别研究”Proc.美国声学学会会议 2399 (2003)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Talker Localization Based on the Combination of DOA Estimation and Statistical Sound Source Identification
基于DOA估计和统计声源识别相结合的说话人定位
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:西浦敬信;中村哲
- 通讯作者:中村哲
Talker Localization Based on Subband CSP Analysis and Average Speech Spectrum
基于子带CSP分析和平均语音谱的说话人定位
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:西浦敬信;傳田遊亀
- 通讯作者:傳田遊亀
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
西浦 敬信其他文献
Realization of Normalized Frequency Characteristics in Wide Band for Parametric Array Loudspeaker Based on Multi-way Structure
基于多路结构的参量阵列扬声器宽带归一化频率特性的实现
- DOI:
10.14923/transinfj.2021pdp0007 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
耿 毓庭;王 浩南;中山 雅人;西浦 敬信 - 通讯作者:
西浦 敬信
映像情報に基づく物体追跡DNNを用いた話者音声強調の検討
基于视频信息的目标跟踪DNN说话人语音增强研究
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
吉田 敦史;王 浩南;岩居 健太;西浦 敬信 - 通讯作者:
西浦 敬信
ライン露光順次読み出し方式カメラを用いた撮影動画像のRGB輝度勾配に基づく音波抽出手法の性能評価
基于行曝光顺序读出相机采集视频图像RGB亮度梯度的声波提取方法性能评估
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
芳澤 翼;吉田 敦史;王 浩南;岩居 健太;西浦 敬信 - 通讯作者:
西浦 敬信
超音波素子の周波数特性に適した有限近似に基づく振幅変調を用いた高調波歪み低減
基于适合超声波元件频率特性的有限近似的振幅调制来减少谐波失真
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
王 浩南;中山 雅人;西浦 敬信 - 通讯作者:
西浦 敬信
直線型パラメトリックスピーカアレーを用いた復調波の波面合成に基づく焦点音源形成の実環境評価
使用线性参数扬声器阵列基于解调波的波场合成对聚焦声源形成进行真实评估
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
佐山 史織;中山 雅人;西浦 敬信 - 通讯作者:
西浦 敬信
西浦 敬信的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('西浦 敬信', 18)}}的其他基金
次世代ピンスポットオーディオシステムの基盤創成と体系化
下一代 pin Spot 音频系统基础的创建和系统化
- 批准号:
23K28115 - 财政年份:2024
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Desing and systematization of next-generation pin-spot audio system infrastructure
下一代 pin-spot 音频系统基础设施的设计和系统化
- 批准号:
23H03425 - 财政年份:2023
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
ハンズフリー音声認識システムにおける反射音の有効利用の研究
免提语音识别系统中反射声的有效利用研究
- 批准号:
17700216 - 财政年份:2005
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
消失進化から再考する鳥類音声コミュニケーションの多様性
从消失的进化中重新思考鸟类声音交流的多样性
- 批准号:
24K09553 - 财政年份:2024
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声コミュニケーション能力測定における解答過程・項目特性の検証と問題作成支援
验证回答过程/项目特征以及测试声音沟通能力的问题创建支持
- 批准号:
24K06516 - 财政年份:2024
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
イヤホン型人工内耳の実現に向けた、レーザー刺激による音声コミュニケーションの再建
利用激光刺激重建语音通信以实现耳机式人工耳蜗
- 批准号:
24KJ1927 - 财政年份:2024
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for JSPS Fellows
幼少期の社会的音声コミュニケーションが制御する高次機能発達の神経メカニズムの解明
阐明幼儿时期社会声音交流控制的高阶功能发育的神经机制
- 批准号:
23K27284 - 财政年份:2024
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
幼少期の社会的音声コミュニケーションが制御する高次機能発達の神経メカニズムの解明
阐明幼儿时期社会声音交流控制的高阶功能发育的神经机制
- 批准号:
23H02593 - 财政年份:2023
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
音声コミュニケーションと聴覚の統合評価基盤の開発
声音交流与听力综合评估平台开发
- 批准号:
23K11163 - 财政年份:2023
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
マルチタスク深層学習における補助損失の動的制御と音声コミュニケーションへの応用
多任务深度学习中辅助损失的动态控制及其在语音通信中的应用
- 批准号:
22K12105 - 财政年份:2022
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
大脳皮質聴性下行性投射の活動操作の音声コミュニケーションに与える影響
操纵听觉下降投射活动对声音交流的影响
- 批准号:
19K19808 - 财政年份:2019
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
マウスの音声コミュニケーションにおける行動理解と自他比較
小鼠声音交流中的行为理解和自我比较
- 批准号:
19J01718 - 财政年份:2019
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for JSPS Fellows
分布・資源量推定と騒音影響評価に向けたイセエビの音声コミュニケーションの解明
阐明大龙虾的声音交流,以进行分布/丰度估计和噪声影响评估
- 批准号:
26892032 - 财政年份:2014
- 资助金额:
$ 2.43万 - 项目类别:
Grant-in-Aid for Research Activity Start-up