聴覚・視覚の複数レベル実時間情報統合の研究
听觉与视觉多级实时信息集成研究
基本信息
- 批准号:15017251
- 负责人:
- 金额:$ 3.26万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research on Priority Areas
- 财政年份:2003
- 资助国家:日本
- 起止时间:2003 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
ヒューマノイドと人間との柔軟なコミュニケーションのために,混合音を聞き分け理解する機能を設計することを目的としている.平成15年度は,前年度開発をした方向情報や話者情報などの複数のレベルで視覚と聴覚を統合したアクティブ方向通過型フィルタ(ADPF)の高性能化,及び,ADPFを使用した音源分離システムと音声認識システムのインタフェース化を行い,簡単な3話者同時発話認識を,複数のロボット上に実現した.また,日本ロボット学会に「ロボット聴覚」研究専門委員会を設立した.(1)アクティブ方向通過型フィルタ(ADPF)の散乱理論による高性能化:画像と音から得られる話者の方向情報を基に,特定の方向からの音を分離するADPFでは,2本のマイクロフォンで得られる入力音から求めた両耳間位相差と両耳間強度差を用いて方向情報を得ていた.聴覚エピポーラ幾何に加えて散乱理論により頭部音響伝達関数の近似精度を向上させた結果,30度以上の周辺領域で音源定位と音源分離性能を大幅に向上させることができた.さらに,2種類のヒューマノイドロボット,SIG2とReplieに実装し,本手法の一般性を確認した.(2)3話者同時発話認識(聖徳太子ロボットの予備実験):昨年5月に放映された「鉄腕アトムを作る」(NHK)では方向と話者に依存した音響モデルを使用し3話者同時発話認識を行っていた.ADFPで得られる分離音は,周波数成分での特徴量が欠け,時間成分でのデータも喪失しているので,単一の音響モデルで済ませるために,ミッシングフィーチャ理論に基づいた音声認識システムを開発し,演繹ミッシングマスクにより,分離音の認識精度が大幅に向上することを確認した.(3)音一般の認識と対話システムへの展開:音声を用いた柔軟な対話システム構築のために,音声認識誤りに確信度を導入し,不要な問い合わせを解消する方法を開発した.また,非音声認識のために,楽器音認識と擬音語認識にも取り組み,単音について認識技法を確立した.
The design of the sound system is very simple. In 2015, the company started to improve the performance of directional information and speaker information, and integrated the directional information and speaker information into ADPF. In 2015, ADPF was used to improve the performance of audio source separation and voice recognition, simplify the simultaneous communication of three speakers, and realize the integration of multiple speakers. The Japanese Academy of Sciences established a research committee. (1)ADPF is based on the direction information of the speaker, and the specific direction information of the speaker is based on the phase difference between the two ears. The result is that more than 30 degrees of sound source positioning performance is greatly improved. Today, 2 kinds of (2)3 Speaker simultaneous voice recognition (preparation): last May, the screening of "iron fist failure"(NHK), the direction and speaker dependence of the sound, the use of three speakers simultaneous voice recognition, ADFP obtained the separation of sound, the frequency component of the characteristic quantity, the time component of the loss, the separation of sound, the theoretical basis of sound recognition, deduction, separation of sound recognition accuracy greatly improved. (3)The development of sound recognition and speech system: the development of sound recognition error confidence introduction, sound recognition error detection and elimination methods. To establish the cognitive techniques of non-sound recognition, sound recognition and onomatopoeic recognition.
项目成果
期刊论文数量(50)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
奥乃博, 中臺一博: "ロボット聴覚の課題と現状"情報処理. 44・11. 1138-1144 (2003)
Hiroshi Okuno、Kazuhiro Nakadai:“机器人听力的问题和现状”信息处理44・114。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Hiroshi G.Okuno, Kazuhiro Nakadai, Hiroaki Kitano: "Design and Implementation of Personality of Humanoids in Human Humanoid Non-verbal Interaction"Developments in Applied Artificial Intelligence. LNAI 2718. 405-409 (2003)
Hiroshi G.Okuno、Kazuhiro Nakadai、Hiroaki Kitano:“人形非语言交互中人形人格的设计与实现”应用人工智能的发展。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
山肩洋子, 河原達也, 奥乃博, 美濃導彦: "音声対話システムにおける物体指示のための信念ネットワークを用いた曖昧性の解消"人工知能学会誌. 19・1F. 47-56 (2004)
Yoko Yamashita、Tatsuya Kawahara、Hiroshi Okuno 和 Norihiko Mino:“在口语对话系统中使用信念网络消除歧义”日本人工智能学会杂志 19・1F(2004 年)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
北原鉄朗, 後藤真孝, 奥乃博: "音響的類似性を反映した楽器の階層表現の獲得とそれに基づく未知楽器のカテゴリーレベルの音源同定"情報処理学会論文誌. 45・3. 680-689 (2004)
Tetsuro Kitahara、Masataka Goto、Hiroshi Okuno:“获取反映声学相似性的乐器的层次表示以及基于它的未知乐器的类别级声源识别”日本信息处理学会会刊 45・3。 (2004年)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
北原鉄朗, 後藤真孝, 奥乃博: "音高による音色変化に着目した楽器音の音源同定:F0依存多次元正規分布に基づく識別手法"情報処理学会論文誌. 44・10. 2448-2458 (2004)
Tetsuro Kitahara、Masataka Goto、Hiroshi Okuno:“关注因音高引起的音色变化的乐器声音的声源识别:基于 F0 相关的多维正态分布的识别方法”日本信息处理学会汇刊 44・10。 -2458 (2004))
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
奥乃 博其他文献
ロボット聴覚技術を用いた鳥類の歌行動分析の試み - 複数のマイクロホンアレイを用いた二次元リアルタイム歌定位 -
尝试利用机器人听觉技术分析鸟类的歌唱行为 - 使用多个麦克风阵列进行二维实时歌曲定位 -
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
鈴木 麗璽;炭谷 晋司;中臺 一博;奥乃 博 - 通讯作者:
奥乃 博
RNNPBを用いて獲得した疑似シンボルによる人間とロボットの協調の実現
利用RNNPB获得的伪符号实现人机协作
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
Sarker;B.K.;Yoshiyuki Nakatani;Yoshiaki Yasumura;Tetsuro Kitahara;奥乃 博;Hiroshi G.Okuno;清水 敬太;服部 佑哉 - 通讯作者:
服部 佑哉
擬音語表現を利用した環境音のためのXMLタグの設計と自動付与
使用拟声表达的环境声音 XML 标签的设计和自动附加
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
Sarker;B.K.;Yoshiyuki Nakatani;Yoshiaki Yasumura;Tetsuro Kitahara;奥乃 博;Hiroshi G.Okuno;清水 敬太;服部 佑哉;田口 明裕 - 通讯作者:
田口 明裕
複数時期のデータを用いたNAMセグメントによる個人認証
使用多个时期的数据使用 NAM 分段进行个人身份验证
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
Sarker;B.K.;Yoshiyuki Nakatani;Yoshiaki Yasumura;Tetsuro Kitahara;奥乃 博;Hiroshi G.Okuno;清水 敬太;服部 佑哉;田口 明裕;Tetsuya Ogata;Yuya Hattori;人工知能学会(奥乃 博);小島摩里子 - 通讯作者:
小島摩里子
Study on non-audible murmur speaker verification using multiple session data
基于多会话数据的非可闻杂音说话人验证研究
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
Sarker;B.K.;Yoshiyuki Nakatani;Yoshiaki Yasumura;Tetsuro Kitahara;奥乃 博;Hiroshi G.Okuno;清水 敬太;服部 佑哉;田口 明裕;Tetsuya Ogata;Yuya Hattori;人工知能学会(奥乃 博);小島摩里子;小島摩里子;Mariko Kojima;Mariko Kojima - 通讯作者:
Mariko Kojima
奥乃 博的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('奥乃 博', 18)}}的其他基金
Issues raised by open source in the legalization of AI and Robots
开源在人工智能和机器人合法化中引发的问题
- 批准号:
22K12210 - 财政年份:2022
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
ロボット聴覚の実環境理解に向けた多面的展開
机器人听觉的多方面发展以了解真实环境
- 批准号:
24240035 - 财政年份:2012
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
音環境理解研究のフィールド情報学への展開
声环境理解领域信息学研究的进展
- 批准号:
21650043 - 财政年份:2009
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
二分決定グラフによる全解表現に基づく数独問題の難易度の定義と問題自動生成法
基于使用二元决策图和自动问题生成方法的完整解表示的数独问题难度级别定义
- 批准号:
19650030 - 财政年份:2007
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Exploratory Research
音響信号記号変換に基づいたセマンティックインタラクション
基于声学信号符号变换的语义交互
- 批准号:
19024042 - 财政年份:2007
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
音響信号記号変換に基づいたセマンティックインタラクション
基于声学信号符号变换的语义交互
- 批准号:
18049048 - 财政年份:2006
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
音響的テクスチャに基づくロボット・インタラクションの研究
基于声纹理的机器人交互研究
- 批准号:
17650052 - 财政年份:2005
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Exploratory Research
実時間視聴覚情報統合による複数の人とのマルチモーダル・インタラクションの研究
实时视听信息集成的多人多模态交互研究
- 批准号:
16016251 - 财政年份:2004
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
聴覚・視覚の複数レベル実時間情報統合の研究
听觉与视觉多级实时信息集成研究
- 批准号:
14019051 - 财政年份:2002
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
脳のモデルを用いた自己生成音抑制機能を備えた聴覚機能の研究
利用脑模型研究具有自生声音抑制功能的听觉功能
- 批准号:
13878066 - 财政年份:2001
- 资助金额:
$ 3.26万 - 项目类别:
Grant-in-Aid for Exploratory Research