权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

音響信号記号変換に基づいたセマンティックインタラクション

基于声学信号符号变换的语义交互

基本信息

批准号：
18049048
负责人：
奥乃博
金额：
$ 4.16万
依托单位：
Kyoto University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research on Priority Areas
财政年份：
2006
资助国家：
日本
起止时间：
2006 至无数据
项目状态：
已结题

项目摘要

情報爆発という特定領域テーマに対して、音情報、すなわち、i-explosion_soundという観点から、(1)あまり使用されていない音響信号(単音音声に加えて、混合音声や音楽や環境音から音情報を取得することによる情報爆発の促進、(2)ディジタル音響信号処理による爆発する音情報から質的複雑化の軽減、という2つの側面について取り組んだ。主な研究項目は以下の通りである。(1)混合音の認識:「三話者同時発話認識の高性能化・高速化」これまで開発してきたシステムは,音源定位(steered beamforer)、音源分離(GSS,ICA)、ミッシングマスク生成、ミッシングフィーチャ理論による音声認識から構成されており、三話者が同時に発話した後、分離・認識して、応答するまでに約8秒かかっていた。これに対して、RASP-2信号処理装置を使用したシステム再構成、Flow Designerによるシステム内のモジュールインタフェースの統一、および、GAによる多数のシステムパラメータのチューニングを行い、認識応答速度の高速化(1.9秒と約4倍の高速化)、および,認識率の向上が達成できた。(2)実環境への対応と実時間処理:上記の三話者同時発話認識では、マルチメディア実験室(5m*7m)で実際の人を用いて実験が行えるレベルまで性能が向上した。また、混合音声だけでなく、ドラム音を含むポリフォニー音楽音響信号に対しても、ドラムパターンを認識し、実時間でドラム音を編集できるオーディオプレイヤーを開発した。これにより、ロボットが音楽からビートを聴き分け、トラックできるシステムの基礎技術を確立することができた。

Intelligence explosion 発という domain-specific テーマにし seaborne て, sound intelligence, すなわち, I - explosion_sound という観 point から, (1) あまり use されていない sound signal (単 sound sounds に plus えて, mixed sound や sound joy や ambient sounds から sound intelligence を obtain することによる intelligence explosion 発の promote, (2) ディジタル sound signal 処 Richard による detonation 発する sound intelligence から qualitative compound 雑 change の軽 subtraction, という 2 つの side について in り group んだ. The main な research project な is followed by であるである. (1) mixed の know tone: "three words 発 words at the same time understanding の high-performance, high speed" これまで open 発してきたシステムは, sound source localization (steered Beamforer), audio source separation (GSS, ICA), ミッシングマスク generation, ミッシングフィーチャ theory による sounds know から constitute されており, three words が also に発 words した, separation, after understanding して, 応 answer するまでに about eight seconds かかっていた. <s:1> れに for て, the RASP-2 signal processing device を is reconstituted using <s:1> たシステム, Flow Within the Designer によるシステムのモジュールインタフェースの unified, および, GA による most のシステムパラメータのチューニングをい, know 応 answer speed の high speed high speed (about 4 times のと 1.9 seconds), および, understanding rate のが reach upward できた. (2) be environment への応 seaborne と be time 処 : remember の three 発 words at the same time meet the speaker's words on では, マルチメディア be 験 chamber (5 m * 7 m) で be interstate の person を use いて be 験が line えるレベルまで performance が upward した. また, mixed sounds だけでなく, ドラをム notes contain むポリフォニー sound joy sound signal にし seaborne ても, ドラムパターンを know し, be time でドラム sound compiling でをきるオーディオプレイヤーを open 発した. これにより, ロボットが sound joy からビートを聴きけ, トラックできるシステムの based technology をすることができた.

项目成果

期刊论文数量（24）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

Meaning-Game-based Centering Model with Statistical Definition of Utility of Referential Expression and Its Verification

基于意义博弈的指称表达效用统计定义的中心模型及其验证

DOI：
发表时间：
2007
期刊：
Proceedings of DAARC 2007 1
影响因子：
0
作者：
Naohiro Hayashibara;Makoto Takizawa;Jean-Marc Valin;神田直之;Kazuyoshi Yoshii;Tetsuro Kitahara;山本俊一;Kazuyoshi Yoshi;Tetsuro Kitahara;山本俊一;奥乃博;Shun Shiramatsu
通讯作者：
Shun Shiramatsu

Improving Speech Recognition of Two Simultaneous Speech Signals by Integrating ICA BSS and Automatic Missing Feature

通过集成 ICA BSS 和自动丢失功能改进两个同时语音信号的语音识别

DOI：
发表时间：
2006
期刊：
Proceedings of Interspeech-2006 3
影响因子：
0
作者：
Naohiro Hayashibara;Makoto Takizawa;Jean-Marc Valin;神田直之;Kazuyoshi Yoshii;Tetsuro Kitahara;山本俊一;Kazuyoshi Yoshi;Tetsuro Kitahara;山本俊一;奥乃博;Shun Shiramatsu;Hiroshi G. Okuno;北原鉄朗;Tetsuro Kitahara;Hiromasa Fujihara;Ryu Takeda;Shun'ichi Yamamoto;Kazuhiro Nakadai;Hiromasa Fujihara;Ryu Takeda
通讯作者：
Ryu Takeda

Speaker Identification under Noisy Environments by using Harmonic Structure Extraction and Reliable Frame Weighting

使用谐波结构提取和可靠的帧加权在噪声环境下识别说话人

DOI：
发表时间：
2006
期刊：
Proceedings of Interspeech-2006 2
影响因子：
0
作者：
Naohiro Hayashibara;Makoto Takizawa;Jean-Marc Valin;神田直之;Kazuyoshi Yoshii;Tetsuro Kitahara;山本俊一;Kazuyoshi Yoshi;Tetsuro Kitahara;山本俊一;奥乃博;Shun Shiramatsu;Hiroshi G. Okuno;北原鉄朗;Tetsuro Kitahara;Hiromasa Fujihara;Ryu Takeda;Shun'ichi Yamamoto;Kazuhiro Nakadai;Hiromasa Fujihara
通讯作者：
Hiromasa Fujihara

多重奏を対象とした音源同定 : 混合音テンプレートを用いた音の重なりに頑健な特徴量への重みづけおよび音楽的文脈の利用

多重声源识别：使用混合声音模板和音乐背景对对声音重叠具有鲁棒性的特征进行加权

DOI：
发表时间：
2006
期刊：
電子情報通信学会論文誌 J89-D・12
影响因子：
0
作者：
大村吉幸;瀬田尚子;長久保晶彦;國吉康夫;北原鉄朗他
通讯作者：
北原鉄朗他

Real-Time Tracking of Multiple Sound Sources by Integration of In-Room and Robot-Embedded Microphone Arrays

DOI：
10.1109/iros.2006.281737
发表时间：
2006-10
期刊：
2006 IEEE/RSJ International Conference on Intelligent Robots and Systems
影响因子：
0
作者：
K. Nakadai;H. Nakajima;M. Murase;HIroshi G. Okuno;Yuji Hasegawa;H. Tsujino
通讯作者：
K. Nakadai;H. Nakajima;M. Murase;HIroshi G. Okuno;Yuji Hasegawa;H. Tsujino

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ patent.updateTime }}

奥乃博其他文献

ロボット聴覚技術を用いた鳥類の歌行動分析の試み - 複数のマイクロホンアレイを用いた二次元リアルタイム歌定位 -

尝试利用机器人听觉技术分析鸟类的歌唱行为 - 使用多个麦克风阵列进行二维实时歌曲定位 -

DOI：
发表时间：
2017
期刊：
影响因子：
0
作者：
鈴木麗璽;炭谷晋司;中臺一博;奥乃博
通讯作者：
奥乃博

複数時期のデータを用いたNAMセグメントによる個人認証

使用多个时期的数据使用 NAM 分段进行个人身份验证

DOI：
发表时间：
2007
期刊：
情報とセキュリティシンポジウム (SCIS2007) 4F2-4
影响因子：
0
作者：
Sarker;B.K.;Yoshiyuki Nakatani;Yoshiaki Yasumura;Tetsuro Kitahara;奥乃博;Hiroshi G.Okuno;清水敬太;服部佑哉;田口明裕;Tetsuya Ogata;Yuya Hattori;人工知能学会(奥乃博);小島摩里子
通讯作者：
小島摩里子

Study on non-audible murmur speaker verification using multiple session data

基于多会话数据的非可闻杂音说话人验证研究

DOI：
发表时间：
2006
期刊：
ASA/ASJ Joint Meeting
影响因子：
0
作者：
Sarker;B.K.;Yoshiyuki Nakatani;Yoshiaki Yasumura;Tetsuro Kitahara;奥乃博;Hiroshi G.Okuno;清水敬太;服部佑哉;田口明裕;Tetsuya Ogata;Yuya Hattori;人工知能学会(奥乃博);小島摩里子;小島摩里子;Mariko Kojima;Mariko Kojima
通讯作者：
Mariko Kojima