权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

聴覚シーン形成メカニズムに基づく計算機聴覚についての研究

基于听觉场景形成机制的计算听力研究

基本信息

批准号：
15650053
负责人：
黄捷
金额：
$ 1.41万
依托单位：
The University of Aizu
依托单位国家：
日本
项目类别：
Grant-in-Aid for Exploratory Research
财政年份：
2003
资助国家：
日本
起止时间：
2003 至 2005
项目状态：
已结题

项目摘要

我々の日常環境は多くの音響イベントが混在する。いかに特定のストリーミングを分離抽出し、選択的に聞くことができるか、また反響の影響をいかに排除するか。このような聴覚処理のモデルが構築できれば、高いレベルの環境ロバスト性を備えるので、実際の応用において非常に役に立つと期待できる。これらの問題を解決するために、ボトムアップのアプローチでは2音響成分を用いた心理学実験を通じて、それぞれの要因の総合的な量的関係の解明を試みた。その結果、2成分音脈分凝の時間のずれが調波構造の有無によって約20msから40msに増えることが分かった。また、倍音関係からのずれの度合いも音脈分凝の要因になることが確かめられた。周波数変調相違の影響は5000Hzまでで、調波構造がある場合は約50Hzのずれ、調波構造がない場合は周波数の約10倍のずれで音脈分凝の要因となることが分かった。周波数距離の要因について低周波数成分の約5倍の開きが必要であることも明らかになった。一方、反響を加えた時のそれぞれの分離・統合要因がどう影響を受けるかについても擬似インパルス応答を発生させて反響を加えて心理実験で影響を調べた。その結果、倍音関係、周波数変調、振幅変調の影響のいずれも減少することがわかったが、量的な関係を判断するためにはさらにいろんな状況で調べる必要があるので、今後の研究に期待するところである。また、先行音効果の反響予測を基にした反響回避モデルを提案した。計算機シミュレーションにより評価を行い2クリック音、Hass効果、Franssen効果を矛盾なく説明できたので、音響設計への応用が期待できる。トップダウンのアプローチとしては環境音の特徴をスペクトルとパワーの時間パターンとしてとらえ、多層ニューラルネットワークを用いて認識の試みを行い、45種類の異なる環境音について約90%の認識率が得られた。また、両耳聴現象のカクテルパーティ効果は両耳間の相関関係が重要であるため、独立成分分析の視点から音源分離を試み、実環境でのストリーム分離についても研究を行った。参考文献は本研究関連の論文をまとめてあげた。

I 々 <s:1> my daily environment <e:1> is mostly filled with く <s:1> sound equipment ベベトがトが mixed in する. いかに specific のストリーミングを separation spare し, sentaku に smell くことができるか, また echo の influence をいかに exclude するか. このような hearing 処 Richard のモデルが build できれば, high いレベルの environment ロバスト sex を prepared えるので, be interstate の応 with においてに made very に service つと expect できる. これらのを solve するために, ボトムアップのアプローチでは 2 audio components を with いた psychology be 験を tong じて, それぞれの by の総な quantity of masato is の interpret を try みた. その results, 2 ingredients sound pulse segregated の time のずれがの wave modulated structure with and without によって around 20 ms から 40 ms に raised えることが points かった. Youdaoplaceholder0, the relationship of doubling the tone, またら, ずれ, ずれ, the degree of <s:1>, the key factors of the pulse division of <s:1>, になる, ずれ, とが, and められた. Cycle count - adjustable conceives のは 5000 hz までで, wave modulated structure がある occasions about 50 hz はのずれ, wave modulated structure がない occasions は cycle for の about 10 times のずれで sound pulse segregated の by となることが points かった. The frequency distance <s:1> should be about five times that of the low frequency component <e:1> due to に, に, て and て. It is necessary to である, <s:1>, と and clearly indicate ら, ら, になった. When one party, echo をえたのそれぞれの separation, integration in がどうを by けるかについても quasi インパルス応 answer を発 raw させて echo を plus えて psychological be 験で influence を adjustable べた. その results, overtone masato, cycle count - pitch, amplitude variations の influence のいずれも reduce することがわかったが, amount of な masato is を judgment するためにはさらにいろんな condition で adjustable べる necessary があるので, future study にの expect するところである. Youdaoplaceholder0, prior sound effect results <s:1> response pretest を basis にた response avoidance モデをを proposal たた. Computer シミュレーションにより review 価を line い 2 クリック sound, Hass working fruit, Franssen contradiction sharper fruit をなく illustrate できたので, acoustics design への応 with が expect できる. トップダウンのアプローチとしては environment sound の徴をスペクトルとパワーの time パターンとしてとらえ, multi-layer ニューラルネットワークを with いて know の try みをい, 45 species の different なる ambient sounds について rate of about 90% の know が must られた. また, struck the ear 聴 phenomenon のカクテルパーティ unseen fruit は struck between ear の phase masato masato is important でがあるため, independent component analysis の viewpoints から audio source separation をみ, be environment でのストリーム separation についてもを line った. References: Related to this study: をまとめてあげた.