权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

移動体からの情報アクセスのための音声インタフェースの開発

开发用于从移动设备访问信息的语音接口

基本信息

批准号：
18049037
负责人：
伊藤克亘
金额：
$ 1.92万
依托单位：
Hosei University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research on Priority Areas
财政年份：
2006
资助国家：
日本
起止时间：
2006 至无数据
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-18049037/
关键词：
音声認識大語彙コーパス

项目摘要

情報サービスの発展で提供される選択肢が数万以上のサービスが増加している。このようなサービスに対する音声インタフェースでは、従来のように事前知識による重み付けは、サービスの妨げにもなりかねない。本研究では、現在の音声認識では、安定した性能が得られない多選択肢に対して、高性能な音声認識を実現することを目的とする。これらの課題を実証的にすすめるため、本研究では、楽曲検索というタスクを設定する。このタスクは、インターネット上での音楽配信サービスのためのインタフェースである。実際の商用サービスにおいて、アーティスト名は1万内外、アルバム名は数万程度、曲名は数十万程度、となっており、多選択肢のタスクとして十分な規模である。音楽配信サービスなどの大量の固有名を対象とするアプリケーションでは、どの名称がよく使われるというような事前の確率情報が利用できないため、認識率が悪い。その原因を明らかにするために、一人当たり150単語(個別単語100単語、共通単語50単語)を50名が発話したデータを収録する。また、一般ユーザが様々な環境で音声認識を利用する場合には、マイクロホンやその使い方などの要素が大きく変動すると考えられる。そこで、オンライン環境で多数の被験者のデータを収集する。判明している問題点のうち、学習データにない音素については、音声合成手法を用いて学習データから補間する方法を提案した。辞書の分岐数が大きくなると認識率が悪くなる点については、辞書のサイズを実質的に圧縮する方法で対処する方法を提案する。辞書を分析したところ、外来語が多いため、音響モデルの学習に用いるデータに含まれないような音素(「フェ」「ディ」「ピュ」など)が多く含まれることがわかった。また、辞書のサイズが大きくなると認識性能が悪化するが、認識率の変化は一定ではなく、辞書や話者によって、5000語から10,000語程度のととろで急激に、認識率が低下する場合があることがわかった。オンライン環境で収録したデータに関しては、マイクロホンおよびその使用方法に変動が大きく、雑音区間を発話と誤って検出してしまう例が30%にのぼっており、検出モデルの性能向上が必要である。今年度は、多選択肢の音声コーパスを整備した。多選択肢のタスクにおいては、学習データに余り出現しない音素が多用されることがわかった。そのコーパスを用いて認識率を評価し、辞書のサイズが5000語を越えると悪化することがわかった。

Intelligence サービスの発 exhibition で provide される sentaku limb が more than tens of thousands of のサービスが raised plus している. このようなサービスにす seaborne る sounds インタフェースでは, 従のように prior knowledge による heavy み pay けは, サービスの hinder げにもなりかねない. This study では, now の sounds know では, stable した performance が must られない multi-select 択 limb にし seaborne て, high-performance な sounds know を be presently することを purpose とする. をこれらの subject be falsified にすすめるため, this study では, joy song 検というタスクを set する. このタスクは, インターネット on での sound joy with letter サービスのためのインタフェースである. Be international commercial サのービスにおいて, アーティス inside and outside of the トは 10000 アルバム name は tens of thousands of degree, song name は hundreds of thousands of degree, となっており, multiple-choice 択 limb のタスクとして very な scale である. Sound joy with letter サービスなどの large の inherent name を like と seaborne するアプリケーションでは, どの name がよく make われるというようのな advance of probabilistic information が using できないため, understanding rate が悪い. その reason を Ming らかにするために, one when たり単 language 150 (individual 単 100 単, common 単 50 単) を 50 が発 words したデータを収 recorded する. また, general ユーザが others 々な environment で sounds know を using する occasions には, マイクロホンやその make いなどの elements が big きく - move すると exam えられる. Youdaoplaceholder0 タをで, <s:1> ララで, <s:1> <s:1> ララ <s:1> で environment で, most <s:1> subjects デデタをタをタを collection する. .at している problem point のうち, learning データにない phonemes については, voice synthesis technique をいて learning データから curation する method proposed をした. Dictionaries のが branching number big きくなると know rate が悪くなる point については, dictionaries のサイズを be qualitative に圧 shrinkage する method で処 seaborne する method proposed をする. Dictionaries を analysis したところが many origins いため, acoustics モデルの use learning にいるデータに containing まれないような phonemes (" フェ "" ディ" "ピュ" など) がく more contain まれることがわかった. また, dictionaries のサイズが big きくなると meet performance が悪 change するのが, understanding rate - the は certain ではなく, dictionaries や words によって, 5000 から 10000 language degree のととろで nasty shock に, understanding rate low がする occasions があることがわかった. Recorded オンライン environment で収したデータに masato しては, マイクロホンおよびその usage に - moved が big きく, 雑 tone between を発 words と mistakenly って検 out してしまうが 30% にのぼっており, 検モデルの performance が up necessary である. This year, 択, multiple choices 択, limb, leg, leg, sound コ, 択, パスを, preparation た. Multi-select 択 limb のタスクにおいては, learning データ appeared more than にりしない phonemes が multi-purpose されることがわかった. そのコーパスを with いて know rate を review 価し, dictionaries のサイズがを 5000 language more えると悪 change することがわかった.