移動体からの情報アクセスのための音声インタフェースの開発
开发用于从移动设备访问信息的语音接口
基本信息
- 批准号:18049037
- 负责人:
- 金额:$ 1.92万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research on Priority Areas
- 财政年份:2006
- 资助国家:日本
- 起止时间:2006 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
情報サービスの発展で提供される選択肢が数万以上のサービスが増加している。このようなサービスに対する音声インタフェースでは、従来のように事前知識による重み付けは、サービスの妨げにもなりかねない。本研究では、現在の音声認識では、安定した性能が得られない多選択肢に対して、高性能な音声認識を実現することを目的とする。これらの課題を実証的にすすめるため、本研究では、楽曲検索というタスクを設定する。このタスクは、インターネット上での音楽配信サービスのためのインタフェースである。実際の商用サービスにおいて、アーティスト名は1万内外、アルバム名は数万程度、曲名は数十万程度、となっており、多選択肢のタスクとして十分な規模である。音楽配信サービスなどの大量の固有名を対象とするアプリケーションでは、どの名称がよく使われるというような事前の確率情報が利用できないため、認識率が悪い。その原因を明らかにするために、一人当たり150単語(個別単語100単語、共通単語50単語)を50名が発話したデータを収録する。また、一般ユーザが様々な環境で音声認識を利用する場合には、マイクロホンやその使い方などの要素が大きく変動すると考えられる。そこで、オンライン環境で多数の被験者のデータを収集する。判明している問題点のうち、学習データにない音素については、音声合成手法を用いて学習データから補間する方法を提案した。辞書の分岐数が大きくなると認識率が悪くなる点については、辞書のサイズを実質的に圧縮する方法で対処する方法を提案する。辞書を分析したところ、外来語が多いため、音響モデルの学習に用いるデータに含まれないような音素(「フェ」「ディ」「ピュ」など)が多く含まれることがわかった。また、辞書のサイズが大きくなると認識性能が悪化するが、認識率の変化は一定ではなく、辞書や話者によって、5000語から10,000語程度のととろで急激に、認識率が低下する場合があることがわかった。オンライン環境で収録したデータに関しては、マイクロホンおよびその使用方法に変動が大きく、雑音区間を発話と誤って検出してしまう例が30%にのぼっており、検出モデルの性能向上が必要である。今年度は、多選択肢の音声コーパスを整備した。多選択肢のタスクにおいては、学習データに余り出現しない音素が多用されることがわかった。そのコーパスを用いて認識率を評価し、辞書のサイズが5000語を越えると悪化することがわかった。
Intelligence サ ー ビ ス の 発 exhibition で provide さ れ る sentaku limb が more than tens of thousands of の サ ー ビ ス が raised plus し て い る. こ の よ う な サ ー ビ ス に す seaborne る sounds イ ン タ フ ェ ー ス で は, 従 の よ う に prior knowledge に よ る heavy み pay け は, サ ー ビ ス の hinder げ に も な り か ね な い. This study で は, now の sounds know で は, stable し た performance が must ら れ な い multi-select 択 limb に し seaborne て, high-performance な sounds know を be presently す る こ と を purpose と す る. を こ れ ら の subject be falsified に す す め る た め, this study で は, joy song 検 と い う タ ス ク を set す る. こ の タ ス ク は, イ ン タ ー ネ ッ ト on で の sound joy with letter サ ー ビ ス の た め の イ ン タ フ ェ ー ス で あ る. Be international commercial サ の ー ビ ス に お い て, ア ー テ ィ ス inside and outside of the ト は 10000 ア ル バ ム name は tens of thousands of degree, song name は hundreds of thousands of degree, と な っ て お り, multiple-choice 択 limb の タ ス ク と し て very な scale で あ る. Sound joy with letter サ ー ビ ス な ど の large の inherent name を like と seaborne す る ア プ リ ケ ー シ ョ ン で は, ど の name が よ く make わ れ る と い う よ う の な advance of probabilistic information が using で き な い た め, understanding rate が 悪 い. そ の reason を Ming ら か に す る た め に, one when た り 単 language 150 (individual 単 100 単, common 単 50 単) を 50 が 発 words し た デ ー タ を 収 recorded す る. ま た, general ユ ー ザ が others 々 な environment で sounds know を using す る occasions に は, マ イ ク ロ ホ ン や そ の make い な ど の elements が big き く - move す る と exam え ら れ る. Youdaoplaceholder0 タを で, <s:1> ラ ラ で, <s:1> <s:1> ラ ラ <s:1> で environment で, most <s:1> subjects デ デ タを タを タを collection する. .at し て い る problem point の う ち, learning デ ー タ に な い phonemes に つ い て は, voice synthesis technique を い て learning デ ー タ か ら curation す る method proposed を し た. Dictionaries の が branching number big き く な る と know rate が 悪 く な る point に つ い て は, dictionaries の サ イ ズ を be qualitative に 圧 shrinkage す る method で 処 seaborne す る method proposed を す る. Dictionaries を analysis し た と こ ろ が many origins い た め, acoustics モ デ ル の use learning に い る デ ー タ に containing ま れ な い よ う な phonemes (" フ ェ "" デ ィ" "ピ ュ" な ど) が く more contain ま れ る こ と が わ か っ た. ま た, dictionaries の サ イ ズ が big き く な る と meet performance が 悪 change す る の が, understanding rate - the は certain で は な く, dictionaries や words に よ っ て, 5000 か ら 10000 language degree の と と ろ で nasty shock に, understanding rate low が す る occasions が あ る こ と が わ か っ た. Recorded オ ン ラ イ ン environment で 収 し た デ ー タ に masato し て は, マ イ ク ロ ホ ン お よ び そ の usage に - moved が big き く, 雑 tone between を 発 words と mistakenly っ て 検 out し て し ま う が 30% に の ぼ っ て お り, 検 モ デ ル の performance が up necessary で あ る. This year, 択, multiple choices 択, limb, leg, leg, sound コ, 択, パスを, preparation た. Multi-select 択 limb の タ ス ク に お い て は, learning デ ー タ appeared more than に り し な い phonemes が multi-purpose さ れ る こ と が わ か っ た. そ の コ ー パ ス を with い て know rate を review 価 し, dictionaries の サ イ ズ が を 5000 language more え る と 悪 change す る こ と が わ か っ た.
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
An online customizable music retrieval system with a spoken dialogue interface
具有语音对话界面的在线可定制音乐检索系统
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:S.Hara;C.Miyajima;K.Itou;K.Takeda
- 通讯作者:K.Takeda
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
伊藤 克亘其他文献
有声・無声休止区間の自動検出を考慮したデコーディングによる自由発話音声認識の性能改善
通过考虑自动检测有声和无声停顿的解码来提高自由语音识别的性能
- DOI:
- 发表时间:
2009 - 期刊:
- 影响因子:0
- 作者:
緒方 淳;後藤 真孝;伊藤 克亘 - 通讯作者:
伊藤 克亘
Colloidal nanoparticles from poly (N-isopropylacrylamide)-graft-DNA for single nucleotide discrimination based on salt-induced aggregation
来自聚(N-异丙基丙烯酰胺)-移植物-DNA 的胶体纳米粒子,用于基于盐诱导聚集的单核苷酸辨别
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
山田 善之;宮島 千代美;伊藤 克亘;武田 一哉;Zhonglan Tang et al. - 通讯作者:
Zhonglan Tang et al.
Analysis of genome function by mutagenesis (in Japanese)
通过诱变分析基因组功能(日语)
- DOI:
- 发表时间:
2003 - 期刊:
- 影响因子:0
- 作者:
原 直;勅使河原 三保子;伊藤 克亘;武田 一哉;Y.Gondo - 通讯作者:
Y.Gondo
伊藤 克亘的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('伊藤 克亘', 18)}}的其他基金
能の謡の音楽的分析のための音響分析基盤の高度化
推进能乐歌曲音乐分析的声学分析平台
- 批准号:
24K03475 - 财政年份:2024
- 资助金额:
$ 1.92万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音楽的分析のための能楽の謡の多層的なモデル化
用于音乐分析的能乐歌曲的多层建模
- 批准号:
20K00136 - 财政年份:2020
- 资助金额:
$ 1.92万 - 项目类别:
Grant-in-Aid for Scientific Research (C)