移動体からの情報アクセスのための音声インタフェースの開発
开发用于从移动设备访问信息的语音接口
基本信息
- 批准号:18049037
- 负责人:
- 金额:$ 1.92万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research on Priority Areas
- 财政年份:2006
- 资助国家:日本
- 起止时间:2006 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
情報サービスの発展で提供される選択肢が数万以上のサービスが増加している。このようなサービスに対する音声インタフェースでは、従来のように事前知識による重み付けは、サービスの妨げにもなりかねない。本研究では、現在の音声認識では、安定した性能が得られない多選択肢に対して、高性能な音声認識を実現することを目的とする。これらの課題を実証的にすすめるため、本研究では、楽曲検索というタスクを設定する。このタスクは、インターネット上での音楽配信サービスのためのインタフェースである。実際の商用サービスにおいて、アーティスト名は1万内外、アルバム名は数万程度、曲名は数十万程度、となっており、多選択肢のタスクとして十分な規模である。音楽配信サービスなどの大量の固有名を対象とするアプリケーションでは、どの名称がよく使われるというような事前の確率情報が利用できないため、認識率が悪い。その原因を明らかにするために、一人当たり150単語(個別単語100単語、共通単語50単語)を50名が発話したデータを収録する。また、一般ユーザが様々な環境で音声認識を利用する場合には、マイクロホンやその使い方などの要素が大きく変動すると考えられる。そこで、オンライン環境で多数の被験者のデータを収集する。判明している問題点のうち、学習データにない音素については、音声合成手法を用いて学習データから補間する方法を提案した。辞書の分岐数が大きくなると認識率が悪くなる点については、辞書のサイズを実質的に圧縮する方法で対処する方法を提案する。辞書を分析したところ、外来語が多いため、音響モデルの学習に用いるデータに含まれないような音素(「フェ」「ディ」「ピュ」など)が多く含まれることがわかった。また、辞書のサイズが大きくなると認識性能が悪化するが、認識率の変化は一定ではなく、辞書や話者によって、5000語から10,000語程度のととろで急激に、認識率が低下する場合があることがわかった。オンライン環境で収録したデータに関しては、マイクロホンおよびその使用方法に変動が大きく、雑音区間を発話と誤って検出してしまう例が30%にのぼっており、検出モデルの性能向上が必要である。今年度は、多選択肢の音声コーパスを整備した。多選択肢のタスクにおいては、学習データに余り出現しない音素が多用されることがわかった。そのコーパスを用いて認識率を評価し、辞書のサイズが5000語を越えると悪化することがわかった。
The development of information services has increased by tens of thousands of users. This is the first time I've ever heard of this. This study aims to improve the performance of acoustic recognition. This study was conducted in the context of the research. This is the first time that I've ever heard of a song. In the case of commercial services, the name of the service is more than 10,000, the name of the service is more than tens of thousands, the name of the service is more than hundreds of thousands, and the service is more than ten thousand. A large number of inherent names are used in the sound distribution information, and the recognition rate is high. The reason for this is that there are 150 words (100 words for individual words, 50 words for common words) and 50 words for each person. In general, the environment is used for sound recognition. Most of the victims 'information is collected in the environment. Identify the problem points, learn the phonemes, and propose the sound synthesis method. The number of differences in dictionaries is large, the recognition rate is high, and the quality of dictionaries is high. For analysis of dictionaries, there are many foreign words, and there are many phonemes ("","" and "") used in the study of audio equipment. In the case of a dictionary, the cognitive performance of the dictionary is changed, the cognitive rate is changed, the dictionary is changed, the 5000 words are changed, the 10,000 words are changed, and the cognitive rate is changed. In the case of the environment, it is necessary to change the operation of the recording system to a large number of times, to change the sound interval, to change the error detection system, and to change the performance of the recording system to 30%. This year, the number of people who want to hear the music is increasing. Multiple-choice, multiple-choice, multiple-choice. A review of the dictionary's use of Chinese knowledge. A review of the dictionary's use of Chinese knowledge.
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
An online customizable music retrieval system with a spoken dialogue interface
具有语音对话界面的在线可定制音乐检索系统
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:S.Hara;C.Miyajima;K.Itou;K.Takeda
- 通讯作者:K.Takeda
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
伊藤 克亘其他文献
有声・無声休止区間の自動検出を考慮したデコーディングによる自由発話音声認識の性能改善
通过考虑自动检测有声和无声停顿的解码来提高自由语音识别的性能
- DOI:
- 发表时间:
2009 - 期刊:
- 影响因子:0
- 作者:
緒方 淳;後藤 真孝;伊藤 克亘 - 通讯作者:
伊藤 克亘
Analysis of genome function by mutagenesis (in Japanese)
通过诱变分析基因组功能(日语)
- DOI:
- 发表时间:
2003 - 期刊:
- 影响因子:0
- 作者:
原 直;勅使河原 三保子;伊藤 克亘;武田 一哉;Y.Gondo - 通讯作者:
Y.Gondo
Colloidal nanoparticles from poly (N-isopropylacrylamide)-graft-DNA for single nucleotide discrimination based on salt-induced aggregation
来自聚(N-异丙基丙烯酰胺)-移植物-DNA 的胶体纳米粒子,用于基于盐诱导聚集的单核苷酸辨别
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
山田 善之;宮島 千代美;伊藤 克亘;武田 一哉;Zhonglan Tang et al. - 通讯作者:
Zhonglan Tang et al.
伊藤 克亘的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('伊藤 克亘', 18)}}的其他基金
能の謡の音楽的分析のための音響分析基盤の高度化
推进能乐歌曲音乐分析的声学分析平台
- 批准号:
24K03475 - 财政年份:2024
- 资助金额:
$ 1.92万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音楽的分析のための能楽の謡の多層的なモデル化
用于音乐分析的能乐歌曲的多层建模
- 批准号:
20K00136 - 财政年份:2020
- 资助金额:
$ 1.92万 - 项目类别:
Grant-in-Aid for Scientific Research (C)