音声対話システムにおける非言語音声情報の検出と音声認識の高精度化

口语对话系统中非语言语音信息的检测和语音识别的高精度

基本信息

  • 批准号:
    16700195
  • 负责人:
  • 金额:
    $ 1.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2006
  • 项目状态:
    已结题

项目摘要

本研究は、音声対話システムにおける音声認識精度の高精度化と非言語音声情報の積極的な利用を目的として、音声発話中から非言語音を検出する方法について検討したものである。本年度は、昨年度までに検討した咳検出機構を実際の対話システムへと応用するための対話ロボットのプロトタイプ作成を行った。このプロトタイプでは2つのマイクから入力された音の時間差から、到来方向を推定し、さらに画像処理による話者の顔検出を併用することで話者方向の推定をし、その方向に指向性マイクを向けることで音声認識精度の高精度化をはかるというものである。この際、雑音や物音などの音と咳やくしゃみなどの音を識別することができれば、自然な対話システムが実現できる。また、非言語音を擬似音素系列として近似的に表現するモデルを構築する際に、クラスタリングの精度がモデルの性能を大きく左右することから、クラスタリング手法の1つであるスペクトラルクラスタリングについての検討を行った。スペクトラルクラスタリングは、対象データの類似度行列に対するラプラス行列を固有値分解して得られた固有ベクトルに基づき、データを分類する方法である。この方法を用いて、擬音語表現や記号等が含まれたWeb文書の分類実験を行い、従来手法の1つである最大距離クラスタリングと比較して、精度よくクラスタリングできることを確認した。さらに本手法を昨年度までに収集した擬似音素系列に対して適用し、咳モデルの構築を行つた。
This study aims to improve the accuracy of sound recognition and the positive utilization of non-speech sound information in sound transmission and non-speech sound detection. This year's annual review of the organization's implementation of the report on the implementation of the report on the implementation of the report The time difference of the incoming sound, the estimation of the incoming direction, the estimation of the outgoing sound of the speaker, the estimation of the direction of the speaker, the directivity of the speaker, and the improvement of the accuracy of the sound recognition. This is the first time that a voice, a sound, a sound. The accuracy of non-speech sound analog phoneme series and its approximate performance are discussed in detail when constructing the series. The method for classifying the class structure according to the similarity of the class structure according to the intrinsic value decomposition and the intrinsic class structure according to the similarity of the class structure according to the intrinsic value decomposition and the intrinsic value decomposition according to the similarity of the class structure according to the intrinsic value decomposition. This method includes the classification of Web documents, the comparison of methods, and the confirmation of accuracy. This technique is currently being used to collect and construct analog phonemes.

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
健康管理支援システムのための咳検出方法の検討
健康管理支持系统咳嗽检测方法研究
Cough Detection in Spoken Dialogue System for Home Health Care
家庭保健语音对话系统中的咳嗽检测
音源方向と顔画像による話者検出
基于声源方向和人脸图像的说话人检测
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

高橋 伸弥其他文献

段階的畳み込み自己符号化器を用いたミツバチ画像分類手法の検討
基于逐步卷积自编码器的蜜蜂图像分类方法研究
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高橋 伸弥;李 玉潔;鶴田 直之;藍 浩之
  • 通讯作者:
    藍 浩之

高橋 伸弥的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('高橋 伸弥', 18)}}的其他基金

Computational Ethology のための複数個体行動追跡手法の開発
计算行为学多个体行为追踪方法的开发
  • 批准号:
    21K05624
  • 财政年份:
    2021
  • 资助金额:
    $ 1.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

音楽トレーニングによる聴覚障害者の非言語音聴取への効果についての研究
音乐训练对听障者非言语听觉的影响研究
  • 批准号:
    23K20719
  • 财政年份:
    2024
  • 资助金额:
    $ 1.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
非侵襲型脳波を用いた言語・非言語音声合成による次世代コミュニケーション技術の確立
通过使用非侵入性脑电波进行言语/非言语语音合成来建立下一代通信技术
  • 批准号:
    24H00715
  • 财政年份:
    2024
  • 资助金额:
    $ 1.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
非言語音に内在する空間的情報の概念化に適しかヒューマンインタフェース
人机界面是否适合概念化非语言声音固有的空间信息?
  • 批准号:
    06F06101
  • 财政年份:
    2006
  • 资助金额:
    $ 1.66万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
言語音と非言語音の処理における音声生成系と知覚系の脳活動
言语产生系统和感知系统在处理言语和非言语声音时的大脑活动
  • 批准号:
    17700272
  • 财政年份:
    2005
  • 资助金额:
    $ 1.66万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
言語音と非言語音の知覚様式
语音和非语音的感知模式
  • 批准号:
    03851028
  • 财政年份:
    1991
  • 资助金额:
    $ 1.66万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了