実世界環境下における遠隔発話の音声認識と話者認識およびインデックス化に関する研究

现实环境中的语音识别、说话人识别和远程语音索引研究

基本信息

  • 批准号:
    19650040
  • 负责人:
  • 金额:
    $ 2.05万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
  • 财政年份:
    2007
  • 资助国家:
    日本
  • 起止时间:
    2007 至 2009
  • 项目状态:
    已结题

项目摘要

遠隔発話の音声認識に関しては、H20年度とH21年度に開発した話者の位置と発声方向の同定方法を用いた認識手法を開発した。つまり、音源位置の同定に基づいて、マイクロフォンアレイのビームフォーマーによって音声を強調し、発声方向の向きの同定によって、発声語彙を推定・制限する方法により認識率を高めた。さらに、残響補正の基本的な手法であるケプストラム平均正規化法を、短時間の発声によりオンラインで適用できる技術を開発した。これは、混合ガウス分布(GMM)モデルにより音声をモデル化しておき、入力音声の各フレームをGMMの要素に対応付け、その要素ごとにあらかじめ学習しておいたケプストラム平均正規化量を用いて正規化するもので、従来手法なら数単語の発声時間長を要していたものが、1単語の発声でも正規化の効果が確認できた。遠隔発話の話者認識に関しては、マイクロフォンアレイによる音声強調をした音声に対して、H20年度とH21年度に開発したスペクトル情報(MFCC)と位相情報の併用法を用いた認識手法を開発した。インデックス化に関しては、音声認識と話者認識結果の後処理として、認識結果からの場所とか人名、組織名などの固有名の抽出方法を開発した。テキスト入力ではかなり精度良く固有名を抽出できたが、遠隔発話の音声認識が非常に困難なため、満足のいく結果は得られなかった。
The sound recognition of distant speech is related to H20 and H21, and the position and direction of speech are determined by the same recognition method. The recognition rate is high. The recognition rate is high. In addition, the basic method of residual sound correction is developed by the average normalization method and the application technology of short-time sound correction. This is a mixed sound distribution (GMM). Each element of the input sound is related to the GMM. Each element of the input The method of using the information of the distant speaker is developed. A method for extracting the proper name of an organization from a place is developed. It is very difficult to understand the sound of distant speech.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

中川 聖一其他文献

A Study of Speaker Identification Using Phoneme-lnformation
利用音素信息识别说话人的研究
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中川 聖一;富樫 慎吾;山口 優;藤井 康寿;北岡 教英;Katsuyuki Obayashi
  • 通讯作者:
    Katsuyuki Obayashi
講義音声ドキュメンのコンテンツ化と視聴システム
讲座音频文档内容创建及查看系统

中川 聖一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('中川 聖一', 18)}}的其他基金

セマンティックディジタルアーカイブのための音声・映像・言語の統合的処理
音频、视频、语言一体化处理,实现语义数字档案
  • 批准号:
    15630003
  • 财政年份:
    2003
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声言語処理技術と学習者モデルを用いた語学学習システムの研究
利用口语处理技术和学习者模型的语言学习系统研究
  • 批准号:
    12040104
  • 财政年份:
    2000
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
外国語コミュニケーション能力の総合的な養成研究
外语交际能力综合训练研究
  • 批准号:
    12040103
  • 财政年份:
    2000
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
音声・言語・画像情報の統合化による概念の獲得に関する研究
整合语音、语言、图像信息的概念获取研究
  • 批准号:
    05213209
  • 财政年份:
    1993
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
音声・言語・画像情報の統合化による概念の獲得に関する研究
整合语音、语言、图像信息的概念获取研究
  • 批准号:
    04229209
  • 财政年份:
    1992
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
音声・言語・画像情報の統合化による概念の獲得に関する研究
整合音频、语言、图像信息的概念获取研究
  • 批准号:
    03245209
  • 财政年份:
    1991
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
音声情報と画像情報の統合化による概念の獲得に関する研究
音频与图像信息融合的概念获取研究
  • 批准号:
    02805045
  • 财政年份:
    1990
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
音声・画像の視聴覚情報のシンボル記述化による自然言語文法の帰納的学習法の研究
利用音频、图像等视听信息的符号描述进行自然语言语法归纳学习方法研究
  • 批准号:
    01550284
  • 财政年份:
    1989
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
高精度音声認識手法による音声の超極低ビットテキストファイル化・知的符号化合成方式
利用高精度语音识别方法将语音转换为超低比特文本文件及智能编码合成方法
  • 批准号:
    63550272
  • 财政年份:
    1988
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
音節セグメントの同定に基づく音声の超極低ビット符号化合成方式の研究
基于音节段识别的语音超低比特编码合成方法研究
  • 批准号:
    62550243
  • 财政年份:
    1987
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)

相似海外基金

脳神経疾患による構音障害を克服するための,音声認識および音声合成AIシステムの開発
开发语音识别与语音合成AI系统,克服脑神经疾病引起的构音障碍
  • 批准号:
    24K10630
  • 财政年份:
    2024
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
画像認識と音声認識の複合AIによる災害状況認識ユニットの基礎研究
图像识别与语音识别相结合的AI灾情识别单元基础研究
  • 批准号:
    23K23017
  • 财政年份:
    2024
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
画像・音声認識と料理データベースによる食事記録システム開発、及び疫学研究での応用
基于图像/语音识别和烹饪数据库的用餐记录系统的开发及其在流行病学研究中的应用
  • 批准号:
    23K20170
  • 财政年份:
    2024
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
非母語話者のスマートフォン音声認識機能での誤認識傾向を考慮した発音学習システム
使用智能手机语音识别功能,考虑到非母语人士的误识别倾向的发音学习系统。
  • 批准号:
    24K06231
  • 财政年份:
    2024
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
自動音声認識を利用したbilingual speech-to-textシステム構築と授業分析への応用
自动语音识别双语语音转文本系统的构建及其在课程分析中的应用
  • 批准号:
    24K04125
  • 财政年份:
    2024
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
CAREER: Statistically-Sound Knowledge Discovery from Data
职业:从数据中发现统计上合理的知识
  • 批准号:
    2238693
  • 财政年份:
    2023
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Continuing Grant
実用性の高いEnd-to-End音声認識に向けた研究
高实用性端到端语音识别研究
  • 批准号:
    22KJ2898
  • 财政年份:
    2023
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
音声認識のデータ拡張のための音声合成との密統合
与语音合成紧密集成,用于语音识别的数据增强
  • 批准号:
    23K16944
  • 财政年份:
    2023
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
画像認識と音声認識の複合AIによる災害状況認識ユニットの基礎研究
图像识别与语音识别相结合的AI灾情识别单元基础研究
  • 批准号:
    22H01749
  • 财政年份:
    2022
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
日常生活音を活用した構音障害者のための音響監視および音声認識システムの研究
使用日常声音对构音障碍患者进行声学监测和语音识别系统的研究
  • 批准号:
    22K12168
  • 财政年份:
    2022
  • 资助金额:
    $ 2.05万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了