Emergency speech detection robust for various speaker and noisy environment

适用于各种说话人和嘈杂环境的紧急语音检测

基本信息

  • 批准号:
    21K14381
  • 负责人:
  • 金额:
    $ 2.91万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

近年,安全な暮らしの実現が求められる中で,犯罪の予防や災害時の円滑な救助活動のために音情報を用いた監視システムが注目されている.本研究では,音に基づく防犯・生活見守りシステムの基盤技術として,発声者や雑音環境の変化に頑健な危機的音声の検出手法を構築する.2022年度は雑音環境の変化に頑健な危機的音声の検出に取り組んだ.まず2021年度に構築した音声コーパス(多数の平静音声と叫び声を収録)に対して白色雑音や空調騒音などの雑音を加えてバリエーション豊富な雑音環境を再現した.雑音を付加した平静音声と叫び声に対してスペクトログラム(時間・周波数情報)とケプストログラム(時間・ケプストラム情報)の分布を学習し,叫び声に関する特徴量を抽出する深層学習アーキテクチャを設計した.評価実験により,雑音の種類や量に関係なく叫び声を検出できることを確認した.今年度は発声者の変化に注目した新たな叫び声認識アルゴリズムも開発した.叫び声は発声者によってその強度や発声方法が大きく異なる.そこで,話者の発声に関わる情報を組み込みながら,単に音声から叫びを検出するだけでなく,その強度も推定するアルゴリズムを開発した.まずクラウドソーシングサービスを利用した聴取実験を通して,昨年度に収録した2,500個の叫び声に強度スコアを付与した.叫びの強度は1(全く叫び声ではない)から 7(非常に叫び声らしい)の7段階で評価されており,1個の叫び声に対して10名が評価した.この実験で得られた叫び声の強度スコアを分析した結果,全体的に女性よりも男性の方が強く叫ぶ傾向にあることを確認した.この知見をもとに発話音声と話者情報(性別情報)を使って強度スコアを推定する深層学習アーキテクチャを構築した.今回提案した推定モデルを評価した結果,発話音声だけでなく話者情報も利用することで叫びの強度の推定精度が向上した.
In recent years, security has been in demand, crime prevention and disaster relief activities have been in use, and surveillance has been in focus. This study aims to establish a sound detection method for the sound environment in 2022. The sound detection method for the sound environment in 2022 is divided into two groups: the sound detection method for the sound environment in 2022 and the sound detection method for the sound environment in 2022. In 2021, the construction of the sound system (most of the quiet sound and sound recording), white sound and air conditioning sound, sound and sound enhancement, rich sound environment to reproduce. The distribution of the sound and the quiet sound and the sound is studied. The deep learning is designed by extracting the characteristic quantity of the sound. Comments on the type and quantity of sound, the relationship between the sound and the sound, and the confirmation of the sound. This year, the voice of the new generation of people to understand the new generation of people to open up. The intensity and method of sound transmission vary greatly. The speaker's voice is related to the sound of the voice, and the voice is related to the sound of the voice. 2,500 calls were recorded last year. The intensity of the call is 1 (full call), 7 (very call), 7 (very call), and 1 (full call). The results of this analysis confirm that women tend to cry more than men. The voice of the speaker (gender information) makes the voice of the speaker stronger than that of the speaker. The accuracy of the estimation of the strength of the voice is improved.

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
クリッピング音声に対する叫び声検知の検討
考虑对剪辑音频进行尖叫检测
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石田 泰都;松田 和浩;福森 隆寛;山下 洋一
  • 通讯作者:
    山下 洋一
話者情報を利用したマルチタスク学習に基づく叫び声の強度推定
基于说话人信息的多任务学习的尖叫强度估计
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石田 泰都;福森 隆寛;山下 洋一
  • 通讯作者:
    山下 洋一
クリッピング音声に対する深層学習を用いた叫び声検知
使用深度学习对剪辑音频进行尖叫检测
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石田 泰都;松田 和浩;福森 隆寛;山下 洋一
  • 通讯作者:
    山下 洋一
RISC:危機的強度を有する叫び声コーパスの構築
RISC:构建具有临界强度的尖叫语料库
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福森 隆寛;三久保 昭宏;石田 泰都;山下 洋一
  • 通讯作者:
    山下 洋一
スペクトルとケプストラムの時系列特徴を用いた深層学習による悲鳴検知
使用光谱和倒谱时间序列特征进行深度学习的尖叫检测
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    福森 隆寛;三久保 昭宏;石田 泰都;山下 洋一;Takahiro Fukumori;福森 隆寛
  • 通讯作者:
    福森 隆寛
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

福森 隆寛其他文献

光レーザマイクロホンのためのResidual Networkを用いたCNNによる雑音除去
使用残差网络的 CNN 去除光学激光麦克风的噪声
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    CAI Chengkai;福森 隆寛;西浦 敬信;山下 洋一
  • 通讯作者:
    山下 洋一
1830年京都の地震による堤防被害とその後発生した水害について
关于 1830 年京都地震和随后的洪水造成的堤坝损坏
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石田 泰都;福森 隆寛;山下 洋一;大邑潤三;大邑潤三・加納靖之;大邑潤三
  • 通讯作者:
    大邑潤三
誤検出の深刻さを考慮した音響イベント検出のための評価指標
考虑错误检测严重程度的声学事件检测评估指标
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    砺波 紀之;井本 桂右;岡本 悠希;福森 隆寛;山下 洋一
  • 通讯作者:
    山下 洋一
Transformerを用いたオノマトペからの環境音合成
使用 Transformer 从拟声词合成环境声音
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岡本 悠希;井本 桂右;高道 慎之介;山西 良典;福森 隆寛;山下 洋一
  • 通讯作者:
    山下 洋一
デジタルスチルカメラによる撮影画像を用いた抽出音波の帯域拡張
使用数码相机拍摄的图像对提取的声波进行频带扩展
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    進藤 広暉;寺野 光一;福森 隆寛;西浦 敬信
  • 通讯作者:
    西浦 敬信

福森 隆寛的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('福森 隆寛', 18)}}的其他基金

教育現場における音声の聴き取りやすさの評価と発声訓練支援への応用
教育环境中音频可听度的评估及其在声乐训练支持中的应用
  • 批准号:
    24K06343
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
外乱学習型音声認識システムの構築
扰动学习型语音识别系统的构建
  • 批准号:
    12J09555
  • 财政年份:
    2012
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

危機言語コミュニティにおけるNew Speakerの育成
在濒危语言社区培养新的使用者
  • 批准号:
    24K00069
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
シャント発声者に適したがんリハビリテーションプログラムの新たな構築
适合分流扬声器的癌症康复方案的新建
  • 批准号:
    24K15865
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
From Native-Speaker Norms to Global Englishes (GE): Integrating GE Pedagogy in English Teacher Education in Japan
从母语人士规范到全球英语 (GE):将 GE 教育学融入日本英语教师教育
  • 批准号:
    24K16136
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Understanding the role of pitch cues in multi-speaker environments
了解音高提示在多扬声器环境中的作用
  • 批准号:
    2886867
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Studentship
Development of Speech Synthesis System for Controlling Speaker Identity through Text Prompts and Visual Interfaces
通过文本提示和可视化界面控制说话人身份的语音合成系统的开发
  • 批准号:
    23K20017
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
A Study on Utterance Style-dependent Speaker Verification
依赖于话语风格的说话人验证研究
  • 批准号:
    23K11165
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Neurocognitive and behavioral constituents of nonverbal speaker-listener attunement during science communication
科学传播过程中非语言说者-听者协调的神经认知和行为成分
  • 批准号:
    2302608
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Standard Grant
Articulatory and prosodic sensorimotor adaptation in speaker-listener interactions
说话者与听众互动中的发音和韵律感觉运动适应
  • 批准号:
    10675968
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
Multi-Organ Transplant Speaker Series: Women in Transplant Day
多器官移植演讲者系列:女性移植日
  • 批准号:
    480804
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Miscellaneous Programs
HomePal: Developing a Smart Speaker-Based System for In-Home Loneliness Assessment for Older Adults
HomePal:开发基于智能扬声器的系统,用于老年人的家庭孤独评估
  • 批准号:
    10725229
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了