マルチタスク深層学習における補助損失の動的制御と音声コミュニケーションへの応用

多任务深度学习中辅助损失的动态控制及其在语音通信中的应用

基本信息

项目摘要

本研究は、人間と機械の音声コミュニケーションにおいて、発話意図の正確な把握に不可欠な要素である非言語情報の高度処理を目的とする。非言語情報としては、話者の性別、年齢、意図、態度、感情などを処理対象とし、音声の観測特徴から多様な言語と非言語タスクに特定するdisentangledな表現(もつれを解いた表現)を抽出するため、マルチタスク学習における補助損失を動的に制御する手法の研究を行う。研究初年度として、複数の公開感情音声コーパスを整備し、共通的に使用することを進めた。日本語はJTES(Japanese Twitter-based Emotional Speech)を、英語は音声感情認識の学術分野で共通のベンチマークテストとして広く用いられるIEMOCAP(Interactive Emotional Dyadic Motion Capture )を用いた。まず、個別のコーパスで定義された分類から共通するカテゴリーを設定し、これらをドメイン敵対的学習(Domain-adversarial learning),マルチタスク学習(Multi-task learning)など、タスク以外の素性に着目する学習手法をためした。さらに、膨大な学習データから自己教師付き学習(Self-supervised learning; SSL)による事前学習モデルを用いる予備実験を当初の研究計画に追加し、事前学習モデルの特性を把握するためのgrid-searchを主に行った。結果として、事前学習モデルの違う傾向を確認し、その究明を進めることが研究初年度の主な研究内容であった。特に、自己教師付き学習による事前学習モデルの高性能かつ新たな特性を分析し、本研究課題への融合を研究課題として挙げることが出来た。
は, this study human と mechanical の sounds コ ミ ュ ニ ケ ー シ ョ ン に お い て, 発 words meaning 図 の な grasp に not owe な elements で あ る nonverbal intelligence の highly 処 Richard を purpose と す る. Nonverbal intelligence と し て は, words の 齢 gender, years, meaning 図, attitudes, feelings な ど を 処 reason like と seaborne し, sounds の 観 measuring te 徴 か ら many others words な と nonverbal タ ス ク に specific す る disentangled な performance (も つ れ を solution い た) を spare す る た め, マ ル チ タ ス ク learning に お け る subsidies loss を royal す に system Youdaoplaceholder0 technique る study を line う. In the first year of the study, と て て, plural <s:1> public emotional sounds コ, パスを preparation パスを, common に use する, する, とを into めた. Japanese で JTES (Japanese Twitter-based Emotional Speech) を, English られる auditory emotion recognition <s:1> academic division で common <s:1> ベ ベ チ ベ テストと テストと テストと て て て common く use を られるIEMOCAP (Interactive Emotional Dyadic Motion Capture)を uses を た. ま ず, individual の コ ー パ ス で definition さ れ た classification か ら common す る カ テ ゴ リ ー を set し, こ れ ら を ド メ イ ン enemy of seaborne learning (Domain - adversarial learning), マ ル チ タ ス ク learning (Multi - task In addition to な and タス <s:1>, に is an objective of する learning methods をため た た. さ ら に, expands な デ ー タ か ら their teachers pay き learning (Self - supervised learning; SSL) に よ る prior learning モ デ ル を with い る reserve be 験 を の original research projects に additional し, prior learning モ デ ル の features を grasp す る た め の grid - search を main line に っ た. Results と し て, prior learning モ デ ル の violations う tendency を confirm し, そ の investigate Ming を into め る こ と が study early annual の main な content で あ っ た. に, his teacher pay き に study よ る prior learning モ デ ル の high-performance か つ new た な characteristics し を analysis, this research topic へ を の fusion research topic と し て 挙 げ る こ と が た.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Frame-Level Matching Scheme Using Posteriorgram Probability Distance of Spoken Data to Improve Search Accuracy of Spoken Term Detection
利用口语数据后验图概率距离的帧级匹配方案提高口语检测的搜索精度
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Minakawa Reo;Kojima Kazunori;Lee Shi-wook;Itoh Yoshiaki
  • 通讯作者:
    Itoh Yoshiaki
音声中の音声検索語検出におけるフレーム圧縮手法および複数の深層学習モデルのスコア統合による検索精度・検索速度・メモリ量の改善
利用帧压缩技术和多个深度学习模型的分数集成来检测语音中的语音搜索词,提高搜索精度、搜索速度和内存容量
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    畠山和望;小嶋和徳;李 時旭;伊藤慶明
  • 通讯作者:
    伊藤慶明
音声中の音声検索語検出における音声データの最尤および上位の状態系列の利用による検索精度向上
在语音搜索词检测中使用语音数据的最大似然和上状态序列来提高搜索精度
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    皆川玲緒;小嶋和徳;李 時旭;伊藤慶明
  • 通讯作者:
    伊藤慶明
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

李 時旭其他文献

音声検索システムのための時間整合を考慮したサブワードモデル構築手法の検
语音搜索系统考虑时间对齐的子词模型构建方法检验
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岩田 耕平;伊藤 慶明;小嶋 和徳;石亀 昌明;田中 和世;李 時旭
  • 通讯作者:
    李 時旭
サブワードを用いた音声文書検索における複数サブワードの統合-サブワード毎の検索性能期待値の利用
使用子词在音频文档检索中集成多个子词 - 使用每个子词的预期搜索性能值
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    伊藤 慶明;岩田 耕平;小嶋 和徳;石亀 昌明;田中 和世;李 時旭
  • 通讯作者:
    李 時旭
物体形状を段階的に表現する深層学習ベースの点群符号化
基于深度学习的点云编码,逐步表示物体形状
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    皆川玲緒;小嶋和徳;李 時旭;伊藤慶明;木全英明
  • 通讯作者:
    木全英明
Average Posterior Probability Vector Method for Spoken Query-spoken Term Detection
用于口语查询口语术语检测的平均后验概率向量方法
  • DOI:
    10.20729/00223427
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    横田 平志;小嶋 和徳;李 時旭;伊藤 慶明
  • 通讯作者:
    伊藤 慶明
Frame-level Matching Method between Maximum Likelihood State Sequence of Spoken Query and Spoken Documents in Spoken Term Detection
口语检测中口语查询最大似然状态序列与口语文档的帧级匹配方法

李 時旭的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

振幅変調知覚に基づく聴覚エンリッチメント:人工内耳用音声信号処理の研究
基于调幅感知的听觉丰富:人工耳蜗音频信号处理研究
  • 批准号:
    23K21679
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of a Listening Evaluation and Support System for "Children with Listening Difficulties" using Acoustic Signal Processing.
利用声学信号处理为“听力困难儿童”开发听力评估和支持系统。
  • 批准号:
    21K12037
  • 财政年份:
    2021
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Acoustic signal processing applications for the support of dementia sufferers
支持痴呆症患者的声学信号处理应用
  • 批准号:
    2465994
  • 财政年份:
    2020
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Studentship
人間の聴覚特性を考慮した残響・雑音環境下における音声信号処理の研究
考虑人耳听觉特性的混响噪声环境下音频信号处理研究
  • 批准号:
    18J20059
  • 财政年份:
    2018
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Acoustic Signal Processing and Scene Analysis for Socially Assistive Robots
社交辅助机器人的声学信号处理和场景分析
  • 批准号:
    EP/P001017/1
  • 财政年份:
    2017
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Fellowship
Acoustic signal processing for real world captioning system via see-through head mounted display
通过透视头戴式显示器对现实世界字幕系统进行声学信号处理
  • 批准号:
    15K20886
  • 财政年份:
    2015
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Continuous monitoring of rainforest biodiversity via acoustic signal processing
通过声学信号处理持续监测雨林生物多样性
  • 批准号:
    NE/L012456/1
  • 财政年份:
    2014
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Research Grant
Intelligent noise reduction for acoustic signal processing: A hardware-software co-design approach
声学信号处理的智能降噪:一种软硬件协同设计方法
  • 批准号:
    278738-2003
  • 财政年份:
    2007
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Collaborative Research and Development Grants
Intelligent noise reduction for acoustic signal processing: A hardware-software co-design approach
声学信号处理的智能降噪:一种软硬件协同设计方法
  • 批准号:
    278738-2003
  • 财政年份:
    2006
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Collaborative Research and Development Grants
Intelligent noise reduction for acoustic signal processing: A hardware-software co-design approach
声学信号处理的智能降噪:一种软硬件协同设计方法
  • 批准号:
    278738-2003
  • 财政年份:
    2004
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Collaborative Research and Development Grants
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了