权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

マルチタスク深層学習における補助損失の動的制御と音声コミュニケーションへの応用

多任务深度学习中辅助损失的动态控制及其在语音通信中的应用

基本信息

批准号：
22K12105
负责人：
李時旭
金额：
$ 2.58万
依托单位：
National Institute of Advanced Industrial Science and Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2025-03-31
项目状态：
未结题

项目摘要

本研究は、人間と機械の音声コミュニケーションにおいて、発話意図の正確な把握に不可欠な要素である非言語情報の高度処理を目的とする。非言語情報としては、話者の性別、年齢、意図、態度、感情などを処理対象とし、音声の観測特徴から多様な言語と非言語タスクに特定するdisentangledな表現(もつれを解いた表現)を抽出するため、マルチタスク学習における補助損失を動的に制御する手法の研究を行う。研究初年度として、複数の公開感情音声コーパスを整備し、共通的に使用することを進めた。日本語はJTES（Japanese Twitter-based Emotional Speech）を、英語は音声感情認識の学術分野で共通のベンチマークテストとして広く用いられるIEMOCAP（Interactive Emotional Dyadic Motion Capture )を用いた。まず、個別のコーパスで定義された分類から共通するカテゴリーを設定し、これらをドメイン敵対的学習(Domain-adversarial learning),マルチタスク学習（Multi-task learning）など、タスク以外の素性に着目する学習手法をためした。さらに、膨大な学習データから自己教師付き学習(Self-supervised learning; SSL)による事前学習モデルを用いる予備実験を当初の研究計画に追加し、事前学習モデルの特性を把握するためのgrid-searchを主に行った。結果として、事前学習モデルの違う傾向を確認し、その究明を進めることが研究初年度の主な研究内容であった。特に、自己教師付き学習による事前学習モデルの高性能かつ新たな特性を分析し、本研究課題への融合を研究課題として挙げることが出来た。

は, this study human と mechanical の sounds コミュニケーションにおいて, 発 words meaning 図のな grasp に not owe な elements である nonverbal intelligence の highly 処 Richard を purpose とする. Nonverbal intelligence としては, words の齢 gender, years, meaning 図, attitudes, feelings などを処 reason like と seaborne し, sounds の観 measuring te 徴から many others words なと nonverbal タスクに specific する disentangled な performance (もつれを solution いた) を spare するため, マルチタスク learning における subsidies loss を royal すに system Youdaoplaceholder0 technique る study を line う. In the first year of the study, とてて, plural <s:1> public emotional sounds コ, パスを preparation パスを, common に use する, する, とを into めた. Japanese で JTES (Japanese Twitter-based Emotional Speech) を, English られる auditory emotion recognition <s:1> academic division で common <s:1> ベベチベテストとテストとテストとててて common く use をられるIEMOCAP (Interactive Emotional Dyadic Motion Capture)を uses をた. まず, individual のコーパスで definition された classification から common するカテゴリーを set し, これらをドメイン enemy of seaborne learning (Domain - adversarial learning), マルチタスク learning (Multi - task In addition to な and タス <s:1>, に is an objective of する learning methods をためたた. さらに, expands なデータから their teachers pay き learning (Self - supervised learning; SSL) による prior learning モデルを with いる reserve be 験をの original research projects に additional し, prior learning モデルの features を grasp するための grid - search を main line にった. Results として, prior learning モデルの violations う tendency を confirm し, その investigate Ming を into めることが study early annual の main な content であった. に, his teacher pay きに study よる prior learning モデルの high-performance かつ new たな characteristics しを analysis, this research topic へをの fusion research topic として挙げることがた.