日常生活音を活用した構音障害者のための音響監視および音声認識システムの研究
使用日常声音对构音障碍患者进行声学监测和语音识别系统的研究
基本信息
- 批准号:22K12168
- 负责人:
- 金额:$ 2.58万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本研究では、構音障害者のコミュニケーション支援のための障害者音声認識技術、および安全監視のための音響イベント検出技術の開発を目的とし、障害者の学習音声データおよび検出すべき異常イベントの学習データの収集が困難であるという課題を解決するコア技術として「自己教師有り学習と日常会話収録音声を用いた障害者音声認識モデル学習」と「学習データに存在しない音響イベントを検出するゼロショット学習」を開発している。障害者音声認識モデルの学習においては、収録が比較的容易だが教師ラベルの付与が困難な日常会話収録音を自己教師あり学習の一つであるwav2vec2.0の枠組みを用いて音声認識モデルの学習に活用する手法を検討した。wav2vec2.0は健常者音声認識の分野では高い認識性能を示す技術であるが、データ量の少ない構音障害者音声認識においてはまだ十分に検証がされていなかった。本研究では、660時間という比較的大規模の日本語健常者音声を用いてwav2vec2.0を初期学習し、さらに複数の構音障害者音声を用いて追加学習することで、wav2vec2.0による音声認識性能を向上できることを明らかとした。音響イベント検出においては、音声を入力してイベント名を出力するという従来の教師あり学習に対して、本研究ではイベント名の代わりにそのイベントを説明する属性(例えば「ドアをノックする音」というイベントの属性は「木の音」、「打撃音」、「同じ音が繰り返される」)を出力するように学習することで、未知のイベントを認識可能とする「属性情報に基づく音のゼロショット学習技術」を新たに開発した。さらに画像分野で提案されたAttribute prototype networkを用いることで、前述のゼロショット学習の性能を向上させることができた。
This study で は, compose sound barrier against の コ ミ ュ ニ ケ ー シ ョ ン support の た め の handicap of sounds understanding technology, お よ び security monitoring の た め の sound イ ベ ン ト 検 technology の open 発 を purpose と し sounds, the handicap of の learning デ ー タ お よ び 検 out す べ き abnormal イ ベ ン ト の learning デ ー タ の 収 set が difficult で あ る と い う project を す る コ ア skill Art と し て "their teachers have り study everyday conversation と 収 sound recording を with い た handicap of persons who sounds モ デ ル learning" と "learning デ ー タ に exist し な い sound イ ベ ン ト を 検 out す る ゼ ロ シ ョ ッ ト learning" を open 発 し て い る. Handicap of persons who sounds モ デ ル の learning に お い て は, easy 収 recorded が comparison だ が teachers ラ ベ ル の give 収 を recording their teachers everyday conversation difficult が な あ り learning の つ で あ る wav2vec2. 0 の 枠 group み を with い て sounds know モ デ ル の learning に transfer す る gimmick を beg し 検 た. Wav2vec2. 0 は kin who often sounds know の eset で す technology は い meet high performance を で あ る が, デ ー タ fewer の な い compose sound barrier against persons who sounds に お い て は ま だ very に 検 card が さ れ て い な か っ た. This study で は, 660 time と い う comparison of large-scale の Japanese health often sounds を with い て wav2vec2. 0 を early learning し, さ ら に plural の compose sound barrier against those sounds を with い て additional learning す る こ と で, wav2vec2. 0 に よ る sounds know performance を upward で き る こ と を Ming ら か と し た. Sound イ ベ ン ト 検 out に お い て は, sounds を し into force て イ ベ ン ト name を output す る と い う 従 の あ teachers り learning に し seaborne て, this study で は イ ベ ン ト name の generation わ り に そ の イ ベ ン ト を illustrate す る attributes (example え ば "ド ア を ノ ッ ク す る sound" と い う イ ベ ン ト の attribute は "wood の sound", "shock the sound", "with じ sound が Qiao り return さ れ る) "を output す る よ う に learning す る こ と で, unknown の イ ベ ン ト を understanding might と す る" attribute intelligence に base づ く sound の ゼ ロ シ ョ ッ ト learning technology "を new た に open 発 し た. さ ら に portrait eset で proposal さ れ た Attribute prototype network を with い る こ と で, the foregoing の ゼ ロ シ ョ ッ ト study の performance を up さ せ る こ と が で き た.
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
wav2vec 2.0によるラベル無し複数患者音声を用いた脳性麻痺患者の音声認識
使用 wav2vec 2.0 使用未标记的多患者语音对脑瘫患者进行语音识别
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Lin Yi-Han;高島 遼一;滝口 哲也;日本音響学会2023年春季研究発表会講演論文集
- 通讯作者:日本音響学会2023年春季研究発表会講演論文集
Binary Attribute Embeddings for Zero-Shot Sound Event Classification
- DOI:10.1109/gcce56475.2022.10014127
- 发表时间:2022-10
- 期刊:
- 影响因子:0
- 作者:Yihan Lin;Xun-Yu Chen;R. Takashima;T. Takiguchi
- 通讯作者:Yihan Lin;Xun-Yu Chen;R. Takashima;T. Takiguchi
wav2vec 2.0 によるラベル無し音声を用いた脳性麻痺患者の音声認識
使用 wav2vec 2.0 对脑瘫患者使用未标记语音进行语音识别
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:松坂 勇樹;高島 遼一;滝口 哲也
- 通讯作者:滝口 哲也
音響イベントのゼロショット学習における属性情報の拡張
扩展声学事件零样本学习中的属性信息
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Lin Yi-Han;高島 遼一;滝口 哲也
- 通讯作者:滝口 哲也
器質性構音障害者向け音声認識モデルにおける発話辞書適応方式の比較検討
器质性构音障碍患者语音识别模型中语音词典适应方法的比较研究
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:冨士原 健斗;高島 遼一;杉山 千尋;田中 信和;野原 幹司;野崎 一徳;滝口 哲也
- 通讯作者:滝口 哲也
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
高島 遼一其他文献
複数の矛盾する情報に関する協調的推論を促すCSCL の認識的足場かけに関する予備的評価
CSCL 认知支架的初步评估,以鼓励对多个矛盾信息进行协作推理
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
澤 佑哉;相原 龍;高島 遼一;滝口 哲也;今井 良枝;望月俊男,クラーク A. チン,ランディ M. ジマーマン,ミャッミンスェ,テイミンカウン,関根聖二 - 通讯作者:
望月俊男,クラーク A. チン,ランディ M. ジマーマン,ミャッミンスェ,テイミンカウン,関根聖二
書字の読みやすさ(legibility)の客観的評価法作成の試み 第2報
尝试创建一种客观的笔迹易读性评估方法,第 2 部分
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
牟 尚泱;陳 金輝;高島 遼一;滝口 哲也;宇都雅輝,林真由;奥村智人・三浦朋子・水谷翠・富永絵理子・福井美保・荻布優子・川崎聡大・若宮英司 - 通讯作者:
奥村智人・三浦朋子・水谷翠・富永絵理子・福井美保・荻布優子・川崎聡大・若宮英司
Ancient Japanese glass imported from Eurasia as revealed by on site XRF
现场 XRF 显示从欧亚大陆进口的古代日本玻璃
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
片平 健太;足立 優司;田井 清登;高島 遼一;滝口 哲也;Izumi NAKAI and Madoka MURAKUSHI - 通讯作者:
Izumi NAKAI and Madoka MURAKUSHI
構音障害者音声認識における自己教師あり学習と疑似ラベリングの動的重み付きマルチタスク学習
构音障碍语音识别中自监督学习和伪标记的动态加权多任务学习
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
澤 佑哉;相原 龍;高島 遼一;滝口 哲也;今井 良枝 - 通讯作者:
今井 良枝
高島 遼一的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('高島 遼一', 18)}}的其他基金
音源位置情報を用いた単一マイクロホンによる雑音抑圧法
利用声源位置信息的单麦克风噪声抑制方法
- 批准号:
11J02495 - 财政年份:2011
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for JSPS Fellows