权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

Speech recognition technology for language documentation: a case study on Sakhalin Ainu

语言文献的语音识别技术：以萨哈林岛阿伊努语为例

基本信息

批准号：
22K17952
负责人：
ノヴァコフスキカロル
金额：
$ 3万
依托单位：
Tohoku University of Community Service and Science
依托单位国家：
日本
项目类别：
Grant-in-Aid for Early-Career Scientists
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2027-03-31
项目状态：
未结题

项目摘要

本研究では深層学習に基づく音声認識モデルを応用することで、言語研究における音声資料解析の負担を軽減することが目的である。具体的には、村崎恭子氏が樺太アイヌ語の母語話者と協力し録音した音声資料の文字起こし作業の自動化を可能とするシステムの開発に取り組んでいる。令和4年度は先ず、自己教師学習のために合計234時間のアイヌ語音声データを収集した。また、音声認識システムのファインチューニングのための教師データを作成した。具体的には、対象データの一部である『樺太アイヌの民話（ウチャシクマ）：ウェネネカイペ物語３編』に掲載されているテキストの電子化を実施し、音声ファイルとテキストデータのアラインメントを行った。また対象データの他に、文字起こしされている70時間以上のアイヌ語音声資料を収集した。さらに、マルチリンガル・ファインチューニングの実験のために、アイヌ語以外の言語（日本語と英語）の音声データ（合計150時間程度）を獲得した。次に、上記のデータ及び既存の事前学習済みの音声モデルを用いて実験を行い、その結果として下記のことが分かった：①対象データの音声認識において文字誤り率が10%以下、語単誤り率が30%以下の音声認識モデルが得られた。②対象言語の小規模データで自己教師学習を継続することで事前学習済みの音声モデルの精度を大幅に改善できる。③対象言語の教師データが非常に少量である場合、同じ語族に属する言語（北海道アイヌ語）若しくは、言語系統上の親縁関係はないが音韻体系上の類似度が比較的に高い言語（日本語）のデータをファインチューニングの際に追加することで音声認識の精度を改善できる。④ただし、マルチリンガル・ファインチューニングの効果が確認できたのは対象言語のデータによって継続事前学習が実施された後のモデルのみである。

This study では deep learning に base づく sounds know モデルを応 with することで, speech research における sounds data parsing の burden を軽 minus することが purpose である. Specific には village battery, kyoko's が birch too アイのヌ language native words と together し recording した sounds data の text up こし homework の automation を may とするシステムの open 発に group take りんでいる. In the fourth year of the Reiwa era, a total of 234 hours were spent on <s:1> first ず and my own teacher 's study of <s:1> ために. A total of 234 hours were spent on <s:1> アヌヌ phonetic sound デタをタをタを collection た. また, sounds システムのファインチューニングのための teachers データを made した. Specific には, like デ seaborne ータの a である "birch too アイヌの people words (ウチャシクマ) : ウェネネカイペ monogatari 3 Ed" に first white jasmines load されているテキストの electronic を be し, sounds ファイルとテキストデータのアラインメントを line った. また like デ seaborne ータの he に, text こしされている above 70 time のアイヌ speech sound data を収 set した. さらに, マルチリンガル · ファインチューニングの be 験のために, アイヌ language の words (English) Japanese language との sounds データ (total 150 degree) をした. に, written のデータ and び existing の prior learning 済みの sounds モデルを with いて be 験をい, その results として under remember のことが points かった : (1) as seaborne データの sounds know において text が error り rate below 10%, 単が error り rate below 30% の sounds know モデルが must られた. (2) polices that words の small-scale データで his teacher learning を継続することで prior learning 済みの sounds モデルのをに significantly improve precision できる. (3) words like seaborne の teachers データが very に small である occasions, with じ language に genus する words (Hokkaido アイヌ) if しくは, speech system の pro try masato is はないが phonological system のが compare similar degrees high にい words (Japanese) のデータをファインチューニングの interstate に additional することで sounds know のを improve で precision Youdaoplaceholder0 る. (4) ただし, マルチリンガル · ファインチューニングの unseen fruit が confirm できたのは polices that words のデータによって継続 prior learning が be applied された after のモデルのみである.