Speech recognition technology for language documentation: a case study on Sakhalin Ainu

语言文献的语音识别技术:以萨哈林岛阿伊努语为例

基本信息

项目摘要

本研究では深層学習に基づく音声認識モデルを応用することで、言語研究における音声資料解析の負担を軽減することが目的である。具体的には、村崎恭子氏が樺太アイヌ語の母語話者と協力し録音した音声資料の文字起こし作業の自動化を可能とするシステムの開発に取り組んでいる。令和4年度は先ず、自己教師学習のために合計234時間のアイヌ語音声データを収集した。また、音声認識システムのファインチューニングのための教師データを作成した。具体的には、対象データの一部である『樺太アイヌの民話(ウチャシクマ):ウェネネカイペ物語3編』に掲載されているテキストの電子化を実施し、音声ファイルとテキストデータのアラインメントを行った。また対象データの他に、文字起こしされている70時間以上のアイヌ語音声資料を収集した。さらに、マルチリンガル・ファインチューニングの実験のために、アイヌ語以外の言語(日本語と英語)の音声データ(合計150時間程度)を獲得した。次に、上記のデータ及び既存の事前学習済みの音声モデルを用いて実験を行い、その結果として下記のことが分かった:①対象データの音声認識において文字誤り率が10%以下、語単誤り率が30%以下の音声認識モデルが得られた。②対象言語の小規模データで自己教師学習を継続することで事前学習済みの音声モデルの精度を大幅に改善できる。③対象言語の教師データが非常に少量である場合、同じ語族に属する言語(北海道アイヌ語)若しくは、言語系統上の親縁関係はないが音韻体系上の類似度が比較的に高い言語(日本語)のデータをファインチューニングの際に追加することで音声認識の精度を改善できる。④ただし、マルチリンガル・ファインチューニングの効果が確認できたのは対象言語のデータによって継続事前学習が実施された後のモデルのみである。
This study で は deep learning に base づ く sounds know モ デ ル を 応 with す る こ と で, speech research に お け る sounds data parsing の burden を 軽 minus す る こ と が purpose で あ る. Specific に は village battery, kyoko's が birch too ア イ の ヌ language native words と together し recording し た sounds data の text up こ し homework の automation を may と す る シ ス テ ム の open 発 に group take り ん で い る. In the fourth year of the Reiwa era, a total of 234 hours were spent on <s:1> first ず and my own teacher 's study of <s:1> ために. A total of 234 hours were spent on <s:1> ア ヌ ヌ phonetic sound デ タを タを タを collection た. ま た, sounds シ ス テ ム の フ ァ イ ン チ ュ ー ニ ン グ の た め の teachers デ ー タ を made し た. Specific に は, like デ seaborne ー タ の a で あ る "birch too ア イ ヌ の people words (ウ チ ャ シ ク マ) : ウ ェ ネ ネ カ イ ペ monogatari 3 Ed" に first white jasmines load さ れ て い る テ キ ス ト の electronic を be し, sounds フ ァ イ ル と テ キ ス ト デ ー タ の ア ラ イ ン メ ン ト を line っ た. ま た like デ seaborne ー タ の he に, text こ し さ れ て い る above 70 time の ア イ ヌ speech sound data を 収 set し た. さ ら に, マ ル チ リ ン ガ ル · フ ァ イ ン チ ュ ー ニ ン グ の be 験 の た め に, ア イ ヌ language の words (English) Japanese language と の sounds デ ー タ (total 150 degree) を し た. に, written の デ ー タ and び existing の prior learning 済 み の sounds モ デ ル を with い て be 験 を い, そ の results と し て under remember の こ と が points か っ た : (1) as seaborne デ ー タ の sounds know に お い て text が error り rate below 10%, 単 が error り rate below 30% の sounds know モ デ ル が must ら れ た. (2) polices that words の small-scale デ ー タ で his teacher learning を 継 続 す る こ と で prior learning 済 み の sounds モ デ ル の を に significantly improve precision で き る. (3) words like seaborne の teachers デ ー タ が very に small で あ る occasions, with じ language に genus す る words (Hokkaido ア イ ヌ) if し く は, speech system の pro try masato is は な い が phonological system の が compare similar degrees high に い words (Japanese) の デ ー タ を フ ァ イ ン チ ュ ー ニ ン グ の interstate に additional す る こ と で sounds know の を improve で precision Youdaoplaceholder0 る. (4) た だ し, マ ル チ リ ン ガ ル · フ ァ イ ン チ ュ ー ニ ン グ の unseen fruit が confirm で き た の は polices that words の デ ー タ に よ っ て 継 続 prior learning が be applied さ れ た after の モ デ ル の み で あ る.

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Adapting multilingual speech representation model for a new, underresourced language through multilingual fine-tuning and continued pretraining
通过多语言微调和持续预训练,使多语言语音表示模型适应新的资源不足的语言
  • DOI:
    10.1016/j.ipm.2022.103148
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    8.6
  • 作者:
    Nowakowski Karol;Ptaszynski Michal;Murasaki Kyoko;Nieuwazny Jagna
  • 通讯作者:
    Nieuwazny Jagna
樺太アイヌ語の音声認識用にファインチューニングされたXLSR-53モデル
针对萨哈林阿伊努语语音识别进行微调的 XLSR-53 模型
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
危機言語の記録保存のための情報処理技術―アイヌ語の音声解析技術に着目して―
保存濒危语言记录的信息处理技术 - 聚焦阿伊努语语音分析技术 -
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Nowakowski Karol;Ptaszynski Michal;Murasaki Kyoko;Nieuwazny Jagna
  • 通讯作者:
    Nieuwazny Jagna
アイヌ語のデータで事前学習を継続したXLSR-53モデル
使用阿伊努语言数据继续预训练的 XLSR-53 模型
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

ノヴァコフスキ カロル其他文献

ノヴァコフスキ カロル的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

KATSUTA Shuichi's Pedagogic Discourse as a Heritage in Contemporary Pedagogy in Japan
胜田修一的教育学话语是日本当代教育学的遗产
  • 批准号:
    15K17347
  • 财政年份:
    2015
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
樺太アイヌ語とニヴフ語の音声資料の記録と保存
萨哈林阿伊努语和尼夫赫语音频材料的录制和保存
  • 批准号:
    12039218
  • 财政年份:
    2000
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (A)
樺太アイヌ語の記述的研究(2)
萨哈林阿伊努语描述性研究(二)
  • 批准号:
    05451089
  • 财政年份:
    1993
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了