Speech recognition technology for language documentation: a case study on Sakhalin Ainu

语言文献的语音识别技术:以萨哈林岛阿伊努语为例

基本信息

项目摘要

本研究では深層学習に基づく音声認識モデルを応用することで、言語研究における音声資料解析の負担を軽減することが目的である。具体的には、村崎恭子氏が樺太アイヌ語の母語話者と協力し録音した音声資料の文字起こし作業の自動化を可能とするシステムの開発に取り組んでいる。令和4年度は先ず、自己教師学習のために合計234時間のアイヌ語音声データを収集した。また、音声認識システムのファインチューニングのための教師データを作成した。具体的には、対象データの一部である『樺太アイヌの民話(ウチャシクマ):ウェネネカイペ物語3編』に掲載されているテキストの電子化を実施し、音声ファイルとテキストデータのアラインメントを行った。また対象データの他に、文字起こしされている70時間以上のアイヌ語音声資料を収集した。さらに、マルチリンガル・ファインチューニングの実験のために、アイヌ語以外の言語(日本語と英語)の音声データ(合計150時間程度)を獲得した。次に、上記のデータ及び既存の事前学習済みの音声モデルを用いて実験を行い、その結果として下記のことが分かった:①対象データの音声認識において文字誤り率が10%以下、語単誤り率が30%以下の音声認識モデルが得られた。②対象言語の小規模データで自己教師学習を継続することで事前学習済みの音声モデルの精度を大幅に改善できる。③対象言語の教師データが非常に少量である場合、同じ語族に属する言語(北海道アイヌ語)若しくは、言語系統上の親縁関係はないが音韻体系上の類似度が比較的に高い言語(日本語)のデータをファインチューニングの際に追加することで音声認識の精度を改善できる。④ただし、マルチリンガル・ファインチューニングの効果が確認できたのは対象言語のデータによって継続事前学習が実施された後のモデルのみである。
这项研究旨在通过应用基于深度学习的语音识别模型来减少语言研究中语音材料的负担。具体来说,Murazaki Kyoko正在与Sakhalin Ainu的母语人士合作,以开发一种系统,该系统将能够自动化记录的音频材料。在2022年,总共收集了234小时的AINU音频数据进行自学学习。此外,还创建了用于微调语音识别系统的教师数据。具体而言,在“萨哈林·阿伊纳民俗故事(Uchasikuma)中发表的文本:Wenene Kaipe的三个故事”,该文本是目标数据的一部分,是数字化的,音频文件和文本数据是对齐的。除了目标数据外,我们还收集了70个小时的转录AINU音频材料。此外,对于多语言微调实验,采集了AINU(日语和英语)以外的语言的音频数据(总计约150小时)。接下来,我们使用上述数据和现有的语音模型进行了实验,结果,我们发现了以下内容:1)在语音识别目标数据时,获得了字符错误率为10%或更少的字符错误率,单词错误率为30%或更少的单词错误率。 2)使用目标语言的小规模数据继续进行自学学习可以大大提高预训练的语音模型的准确性。 3)如果目标语言的教师数据数量很小,则可以通过添加属于同一语言家族(北海道Ainu)或语言(日语)的语言的数据来提高语音识别的准确性,这些语言在语言系统中没有关系,但在微调过程中在语音系统中具有相对较高的相似性。 ④否,只有在使用目标语言的数据进行连续的预性学习后,模型中只有在模型中确认了多语言微调的效果。

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Adapting multilingual speech representation model for a new, underresourced language through multilingual fine-tuning and continued pretraining
通过多语言微调和持续预训练,使多语言语音表示模型适应新的资源不足的语言
  • DOI:
    10.1016/j.ipm.2022.103148
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    8.6
  • 作者:
    Nowakowski Karol;Ptaszynski Michal;Murasaki Kyoko;Nieuwazny Jagna
  • 通讯作者:
    Nieuwazny Jagna
樺太アイヌ語の音声認識用にファインチューニングされたXLSR-53モデル
针对萨哈林阿伊努语语音识别进行微调的 XLSR-53 模型
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
アイヌ語のデータで事前学習を継続したXLSR-53モデル
使用阿伊努语言数据继续预训练的 XLSR-53 模型
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
危機言語の記録保存のための情報処理技術―アイヌ語の音声解析技術に着目して―
保存濒危语言记录的信息处理技术 - 聚焦阿伊努语语音分析技术 -
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Nowakowski Karol;Ptaszynski Michal;Murasaki Kyoko;Nieuwazny Jagna
  • 通讯作者:
    Nieuwazny Jagna
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

ノヴァコフスキ カロル其他文献

ノヴァコフスキ カロル的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

アイヌ語樺太方言における動詞の数表示体系に関する研究―言語類型論の観点から―
阿伊努语卡拉夫托方言动词数系研究——语言类型学的视角
  • 批准号:
    20J11234
  • 财政年份:
    2020
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
サハリン先住民の言語資料を対象とする記録と保存に関する総合的研究
萨哈林岛土著语言资料记录与保存综合研究
  • 批准号:
    13019202
  • 财政年份:
    2001
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
樺太アイヌ語とニヴフ語の音声資料の記録と保存
萨哈林阿伊努语和尼夫赫语音频材料的录制和保存
  • 批准号:
    12039218
  • 财政年份:
    2000
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (A)
樺太アイヌ語の記述的研究(2)
萨哈林阿伊努语描述性研究(二)
  • 批准号:
    05451089
  • 财政年份:
    1993
  • 资助金额:
    $ 3万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了