Speech recognition technology for language documentation: a case study on Sakhalin Ainu
语言文献的语音识别技术:以萨哈林岛阿伊努语为例
基本信息
- 批准号:22K17952
- 负责人:
- 金额:$ 3万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Early-Career Scientists
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2027-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
本研究では深層学習に基づく音声認識モデルを応用することで、言語研究における音声資料解析の負担を軽減することが目的である。具体的には、村崎恭子氏が樺太アイヌ語の母語話者と協力し録音した音声資料の文字起こし作業の自動化を可能とするシステムの開発に取り組んでいる。令和4年度は先ず、自己教師学習のために合計234時間のアイヌ語音声データを収集した。また、音声認識システムのファインチューニングのための教師データを作成した。具体的には、対象データの一部である『樺太アイヌの民話(ウチャシクマ):ウェネネカイペ物語3編』に掲載されているテキストの電子化を実施し、音声ファイルとテキストデータのアラインメントを行った。また対象データの他に、文字起こしされている70時間以上のアイヌ語音声資料を収集した。さらに、マルチリンガル・ファインチューニングの実験のために、アイヌ語以外の言語(日本語と英語)の音声データ(合計150時間程度)を獲得した。次に、上記のデータ及び既存の事前学習済みの音声モデルを用いて実験を行い、その結果として下記のことが分かった:①対象データの音声認識において文字誤り率が10%以下、語単誤り率が30%以下の音声認識モデルが得られた。②対象言語の小規模データで自己教師学習を継続することで事前学習済みの音声モデルの精度を大幅に改善できる。③対象言語の教師データが非常に少量である場合、同じ語族に属する言語(北海道アイヌ語)若しくは、言語系統上の親縁関係はないが音韻体系上の類似度が比較的に高い言語(日本語)のデータをファインチューニングの際に追加することで音声認識の精度を改善できる。④ただし、マルチリンガル・ファインチューニングの効果が確認できたのは対象言語のデータによって継続事前学習が実施された後のモデルのみである。
This study aims at reducing the burden of sound data analysis in speech research and deep learning. The specific purpose of this paper is to develop a system for automatic text generation of audio data by means of collaboration between native speakers of the Japanese language and Murasaki Kyoko. In 2004, the total number of teachers who studied was 234. The teacher's knowledge of sound and sound is the key to the success of the project. Specifically, a part of the object data is "Hua Tai Ai Ai Yi Zhi Min Hua (): Ai Pi Story 3", which is published in "The electronic implementation of the music and the music of the music and the music of the music." The collection of audio and video data for more than 70 years from the beginning of the text In addition, the speech quality of Japanese and English (total 150 years) was improved. Second, the above records and the existing pre-learning center of the sound and sound recognition are used in the middle of the implementation, and the results are recorded in the following points: ① The sound recognition of the image is recognized in the middle of the text error rate of less than 10%, and the language error rate of less than 30%. (2) For small-scale speech, teachers learn to improve the accuracy of speech in advance. (3) For example, if the teacher of the image speech has a very small number of cases, the speech belongs to the same language family (Hokkaido language), if the affinity relationship in the speech system is high, the similarity in the phonological system is high, and the accuracy of the recognition of the sound is improved when the teacher of the image speech (Japanese) has a small number of cases. 4. To confirm the results of the study of the target language in advance of the implementation of the study of the target language in advance.
项目成果
期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Adapting multilingual speech representation model for a new, underresourced language through multilingual fine-tuning and continued pretraining
通过多语言微调和持续预训练,使多语言语音表示模型适应新的资源不足的语言
- DOI:10.1016/j.ipm.2022.103148
- 发表时间:2023
- 期刊:
- 影响因子:8.6
- 作者:Nowakowski Karol;Ptaszynski Michal;Murasaki Kyoko;Nieuwazny Jagna
- 通讯作者:Nieuwazny Jagna
危機言語の記録保存のための情報処理技術―アイヌ語の音声解析技術に着目して―
保存濒危语言记录的信息处理技术 - 聚焦阿伊努语语音分析技术 -
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Nowakowski Karol;Ptaszynski Michal;Murasaki Kyoko;Nieuwazny Jagna
- 通讯作者:Nieuwazny Jagna
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
ノヴァコフスキ カロル其他文献
ノヴァコフスキ カロル的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
樺太アイヌ語とニヴフ語の音声資料の記録と保存
萨哈林阿伊努语和尼夫赫语音频材料的录制和保存
- 批准号:
12039218 - 财政年份:2000
- 资助金额:
$ 3万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas (A)
樺太アイヌ語の記述的研究(2)
萨哈林阿伊努语描述性研究(二)
- 批准号:
05451089 - 财政年份:1993
- 资助金额:
$ 3万 - 项目类别:
Grant-in-Aid for General Scientific Research (B)














{{item.name}}会员




