オンライン講義の学びを活性化するソーシャルアノテーションに基づく講義要約システム

基于社交标注的讲座摘要系统，盘活在线讲座学习

基本信息

批准号：
21K13641
负责人：
太田健吾
金额：
$ 3万
依托单位：
Anan National College of Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Early-Career Scientists
财政年份：
2021
资助国家：
日本
起止时间：
2021-04-01 至 2024-03-31
项目状态：
已结题

项目摘要

本研究では、オンライン講義の動画やライブ配信に付与された学生のリアクション（投稿コメントや「いいね」など）と、講師の作成した講義コンテンツ（講義スライドやレジュメなど）を学習データに活用することで、講義音声の音声認識（自動書き起こし）と自動要約（重要な部分の自動抽出）を高精度化することを目指している。2022年度は、以下の研究内容を実施した。【内容1】本研究の対象とする講義音声のような自由発話では、特定の原稿などを読み上げる朗読音声とは異なり、フィラーや言い淀みをはじめとする非流暢的音響特徴が音声認識における誤認識の原因となる。こうした話し言葉特有の問題をEnd-to-End型の音声認識で考慮するために、非流暢ラベルを用いる手法を昨年度に提案した。今年度は、大規模言語モデルBERT（Bidirectional Encoder Representations from Transformers）のfine-tuningに基づいて、非流暢ラベルを含まない書き言葉のテキストデータに対し、非流暢ラベルを疑似的に挿入する手法を提案した。これにより、書籍などの書き言葉のテキストデータを、講義音声などの自由発話の音声認識モデルの学習に効果的に利用することが可能となる。学術講演を対象とした評価実験により、提案手法の有効性を示した。【内容2】本研究の対象とする講義音声では、専門性の高い発話内容が多く含まれることから、専門分野特有の言い回しや専門用語などを高精度に認識できることが重要である。このような場合には、音声認識モデルの学習において獲得される音響情報と言語情報のうち、特に言語情報を効果的に利用する手法が必要となる。今年度は、このための方法として昨年度に提案した Density Ratio Approach に基づく認識手法が、日本語の音声においても有効であることを評価実験によって示した。

这项研究旨在通过利用学生反应（例如发表评论或喜欢）对在线讲座视频和现场直播，以及教师（例如讲师的讲师slides and Remumes fear slice slide and promime s of Mearning数据），旨在提高讲座音频的语音识别的准确性（自动转录）和讲座音频的自动摘要（自动提取）。在2022财年，进行了以下研究内容。 [内容1]在言语的自由言语中，讲座是这项研究的主题，这与阅读语音不同的是大声朗读特定的手稿，非纯粹的声学特征（例如填充物和沉默）是语音识别中的错误认识的原因。去年，我们提出了一种使用非浮力标签来考虑这些独特的语言问题的方法，并端到端语音识别。今年，我们提出了一种基于大规模语言模型bert的微调（来自变形金刚的双向编码器表示）的微调，将非浮动标签伪造为不包含非浮力标签的书面单词的文本数据。这使得可以有效利用书面词（例如书籍）的文本数据来学习语音识别模型，例如讲座语音。通过针对学术讲座的评估实验证明了所提出方法的有效性。 [内容2]该研究针对的讲座音频包含许多高度专业化的话语，因此能够准确地识别专业领域特定的短语和术语非常重要。在这种情况下，必须有效地利用语言信息的方法，在学习语音识别模型期间获得的声学信息和语言信息中。今年，我们通过评估实验证明了基于密度比方法的识别方法（我们去年提出的）对于日本语音也有效。

项目成果

期刊论文数量（15）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

言い淀みラベル付けによる非流暢発話のEnd-to-End音声認識

使用犹豫标记对不流畅语音进行端到端语音识别

DOI：
发表时间：
2021
期刊：
影响因子：
0
作者：
Yoshimitsu Miyazawa;Maomi Ueno;森大輝，太田健吾，西村良太，小川厚徳，北岡教英;宮澤芳光，植野真臣;堀井こはる，福田芽衣子，太田健吾，西村良太，北岡教英;宮澤　芳光，植野真臣;森大輝，太田健吾，西村良太，小川厚徳，北岡教英;堀井こはる，福田芽衣子，太田健吾，西村良太，北岡教英
通讯作者：
堀井こはる，福田芽衣子，太田健吾，西村良太，北岡教英

Advanced language model fusion method for encoder-decoder model in Japanese speech

日语语音编码器-解码器模型的高级语言模型融合方法

DOI：
发表时间：
2021
期刊：
影响因子：
0
作者：
Daiki Mori;Kengo Ohta;Ryota Nishimura;Atsunori Ogawa;Norihide Kitaoka
通讯作者：
Norihide Kitaoka

言い淀みを考慮した自由発話のEnd-to-End音声認識

考虑犹豫的自由言论的端到端语音识别

DOI：
发表时间：
2021
期刊：
影响因子：
0
作者：
Koharu Horii;Meiko Fukuda;Kengo Ohta;Ryota Nishimura;Atsunori Ogawa;Norihide Kitaoka;森大輝，太田健吾，西村良太，小川厚徳，北岡教英;堀井こはる，福田芽衣子，太田健吾，西村良太，北岡教英
通讯作者：
堀井こはる，福田芽衣子，太田健吾，西村良太，北岡教英

自発的発話認識のためのBERTによる非流暢文生成に基づく言語モデリング

使用 BERT 进行自发语音识别的基于非流利句子生成的语言建模

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
Tsunomori Y;Higashinaka R;Yoshimura T;Yoshinori;堀井こはる，太田健吾，西村良太，小川厚徳，北岡教英
通讯作者：
堀井こはる，太田健吾，西村良太，小川厚徳，北岡教英

End-to-end音声認識モデルにおける暗黙的言語情報の置換法

端到端语音识别模型中的隐式语言信息替换方法

DOI：
发表时间：
2021
期刊：
影响因子：
0
作者：
Yoshimitsu Miyazawa;Maomi Ueno;森大輝，太田健吾，西村良太，小川厚徳，北岡教英;宮澤芳光，植野真臣;堀井こはる，福田芽衣子，太田健吾，西村良太，北岡教英;宮澤　芳光，植野真臣;森大輝，太田健吾，西村良太，小川厚徳，北岡教英
通讯作者：
森大輝，太田健吾，西村良太，小川厚徳，北岡教英