赣方言篇章平行语料库构建及计算模型研究

批准号:
61772246
项目类别:
面上项目
资助金额:
59.0 万元
负责人:
徐凡
依托单位:
学科分类:
F0211.信息检索与社会计算
结题年份:
2021
批准年份:
2017
项目状态:
已结题
项目参与者:
李茂西、曾锦山、周新宇、刘长红、肖文艳、张辰麟、杜舒静、谭亦鸣、田明明
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
方言作为中华民族优秀的一种非物质文化遗产,其不应该随普通话的日益普及而消失。针对目前方言的标注体系有待完善、语料库构建和计算模型研究等方面的不足等问题,本项目拟在以下方面进行深入的研究和探索:(1)建立一套适用于赣方言处理的标注规范,并手工标注完成一定规模的高质量赣方言篇章平行语料库。(2)基于标注的平行语料,研究基于潜在语义对偶空间的赣方言词对齐模型,并利用自动后处理的词映射机制对抽取的词对齐加以修正。(3)通过融合抽取的词对齐、句子分布式表示等多方面的特征,研究递归神经网络下的句子级赣方言识别模型和基于强化学习机制的篇章级赣方言识别模型,并探索赣方言篇章衔接性与连贯性联合学习机制。本项目开展的研究工作对于推进教育部的语言资源保护工程建设具有重要理论意义和应用价值,同时也有利于江西省有声资源库的后续开发和利用。
英文摘要
Dialect, an excellent intangible cultural heritage of China, should not vanish with the increasing popularization of Mandarin. To improve the dialect annotation system and solve the problems of corpus building and computational modelling, we will work on the following aspects: (1) Propose an annotation scheme for the Gan dialect handling and manually build a high-quality annotated discourse-level parallel corpus of the Gan dialect with a certain scale. (2) Study how the latent semantic dual space mechanism and the automatic post-handling of the word mapping can interact with and benefit from each other to generate the word alignment of the Gan dialect based on the annotated corpus. (3) Propose optimal identification models of the Gan dialect via studying the recurrent neural network and deep reinforcement learning for the sentence-level and discourse-level dialect discrimination respectively based on the fusion of the extracted word alignment and distributed sentence representation features. Meanwhile, study the combination learning mechanism for discourse cohesion and discourse coherence in the Gan dialect. This research has important theoretical significance and application value for promoting the Project of Chinese Language Resources Protection proposed by the Ministry of Education. It is also beneficial to the subsequent development and utilization of the audio resource of Jiangxi Province.
四年来,本课题总体按照申请书计划顺利开展,围绕赣方言篇章平行语料库构建及计算模型的完成情况及取得的成果已达到预期目标。本课题已完成的研究内容包括五个方面(其中第一项、第二项、第三项和第四项为申请书计划研究内容,第五项为本课扩展研究内容):.•一是建立了一套适用于赣方言处理的标注规范,并采用众包与传统方式结合方法手工标注了一定规模的高质量多模态赣方言篇章平行语料库。本课题构建了两套多模态(语音和文本)江西境内方言语料库。其中一套赣方言数据集包含310篇文档的江西境内19个方言点131.50小时的方言朗读语料。该语料包含6种题材,分别是新闻、诗歌、故事、讲座、散文、公文(邀请函、演 讲词、信件、通知)。另一套赣方言数据集包含词汇、故事和例句三种类型文本的2246人朗读语料,共26.50GB大小,6375条语音文件,总时长约421小时。.•二是围绕赣方言语种和语音识别问题,分别提出了①基于迁移学习和数据增强的赣方言识别深度学习模型②基于卷积神经网络和注意力机制的赣和③基于自注意力的端到端方言语音识别模型。基于国际基准语料上的实验表明了本课提出的方法优于代表性基准模型。.•三是围绕赣方言自动分区问题,提出了基于CNN的自编码降维语谱图的深度学习方言自动分区模型,对降维后的语音特征分别采用K均值算法聚类、高斯混合聚类和层次聚类对方言自动分区。实验结果表明,维度为16时语谱图和MFCC下的拼接特征聚类效果与传统人工方言分区较为接近。该自动分区模型可以从一定程度上缓解人工方言分区的主观性。.•四是围绕大中华区的语言变体识别问题,提出了①基于混合SENet(Squeeze-and-Excitation network)的深度学习模型②围绕语言变体语料库及计算模型,课题负责人完成了学术独著一部。.•五是围绕扩充性的多模态虚假信息检测及深度学习优化算法研究。针对社交媒体虚假信息检测,本课题对社交媒体虚假信息检测进行了深度综述(包含虚假信息及相近概念定义、问题的形式化描述、语料库、代表性方法、模型优缺点、单模态和多模态、未来展望等),同时提出了融合主题模型、图像描述、世界知识图谱、语言知识图谱的虚假信息检测深度学习模型。针对深度学习优化算法方面,本课题组成员提出了一系列加速算法收敛的模型。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2022
期刊:中文信息学报
影响因子:--
作者:裘白莲;王明文;李茂西;陈聪;徐凡
通讯作者:徐凡
DOI:--
发表时间:2021
期刊:信号处理
影响因子:--
作者:徐凡;杨剑峰;颜为之;王明文
通讯作者:王明文
Constructive neural network learning
构造性神经网络学习
DOI:10.1109/tcyb.2017.2771463
发表时间:2019
期刊:IEEE Transactions on Cybernetics
影响因子:11.8
作者:Shaobo Lin;Jinshan Zeng;Xiaoqin Zhang
通讯作者:Xiaoqin Zhang
DOI:10.1145/3389021
发表时间:2020-06
期刊:ACM Transactions on Asian and Low-Resource Language Information Processing; CCF公布和推荐的人工智能领域权威SCI期刊
影响因子:--
作者:Fan Xu;Jian Luo;Mingwen Wang;Guodong Zhou
通讯作者:Guodong Zhou
DOI:10.1109/tsp.2018.2818081
发表时间:2016-08
期刊:IEEE Transactions on Signal Processing
影响因子:5.4
作者:Jinshan Zeng;W. Yin
通讯作者:Jinshan Zeng;W. Yin
多模态社交媒体虚假信息检测研究
- 批准号:62162031
- 项目类别:地区科学基金项目
- 资助金额:37万元
- 批准年份:2021
- 负责人:徐凡
- 依托单位:
汉语篇章连贯性分析计算模型研究
- 批准号:61402208
- 项目类别:青年科学基金项目
- 资助金额:24.0万元
- 批准年份:2014
- 负责人:徐凡
- 依托单位:
国内基金
海外基金
