基于潜在语义对偶空间的新词翻译自动识别方法研究
批准号:
61462045
项目类别:
地区科学基金项目
资助金额:
45.0 万元
负责人:
王明文
依托单位:
学科分类:
F0211.信息检索与社会计算
结题年份:
2018
批准年份:
2014
项目状态:
已结题
项目参与者:
左家莉、罗远胜、吴根秀、徐凡、廖海波、付翠琴、徐雄飞、孟祥申、刘燕
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
在全球化时代的跨语言交流中,新词的出现已经成为语言处理研究领域不可避免的语言现象。在统计机器翻译中,新词自动识别、新词翻译、旧词新义和旧词新译给机器翻译系统带来了挑战,也很大程度上影响其多语言信息处理性能。如何自动识别新词,并有效消除旧词新义、旧词新译带来的歧义成为提高机器翻译系统性能的关键。本项目主要以我们已完成的国家自然科学基金项目中提出的双语潜在语义对偶空间的研究工作为基础,重点研究分析在线多语言文本中的新词(即新出现词语和赋以新义的原有词语)翻译问题,区别于传统的统计机器翻译方法,拟运用主流的子空间分析和潜在语义分析等理论,建立双语平行语料库中的双语潜在语义对应关系,构造潜在语义对偶空间;研究自动识别新词翻译的算法和未登录词识别算法;建立新词概率词典和更新已有词翻译概率,修正词汇化翻译概率;在理论上证明和实验中验证新模型和方法的有效性,为统计机器翻译研究提供一种新思路和理论依据。
英文摘要
It is inevitable that the new words continuously emerge in cross-language communication in the era of globalization. Automatic identification and translation of new words, new meaning and new translation of the old words in statistical machine translation bring challenges to machine translation system. They also have great effect on performance of multilingual information processing. How to automatically detecting new words, disambiguate new meaning and new translation of new words is key to improve machine translation system performance. Based on bilingual latent semantic dual space proposed in National Natural Science Foundation of China project that we completed, the project focuses on translating new word in online multilingual text. The new word is defined as the emerging word or the old word is endowed with the new meaning. Unlike the traditional method of statistical machine translation, we will utilize the theories of subspace analysis and latent semantic analysis, model the bilingual latent semantic correspondence in bilingual parallel corpus and build latent semantic dual space. In the space, we will design automatic recognition algorithms of new word translation and identification algorithm of out-of-vocabulary. After matching the translation of new words and identifying the out-of-vocabulary, we will construct dictionary for new words with translation probability and update the probabilities of old word. Then we will refine terms translation probabilities. Furthermore, the new models and methods are proved in theory and verified in experiment, also become new ideas and theoretical basis for statistical machine translation.
在机器翻译中,新词自动识别、新词翻译、旧词新义和旧词新译给机器翻译系统带来了挑战。如何自动识别新词,并有效消除旧词新义、旧词新译带来的歧义成为提高机器翻译系统性能的关键。本项目主要运用主流的子空间分析理论和最新的深度学习理论,重点研究了多语言文本中的新词翻译和识别问题。项目组成员共发表相关论文42篇,成功承办了NLP&CC 2015、SMP2016、YSSNLP2017等学术会议,培养12名硕士,在读博士4名,邀请伊利诺伊大学香槟分校韩家炜教授、加拿大蒙特利尔大学聂建云教授、清华大学黄昌宁教授等知名学者来校讲学和交流。主要研究工作有:.1、大中华区汉语方言识别研究:从维基百科和新闻网站构建了大中华区汉语方言词对齐语料库,提出了一个基于word2vec的两阶段大中华区词对齐模型;使用字符级N元的常用特征、基于PMI和词对准特征等识别中国大陆、港澳台、马来西亚、新加坡等大中华区汉语方言;构建了汉语客家话平行语料库,使用中文字符、汉语拼音和方言发音等形式的二级细粒度来表示,并提出了相应的新词识别算法。.2、机器翻译中的多义词识别研究:提出一种从单语语料中抽取出特定领域的复述表来替换一般领域的复述,利用改进的M-L方法从单语语料过滤出特定领域子语料,后在过滤后的子语料中利用Markov网络模型抽取特定领域复述表,以提高同义词和近义词的匹配精度。.3、基于潜在语义空间的跨模态检索表示学习算法研究:基于特征投影策略,提出了两种有效的语义关联挖掘方法,综合考虑了同一模态内或跨模态的语义相关性。通过引入线性分类器,使得各模态都能够分别学习到各自具有判别性的二进制哈希码,同时通过耦合哈希表示在嵌入语义空间中最大化不同模态之间的相关性,从而捕捉到不同模态之间的语义相关性。.4、基于深度学习的机器翻译质量自动评价研究:针对机器翻译中的近义词和多义词会影响翻译性能,研究使用嵌入特征以及源句子和机器翻译的交叉熵,基于神经网络的自动后编辑,基于深度学习的上下文单词预测模型和矩阵分解模型提取句子向量特征,综合N-Gram特征和句子语义映射特征等提升翻译质量。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2016
期刊:山东大学学报(理学版)
影响因子:--
作者:万中英;王明文;左家莉;万剑怡
通讯作者:万剑怡
Optimizing Automatic Evaluation of Machine Translation with the ListMLE Approach
使用 ListMLE 方法优化机器翻译的自动评估
DOI:10.1145/3226045
发表时间:2018-11
期刊:ACM Transactions on Asian and Low-Resource Language Information Processing
影响因子:2
作者:李茂西;王明文
通讯作者:王明文
DOI:10.1007/s00500-015-1977-x
发表时间:2017-05-01
期刊:SOFT COMPUTING
影响因子:4.1
作者:Zhou, Xinyu;Wang, Hui;Wan, Jianyi
通讯作者:Wan, Jianyi
DOI:--
发表时间:2016
期刊:中文信息学报
影响因子:--
作者:左家莉;王明文;吴水秀;万剑怡
通讯作者:万剑怡
DOI:--
发表时间:2017
期刊:北京大学学报(自然科学版)
影响因子:--
作者:张丽林;李茂西;肖文艳;万剑怡;王明文
通讯作者:王明文
无感情景下教师多模态教学言行的统一表示与匹配研究
- 批准号:--
- 项目类别:地区科学基金项目
- 资助金额:34万元
- 批准年份:2022
- 负责人:王明文
- 依托单位:
基于概率度量空间的词表示及词语相关性度量研究
- 批准号:61876074
- 项目类别:面上项目
- 资助金额:62.0万元
- 批准年份:2018
- 负责人:王明文
- 依托单位:
文本自动分类中样本重要性模型及应用研究
- 批准号:61272212
- 项目类别:面上项目
- 资助金额:70.0万元
- 批准年份:2012
- 负责人:王明文
- 依托单位:
基于潜在语义对偶空间的跨语言信息检索理论和算法研究
- 批准号:60963014
- 项目类别:地区科学基金项目
- 资助金额:22.0万元
- 批准年份:2009
- 负责人:王明文
- 依托单位:
国内基金
海外基金















{{item.name}}会员


