基于树到串藏语句法翻译若干关键技术研究
结题报告
批准号:
61363055
项目类别:
地区科学基金项目
资助金额:
45.0 万元
负责人:
华却才让
依托单位:
学科分类:
F0211.信息检索与社会计算
结题年份:
2017
批准年份:
2013
项目状态:
已结题
项目参与者:
赵海兴、陈玉忠、才智杰、索南才让、头旦才让、吉毛才让、杨措、华果才让、求毛措
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
依存结构作为语义分析的先决工作,有助于提高统计机器翻译的质量,为了解决统计机器翻译中的这一关键技术,拓展藏文信息处理的新研究领域,更好地为国内藏语机器翻译需求做服务。本项目在已经构建的大规模规范藏语语料库及现有研究基础上,将研究藏语依存句法树分析和处理技术,提出符合藏语句法特征的翻译模型和翻译方法,最终实现基于依存树到串藏语句法统计机器翻译系统。拟解决以下四个方面的问题:一是藏语依存句法标注规范的确立与藏语句法树库的构建技术;二是改进和完善项目组现有的藏语依存树分析工具;三是藏语开放词和封闭词的划分,通过研究头依存关系的抽取技术,设计并实现藏语句法翻译模型的训练工具;四是设计依存结构树到串翻译模型的解码算法,并实现翻译模型的解码器。
英文摘要
The dependency structure as a first step towards semantics, is believed to be helpful to improve translation quality. So in order to solve these key technologies of the Tibetan syntacitc statistical machine translation(SMT), to develop new research area of the Tibetan language information processing, and to better serve demand for the domestic Tibetan machine translation. We will analyse the Tibetan dependency syntax tree and its processing technology on normal large-scale corpus of the Tibetan and Chinese, then given translation model and decoding methods for Tibetan syntactic features, finally we will implement the Tibetan to Chinese SMT system, which used dependency to string model. For this reason, the project group intends to handle the problems of the following four aspects. Firstly, we will completely finish the definition of Tibetan dependency syntax grammars. Secondly, to improve and perfected our previous Tibetan dependency parser. Thirdly,to divide Tibetan word tags to two classifications of opening and closing word, study the technology of how to extract the head relation rules in dependency tree, and then we will develop the training tool for translation model. Fourth, we will design the decoding algorithm that used to decode dependency structure tree-to-string translation model, and after to implement syntactic SMT model decoder.
依存句法分析作为语义分析的先决工作,有助于提高统计和神经机器翻译的质量。为了解决藏语句法机器翻译中的一些键技术,拓展藏文信息处理的新研究领域,更好地为国内藏语机器翻译需求做服务。本项目研究了藏语依存句法树分析和处理技术,提出了符合藏语句法特征的翻译模型和翻译方法,并实现了基于依存树到串藏语句法统计机器翻译系统。解决了以下四个方面的问题:一是根据藏语自身特点制定了 36 类藏语依存句法标注规范,提出了新颖的半自动依存树库构建模式,实现了基于词对依存分类模型的半自动树库构建可视化工具。首次构建了藏语依存树库 TDTreebank V1.1,规模达 4万句。二是针对藏语特性提出融合丰富特征的统计藏语依存分析模型,实现了基于一层感知机模型的藏语依存句法分析器。解决了目前藏语还没有依存句法标注规范、树库和依存句法分析器的实际问题。 三是实现了藏语依存树到串模型翻译规则的抽取算法。根据依存树中依存关系的支配准则,用头-依存关系 HDR(head-dependent relation)片段对藏语依存树进行分解,保证每个 HDR 片段包含与其他 HDR 片段重叠的节点,使得只需替换作为基本操作来描述依存树的生成过程。四是实现了藏语依存树到串模型机器翻译的解码算法。选择自底向上的线图分析算法,由于在翻译规则中使用了子树一致性跨度的可接受 HDR片段识别方法,对头-依存基本结构单元的操作只作替换,而且调序信息也表示在翻译规则中,故不再需要调序模型,简化了翻译解码算法。采用了所有翻译规则的完全匹配策略翻译方案。实现了依存树到串藏汉机器翻译系统,本系统是目前第一个完成的基于藏语句法翻译模型的机器翻译系统,该系统奠定了基于藏语依存句法的翻译理论。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
On the Estrada index of cactus graphs
关于仙人掌图的 Estrada 指数
DOI:10.1016/j.dam.2015.09.026
发表时间:2016-04
期刊:Discrete Applied Mathematics
影响因子:1.1
作者:李发旭;赵海兴
通讯作者:赵海兴
DOI:--
发表时间:2014
期刊:计算机工程与应用
影响因子:--
作者:华却才让;姜文斌;赵海兴;刘群
通讯作者:刘群
DOI:--
发表时间:2016
期刊:中文信息学报
影响因子:--
作者:才智杰;才让卓玛
通讯作者:才让卓玛
DOI:--
发表时间:2015
期刊:青海师范大学民族师范学院学报
影响因子:--
作者:索南才让
通讯作者:索南才让
DOI:--
发表时间:2016
期刊:中文信息学报
影响因子:--
作者:华却才让;赵海兴
通讯作者:赵海兴
藏语语义依存分析及应用研究
  • 批准号:
    62166034
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    37万元
  • 批准年份:
    2021
  • 负责人:
    华却才让
  • 依托单位:
国内基金
海外基金