汉越双语语料库建设及词对齐方法研究

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61262041
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    43.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0211.信息检索与社会计算
  • 结题年份:
    2016
  • 批准年份:
    2012
  • 项目状态:
    已结题
  • 起止时间:
    2013-01-01 至2016-12-31

项目摘要

The understanding of Chinese-Vietnamese bilingual language is the basis for strengthening culture exchange between China and Vietnam, and the construction of Chinese-Vietnamese bilingual corpus is the essential resources to the understanding of Chinese-Vietnamese bilingual language. Firstly, for the Vietnamese language characteristics in this project, study on the Vietnamese treebank tagging methods to build the Vietnamese dependency treebank; Secondly, research on the Vietnamese dependency relationship identification methods based on Vietnamese syntactic features to achieve Vietnamese dependency parser; Furthermore, according to the syntactic features of Chinese-Vietnamese bilingual language, study the methods of Chinese-Vietnamese bilingual word alignment; Finally, reseasrch on the Chinese-Vietnamese bilingual materials selection and mark specification to construct the Chinese-Vietnamese bilingual word-level alignment corpus. On the basis of marking the 150000 Chinese and Vietnamese sentences and word alignment corpus, develop and implement the prototype system of Vietnamese-Chinese bilingual sentence retrieval to solve the difficulties occurred in the resource construction of Chinese-Vietnamese bilingual word alignment corpus, dependency parsing and the word alignment process. The research achievement of the project will supply corpus resources and technical support to Chinese-Vietnamese bilingual retrieval and machine translation.
中越双语语言理解是加强中越两国文化交流的基础,汉语-越南语双语语料资源构建是汉语-越南语双语理解的必备资源。本课题针对越南语言特点,首先将研究越南语树库标记方法,构建越南语依存树库;其次,针对越南语句法特点,研究越南语依存关系识别方法,实现越南语依存句法分析器;然后,针对汉语-越南语双语语言句法特点,研究汉语-越南语双语词对齐方法;最后,研究汉语-越南语双语料选取、标注规范,构建汉语-越南语双语词语级对齐语料库,标注15万汉越句子词对齐语料库,并在此基础上开发实现越南语-汉语双语句子检索原型系统,解决汉语-越南语双语词语对齐语料库资源建设、依存句法分析、词对齐过程中的难点问题。项目研究成果将为汉语-越南语双语检索、双语机器翻译提供语料资源和技术支撑。

结项摘要

本课题围绕汉语-越南语双语语料库构建、面向越南语的词法及句法分析方法、面向越南语依存树库构建方法、汉-越双语对齐语料构建方法、汉-越新闻事件元素抽取开展研究工作,取得了多项创新性研究成果:在国内外期刊发表论文24篇(含录用),其中SCI/EI收录11篇,已受理发明专利13项,获得软件著作权8项。在汉-越双语语料库构建及词法句法分析方面,构建了83536个词的汉-越双语电子词典、54839个句对的汉-越双语句对齐语料库,183785的汉-越双语词对齐语料库;利用对数线性模型,融合越南语的顺行结构、词性偏序等特点,提出了基于特征约束的汉-越双语词对齐方法;将汉-越双语词语转化成词向量,采用深层信念神经网络自动学习特征,利用改进的深层神经网络模型计算词汇翻译概率,提出了基于深层神经网络的汉-越双语词对齐方法;在对汉语句子做依存关系分析的基础上,将汉语的依存关系通过汉—越双语词对齐关系映射到越南语句子中,构建了158000个句子规模(约600万词)的越南语依存树库;根据越南语构词特征和语言特点,在条件随机场模型中融入N-Gram模型、字符类型特征、字符重复特征、词素位置概率特征,并加入交叉歧义模型,提出了基于CRFs和歧义模型的越南语分词方法,开发了越南语自动分词平台;在汉-越双语命名实体和事件要素抽取方面,根据越南语的语言和实体特点,应用最大熵模型和本文制定的命名实体的规则的混合方法进行越南语命名实体识别,提出了融合实体特性的越南语复杂命名实体识别的混合方法;针对越南语句子结构和词汇语义的特点,选取上下文、邻近触发词以及邻近实体作为特征,提出了基于最大熵的越南语新闻事件元素抽取方法。上述方法的提出和汉越双语语料库的建设是双语检索、双语机器翻译、双语学习等双语理解的重要知识资源,可以有效的帮助汉越/越汉双语学习理解,为双语检索、机器翻译奠定基础,研究有非常重要的理论及应用价值。

项目成果

期刊论文数量(18)
专著数量(0)
科研奖励数量(0)
会议论文数量(7)
专利数量(0)
A bilingual word alignment algorithm of Vietnamese-Chinese based on feature constraint
基于特征约束的越汉双语词对齐算法
  • DOI:
    10.1007/s13042-014-0293-6
  • 发表时间:
    2014-08
  • 期刊:
    International Journal of Machine Learning and Cybernetics
  • 影响因子:
    5.6
  • 作者:
    Mo Yuanyuan;Guo Jianyi;Yu Zhengtao;Luo Lin;Gao Shengxiang
  • 通讯作者:
    Gao Shengxiang
用深度可信网抽取中文特定领域的实体属性关系
  • DOI:
    --
  • 发表时间:
    2016
  • 期刊:
    Int. J. Computing Science and Mathematics
  • 影响因子:
    --
  • 作者:
    郭剑毅;周兰江;余正涛;陈玮
  • 通讯作者:
    陈玮
基于CRFs和歧义模型的越南语分词
  • DOI:
    10.16337/j.1004-9037.2017.03.024
  • 发表时间:
    2017
  • 期刊:
    数据采集与处理
  • 影响因子:
    --
  • 作者:
    熊明明;李英;郭剑毅;毛存礼;余正涛
  • 通讯作者:
    余正涛
基于最大熵模型的越南语交叉歧义消解
  • DOI:
    --
  • 发表时间:
    2017
  • 期刊:
    中文信息学报
  • 影响因子:
    --
  • 作者:
    熊明明;刘艳超;郭剑毅;余正涛;周兰江;陈秀琴
  • 通讯作者:
    陈秀琴
基于条件随机场的越南语命名实体识别方法
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    山东大学学报(理学版)
  • 影响因子:
    --
  • 作者:
    周枫;余正涛;郭剑毅;线岩团
  • 通讯作者:
    线岩团

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于图的新闻事件主题句抽取方法
  • DOI:
    10.14177/j.cnki.32-1397n.2016.40.04.010
  • 发表时间:
    2016
  • 期刊:
    南京理工大学学报
  • 影响因子:
    --
  • 作者:
    王雍凯;毛存礼;余正涛;郭剑毅;洪旭东;罗林
  • 通讯作者:
    罗林
融合句法特征的汉-老双语词语对齐算法研究
  • DOI:
    --
  • 发表时间:
    2018
  • 期刊:
    软件导刊
  • 影响因子:
    --
  • 作者:
    李思卓;周兰江;周枫;郭剑毅
  • 通讯作者:
    郭剑毅
领域本体概念实例、属性和属性值的抽取及关系预测
  • DOI:
    --
  • 发表时间:
    2012
  • 期刊:
    南京大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    郭剑毅;李真;余正涛;张志坤
  • 通讯作者:
    张志坤
基于双向长短期记忆神经网络的老挝语分词方法
  • DOI:
    --
  • 发表时间:
    2019
  • 期刊:
    计算机工程与科学
  • 影响因子:
    --
  • 作者:
    何力;周兰江;周枫;郭剑毅
  • 通讯作者:
    郭剑毅
基于实体消歧的中文实体关系抽取
  • DOI:
    --
  • 发表时间:
    2014
  • 期刊:
    山东大学学报(工学版)
  • 影响因子:
    --
  • 作者:
    周兰江;郭剑毅;余正涛;张金鹏
  • 通讯作者:
    张金鹏

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

郭剑毅的其他基金

特定领域实体关系获取与实体链接
  • 批准号:
    61562052
  • 批准年份:
    2015
  • 资助金额:
    39.0 万元
  • 项目类别:
    地区科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码