现代哈萨克语句法分析与树库构建关键技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61363062
- 项目类别:地区科学基金项目
- 资助金额:46.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2017
- 批准年份:2013
- 项目状态:已结题
- 起止时间:2014-01-01 至2017-12-31
- 项目参与者:买拉提·阿布扎力汗; 沙吾亚·阿东别克; 木合亚提·尼亚孜别克; 刘晓洁; 李秀红; 尚文清; 牛娜; 于智娟;
- 关键词:
项目摘要
Syntatic parsing is the process of assingning a syntactic structure to a sentence. It is a key technology in Natural Language Processing. A pre-requisite for modern statistical syntactic parsing is the existence of syntacticaly annotated treebanks that can be used as training and evaluation material. The size and quality of a treebank have a direct impact on syntactic parsing results. Recent years have seen many breakthroughs in syntactic parsing for Chinese and other languaage, but there has been very little research reported on syntactic parsing and treebank construction for Kazakh. Syntactic parsing has become a bottleneck to Kazakh Information Processing. The goal of the proposed project is to determine the most appropriate parsing algorithms suited for the dominant SOV constructions in Kazakh, investigate the use of supervised machine learning techniques such as the Maximum Entropy models in Kazakh syntactic parsing, and explore hybrid approaches to improve parsing performance. A secondary goal is to establish a phrase structure based grammatical system for Kazakh and create the annotation specifications and guidelines for a Kazakh treebank. The proposed project will lay a solid foundation for advancing the state of the art of Kazakh Information Processing and large-scale treebank construction. The specific aim of the proposed project is to build of a Kazakh treebank of 20 thousand sentences that can be used to enable Kazakh syntactic analysis.
句法分析是识别一个句子并给句子指派一个结构的过程,其任务是确定句子的句法结构,它是自然语言信息处理中的关键技术。统计句法分析需利用树库资源,树库建设的标注质量和规模直接影响句法分析的效果。专家们已对句法分析和树库技术展开了研究,取得了突破性进展。但针对现代哈萨克语句法分析技术和树库构建无报道,句法分析已成为制约哈语信息处理的瓶颈问题。本项目据哈语SOV型句法结构,针对哈语独特的语言特点和存在的句法问题,对其句法结构进行分析,揭示哈语独特的句法构成规律,确定哈语句子的短语句法结构体系,制定哈语句法和树库标记集和规范,研究基于统计和规则相结合的哈语句法分析和树库构建的关键技术,用最大熵模型来研究句法分析,用监督的归纳学习方法MBL消解歧义,探索适合哈语句法分析的搜索算法,提出适合哈语特征的短语结构句法的分析方法,为哈语进一步语义等信息处理和大规模语料库建设打下基础,构建2万句规模树库。
结项摘要
句法分析是根据给定的语法体系,自动推导出句子的语法结构, 分析句子所包含的语法单元和这些语法单元之间的关系, 将句子转化为一棵结构化的语法树;包括确定语言的语法体系和句法分析技术的研究内容。它是自然语言处理的基础研究,其研究成果的优劣直接反映在后续语义分析和理解研究及相应的应用系统;由于哈萨克语语料资源稀缺且词形态的多样性,句法分析仍然存在诸多方面严峻挑战。树库是包含语言结构信息的语言资源,可为句法分析器提供训练数据,同时标注树库是语料库语言学发展的重要基础。. 哈萨克语(简称哈语)属于阿尔泰语系突厥语族的克普恰克语组, 在形态结构上属于粘着语,在语序结构上属"SOV 型"语言。本项目依据规则和统计技术,针对哈萨克语短语结构的句法分析和树库标注的关键技术展开如下研究:. 第一,为解决哈语句法分析中的句子结构问题,据哈语独特的语言特性,系统分析句子构成规律,揭示了句法结构和句法生成规律,确定句子的短语句法结构体系。. 第二,为探索基于规则和统计的适合哈语句法分析方法,首先进行了基于概率随机上下无关文法的哈语句法分析研究;然后融入基于线图搜索改进算法研究;再由粗到精的句法分析研究,使用感知机对由PCFG方法产生的概率最高的候选解析序列进行重排序,获得PCFG和感知机模型相结合的句法解析树,完成了哈语句法分析研究。随后进行了基于条件随机场模型的哈语句法分析研究,研制了哈语句法分析器。继续基于转移的哈语句法分析研究,并用感知机训练,改进柱搜索解码,辅助特征提取法等措施进一步提高句法分析性能。. 第三,为解决哈语资源稀缺问题,分析研究哈语句法结构和句法生成规律后,规范化树库标注,进行了基于层叠条件随机场的哈语树库构建技术研究,构建了人机交互的树库,完成了2万句的标注树库,为哈语句法分析提供了数据。.总之,本项目探索了适合哈萨克语的句法分析方法,构建了人机交互的树库,研制了句法分析器,为后续语义分析等研究打下了基础。
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(1)
会议论文数量(6)
专利数量(0)
基于规则的哈萨克语句法分析算法研究
- DOI:10.3969/j.issn.1673-629x.2015.09.009
- 发表时间:2015
- 期刊:计算机技术与发展
- 影响因子:--
- 作者:牛娜;古丽拉·阿东别克
- 通讯作者:古丽拉·阿东别克
哈萨克语句法分析辅助特征提取研究
- DOI:--
- 发表时间:--
- 期刊:中文信息学报
- 影响因子:--
- 作者:陈雪;古丽拉·阿东别克
- 通讯作者:古丽拉·阿东别克
“v+n+n”结构的哈萨克语短语歧义分析与消解
- DOI:--
- 发表时间:2014
- 期刊:语言与翻译
- 影响因子:--
- 作者:户冰心;古丽拉·阿东别克;祁卉
- 通讯作者:祁卉
基于层叠条件随机场的哈语树库构建技术研究
- DOI:10.3969/j/issn.1000-386x.2016.03.015
- 发表时间:2016
- 期刊:计算机应用与软件
- 影响因子:--
- 作者:于智娟;古丽拉·阿东别克
- 通讯作者:古丽拉·阿东别克
哈萨克文网络热点关键词提取方法研究
- DOI:10.3969/j.issn.1000-386x.2017.01.008
- 发表时间:2017
- 期刊:计算机应用与软件
- 影响因子:--
- 作者:胡冰瑶;古丽拉·阿东别克
- 通讯作者:古丽拉·阿东别克
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于N-gram语言模型的哈萨克文机构名识别
- DOI:--
- 发表时间:--
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:玛依来·哈帕尔;冯鲸华;古丽拉·阿东别克
- 通讯作者:古丽拉·阿东别克
哈萨克语动词短语自动识别研究与实现(已录用,2013.6.8已出电子版)
- DOI:--
- 发表时间:--
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:古丽扎达·海沙;古丽拉·阿东别克
- 通讯作者:古丽拉·阿东别克
改进的HMM应用于哈萨克语词性标准
- DOI:--
- 发表时间:--
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:侯呈风;古丽拉·阿东别克
- 通讯作者:古丽拉·阿东别克
基于HMM的柯尔克孜语词性标注的研究(已录用,2012.12.13已出电子版)
- DOI:--
- 发表时间:--
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:陈莉;古丽拉·阿东别克
- 通讯作者:古丽拉·阿东别克
基于SVM的哈萨克语文本分类研究与实现
- DOI:--
- 发表时间:--
- 期刊:计算机应用与软件
- 影响因子:--
- 作者:吴守用;古丽拉·阿东别克
- 通讯作者:古丽拉·阿东别克
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
古丽拉·阿东别克的其他基金
现代哈萨克语短语识别及其语块库构建技术研究
- 批准号:61063025
- 批准年份:2010
- 资助金额:28.0 万元
- 项目类别:地区科学基金项目
现代哈萨克语词级文本语料库构建技术研究
- 批准号:60763005
- 批准年份:2007
- 资助金额:18.0 万元
- 项目类别:地区科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}