基于马尔科夫树与DRT的汉语句群自动划分算法研究
项目介绍
AI项目解读
基本信息
- 批准号:61202281
- 项目类别:青年科学基金项目
- 资助金额:22.0万
- 负责人:
- 依托单位:
- 学科分类:F0211.信息检索与社会计算
- 结题年份:2015
- 批准年份:2012
- 项目状态:已结题
- 起止时间:2013-01-01 至2015-12-31
- 项目参与者:谌志群; 朱文华; 黄孝喜; 陆蓓; 嵇宇; 罗磊; 郭飞飞;
- 关键词:
项目摘要
The automatic division of sentence group is a new important research topic in natural language processing domain which can be applied widely in machine translation, discourse understanding and information retrieval fields. Because the existing division methods of Chinese sentence group have not taken full advantage of the context information of a sentence and the associated information between sentences, one automatic division method of Chinese sentence group based on Markov tree and disourse represetenttion theory (DRT) is proposed in this project by making use of the characteristic of DRT which can describe dynamically natural language sense. Discourse representation theory (DRT) is a formal semantic theory. In this project, four main points will be researched.(1) The analysis on structure characteristics of Chinese sentence groups; (2) The Markov tree representation of a Chinese paragraph and the automatic division algorithm of Chinese sentence group; (3) The construction method of discourse representation structure (DRS) in DRT; (4) The semantic explain model in DRT. There are two key research points in this project: (1) Construct a Markov tree model to represent a Chinese paragraph, and perform automatic division of Chinese sentence groups by using dynamic programming algorithm; (2) Propose an improved DRS and semantic explain model to revise the division results of Chinese sentence groups. The research work in this project can provide significantly theory and technique supports for Chinese sentence group division, explore a universal transform method from syntax structure representation to semantic formal representation in natural language processing, and compensate the deficiency of discourse's semantic respresentation.
句群自动划分是自然语言处理中的重要课题,在机器翻译、篇章理解、信息检索等领域有广泛应用前景。针对现有汉语句群划分方法未充分利用句子上下文信息及句间关联信息的不足,本项目利用篇章表述理论(DRT)能动态地描述自然语言意义的特性,提出一种基于马尔科夫树和DRT理论的汉语句群自动划分方法。主要研究内容包括:(1)汉语句群构成特点分析;(2)汉语段落的马尔科夫树表示和句群自动划分算法;(3)DRT理论中篇章表述结构(DRS)构造算法;(4)DRT理论的语义解释模型。本项目研究的难点和核心问题在于构建马尔科夫树对汉语段落进行层次表示并利用动态规划算法实现句群自动划分,以及提出改进的DRS和语义解释模型对句群划分结果进行修正。本项目研究对于丰富汉语句群划分理论与方法,具有重要的建设性意义,同时为自然语言处理中从句法结构表示向语义形式表示转化提供了一种普适的方法,弥补了目前在语篇语义表征方法方面的不足。
结项摘要
句群自动划分是自然语言处理中的重要课题,在机器翻译、篇章理解、信息检索等领域有广泛应用前景。针对现有汉语句群划分方法未充分利用句子上下文信息及句间关联信息的不足,围绕着项目的研究目标,本项目从汉语句群构成特点分析、汉语段落的马尔科夫树表示和句群自动划分算法、DRT 理论中篇章表述结构(DRS)构造算法和DRT 理论的语义解释模型等方面开展研究,成果体现在如下几个方面:首先,在汉语句群特点分析方面,侧重于对汉语句子的语义组块进行分析,主要以汉语的宾州树库作为语料资源,使用机器学习的方法建立统计语言模型,改进了组块分析相关任务的语义角色标注。其次,在汉语段落的马尔科夫树表示和句群自动划分方面,分析了汉语句群构成特点,针对目前句群划分工作缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,以汉语句群理论为指导,提出一种基于多元判别分析( MDA) 方法的汉语句群自动划分方法。再次,在句群语料收集方面,构建了汉语句群划分标注评测语料,弥补目前该领域缺乏公共评测语料的问题。最后,在对句群划分结果进行评价和修正方面,通过评价函数J得到段落的最优句群划分结果后,采用了Pμ评价方法和WindowDiff 评价方法对句群划分结果正确性进行评价。总之,作为一项自然语言语篇理解方面的探索性研究工作,课题组在篇章句群识别和划分这一方向做了深入研究,并逐步将句群研究应用到自然语言处理的其它热点方向,如自动摘要、句子结构分析等。项目组共发表7篇期刊论文,其中SCI收录期刊1篇,EI收录1篇,培养硕士生7名。
项目成果
期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
基于平均场理论的微博传播网络模型
- DOI:--
- 发表时间:2014
- 期刊:物理学报
- 影响因子:--
- 作者:王小华;黄孝喜;谌志群;王荣波
- 通讯作者:王荣波
微博语言的复杂网络特征研究
- DOI:--
- 发表时间:2015
- 期刊:计算机工程与应用
- 影响因子:--
- 作者:陆蓓;谌志群;黄孝喜;王荣波
- 通讯作者:王荣波
基于LIBSVM的“就是”句句间关系判别方法
- DOI:--
- 发表时间:2015
- 期刊:计算机应用
- 影响因子:--
- 作者:周建成;吴铤;王荣波;常若愚
- 通讯作者:常若愚
一种基于词语抽象度的汉语隐喻识别方法
- DOI:--
- 发表时间:2015
- 期刊:现代图书情报技术
- 影响因子:--
- 作者:张华;陆蓓;王荣波;吴铤
- 通讯作者:吴铤
微博关注关系网络K-核结构实证分析
- DOI:--
- 发表时间:2013
- 期刊:现代图书情报技术
- 影响因子:--
- 作者:白林根;谌志群;王荣波;黄孝喜
- 通讯作者:黄孝喜
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
span style=color:#4C634F;font-family:黑体, Arial;font-size:18px;line-height:normal;background-color:#FFFFFF;微博关注关系网络K-核结构实证分析/span
- DOI:--
- 发表时间:2013
- 期刊:现代图书情报技术
- 影响因子:--
- 作者:白林根;谌志群;王荣波;黄孝喜
- 通讯作者:黄孝喜
一种基于MDA的汉语句群自动划分方法
- DOI:--
- 发表时间:--
- 期刊:计算机应用
- 影响因子:--
- 作者:王荣波;李杰;黄孝喜;周昌乐;谌志群;王小华
- 通讯作者:王小华
span style=font-family:微软雅黑, Tahoma;font-size:16px;line-height:24px;background-color:#FFFFFF;一种基于词语抽象度的汉语隐喻识别方法/span
- DOI:--
- 发表时间:--
- 期刊:现代图书情报技术
- 影响因子:--
- 作者:黄孝喜;张华;陆蓓;王荣波;吴铤
- 通讯作者:吴铤
强冲击加载下铅样品表面微层裂现象诊断
- DOI:--
- 发表时间:--
- 期刊:中国科学:物理学 力学 天文学
- 影响因子:--
- 作者:陈永涛;胡海波;汤铁钢;李庆忠;王荣波;王德田
- 通讯作者:王德田
荔枝霜疫霉中双组分信号转导系统的鉴定与表达分析
- DOI:10.13926/j.cnki.apps.000464
- 发表时间:2020
- 期刊:植物病理学报
- 影响因子:--
- 作者:王荣波;陈姝樽;刘裴清;李本金;翁启勇;陈庆河
- 通讯作者:陈庆河
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}