针对语言成分省略问题的依存句法分析研究

批准号:
61673028
项目类别:
面上项目
资助金额:
61.0 万元
负责人:
孙栩
依托单位:
学科分类:
F03.自动化
结题年份:
2020
批准年份:
2016
项目状态:
已结题
项目参与者:
詹卫东、许晶晶、张晴、郑略省、文吉、黄申、罗帆
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
随着互联网的发展和移动用户的增加,互联网短文本急剧增长,影响日益广泛。因为标注简单、表达灵活、便于应用的优势,依存句法分析是目前句法分析的研究热点。但是针对网络文本,依存句法分析面临很大困难,主要难点之一是网络短文本存在大量语言成分省略问题,对依存句法分析提出了挑战。本项目针对网络短文本的语言成分省略问题,构建相应的依存句法分析系统,为网络文本分析和理解等应用探寻有效的技术手段。主要研究内容如下:(1)建立语言成分省略的描述体系,从表层到深层归纳为三个层次对问题进行描述;(2)研究网络文本中语言成分省略的机制和规律,提出一套语言成分识别和还原的标注规范,建立一定规模的语料库;(3)研究基于语言成分还原的依存句法分析框架,在结构化学习模型的基础上设计Coarse-to-Fine的语言成分还原架构;(4)针对大规模网络短文本数据,实现基于语言成分还原的依存句法分析系统,提高网络文本分析效果。
英文摘要
With the development of WWW and the increase of the mobile clients, there is a rapid and impactful increase of short web texts. Due to the simpler annotation, more flexible structures, and larger application impact, dependency parsing has been a hot research topic in the field of syntactic parsing. However, for web texts, dependency parsing faces a major issue, because web short texts contains lots of language information omitting phenomenons. This is a major challenge for dependency parsing with web texts. To deal with this problem, we study the language information omitting problem, and build a dependency parsing system that can capture such information for better natural language understanding on web texts. The major research points are as follows: (1) Build a three stage description system for language information omitting from surface to core layers. (2) Study the intrinsic rule and scheme of language information omitting, build an annotation strategy, and construct a corpus. (3) Study the language information omitting based dependency parsing framework, and propose a Coarse-to-Fine strategy for restoring the omitted language components. (4) For large-scale web text data, build the language information omitting based dependency parser to improve the accuracy of web text NLP systems.
本项目的主要内容是针对语言成分省略问题的依存句法分析。围绕依存句法分析的模型基础和任务基础以及数据构建进行研究。该研究包含三个方面,一是进一步改进模型基础,二是任务基础以及数据构建,三是联合模型的相关理论研究。我们在依存句法分析上进行实验,能够明显提高句法分析的效果。针对成分省略问题的依存句法分析任务,需要进行前期处理工作。在给定中文网络文本的条件下,需要对中文文本进行浅层句法分析、命名实体识别和词性标注,这些基础性工作可以显著提高依存句法分析算法的准确率。我们对文本的浅层句法分析,命名实体识别、词性标注这些依存句法分析的必要前置任务进行了一些研究,提高了这些任务的效果,为后续的语言成分省略问题的依存句法分析这一任务的研究提供了任务基础,同时构建了相关数据集。相关论文发表在AAAI、ICML、COLING、 LREC等高水平学术会议上。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Cross-Domain and Semisupervised Named Entity Recognition in Chinese Social Media: A Unified Model
中国社交媒体中的跨域半监督命名实体识别:统一模型
DOI:10.1109/taslp.2018.2856625
发表时间:2018-11
期刊:IEEE-ACM Transactions on Audio Speech and Language Processing
影响因子:5.4
作者:Xu Jingjing;He Hangfeng;Sun Xu;Ren Xuancheng;Li Sujian
通讯作者:Li Sujian
DOI:10.1109/tkde.2018.2883613
发表时间:2017-11
期刊:IEEE Transactions on Knowledge and Data Engineering
影响因子:8.9
作者:Xu Sun;Xuancheng Ren;Shuming Ma;Bingzhen Wei;Wei Li;Houfeng Wang
通讯作者:Xu Sun;Xuancheng Ren;Shuming Ma;Bingzhen Wei;Wei Li;Houfeng Wang
Towards easier and faster sequence labeling for natural language processing: A search-based probabilistic online learning framework (SAPO)
为自然语言处理实现更简单、更快速的序列标记:基于搜索的概率在线学习框架(SAPO)
DOI:10.1016/j.ins.2018.11.025
发表时间:2019-04-01
期刊:INFORMATION SCIENCES
影响因子:8.1
作者:Sun, Xu;Ma, Shuming;Ren, Xuancheng
通讯作者:Ren, Xuancheng
基于定义性数据的预训练语言模型词汇语义增强技术
- 批准号:--
- 项目类别:面上项目
- 资助金额:57万元
- 批准年份:2021
- 负责人:孙栩
- 依托单位:
多领域网络文本数据的自适应结构化分类方法研究
- 批准号:61300063
- 项目类别:青年科学基金项目
- 资助金额:25.0万元
- 批准年份:2013
- 负责人:孙栩
- 依托单位:
国内基金
海外基金
