基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究
批准号:
71303120
项目类别:
青年科学基金项目
资助金额:
20.0 万元
负责人:
王东波
依托单位:
学科分类:
G0414.数字治理与信息资源管理
结题年份:
2016
批准年份:
2013
项目状态:
已结题
项目参与者:
何琳、韩普、杨波、车建华、张淑文、沈思、耿云冬
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
针对目前汉英平行语料标注不深入的现状,本课题基于汉英句法功能知识库和句法功能匹配算法,构建人文社会科学句法级汉英平行语料库,并基于该语料库进行术语和类别知识挖掘的探究。本课题的主要研究内容:基于CSSCI关键词的词性分布倾向性计算汉英关键词的词性;在清华汉语树库和宾州英语树库的基础上,构建汉英句法功能知识库;通过汉英句法树的生成、消歧、优化和错误恢复,构建自动句法分析器;开发句法树辅助校正工具,并完成对汉英句法树的校正;基于句法结构的分布,挖掘术语和类别知识。本课题不仅有助于句法功能匹配理念、句法树构建理论、语言学理论的丰富、建立和研究,而且对知识服务、跨语言检索、语义网和本体、机器翻译等研究具有直接的促进作用。
英文摘要
According to the present condition of Chinese-English parallel corpus without deeply tagging, the syntactic level Chinese-English parallel corpus of humanities and social science is constructed based on Chinese and English syntactic function knowledge base and syntactic function matching algorithms, and the researches for the Chinese-English parallel terms and category knowledge mining are taken based on the corpus. The main researches content of the project are as follows: calculating the part of speech of Chinese and English keywords based on the part of speech distribution orientation of keywords from CSSCI;constructing the syntactic function knowledge base based on Tsinghua Chinese treebank and Penn English treebank;constructing the Chinese and English parser based on generation, disambiguation, optimization and error recovery of syntactic trees;designing the tool of auxiliarily correcting the syntactic trees and finishing correcting the syntactic trees;mining the terms and category knowledge based on the distribution of syntactic structures.The project will help the idea of syntactic function matching and the theory of syntactic tree construction and linguistics to enrich,construct and research and directly promote the researches of knowledge service, cross-language information retrieval, semantic web, ontology and machine translation.
在非结构化文本挖掘的大趋势下,围绕着句法级汉英平行语料库的构建,本项目主要完成了语料的获取及汉英平行语料库的构建、语料标注模型的开发、句法分析器的设计和基于深层次标注语料的应用探究等四个方面的研究。首先,基于CSSCI、CNKI、维普和万方,开发了语料抓取工具并构建了汉英平行语料库。其次,基于条件随机场,开发了汉语多特征自动分词模型、汉英一体化词性标注模型,前者汉语的最高调和平均值达到了97.23%,后者汉英的最高调和平均值达到了90.34%。再次,在完成短语句法结构调整的基础上,本项目构建了词汇和短语的句法功能数据库、开发了句法功能标注和短语结构边界识别的模型。在上述已有数据资源的基础上,开发了面向人文社会科学汉英语料的句法分析器。最后,在句法标注的汉英语料上,本项目揭示了词汇分布的洛特卡现象、基于句法层面的知识完成了对汉英对照术语和类别知识的抽取与挖掘。本研究一方面有助于信息检索、机器翻译和辅助机器翻译等研究的开展另一方面有益于语言学理论和信息计量学的拓展。针对上述具体的探究,本项目撰写并发表了SSCI和CSSCI检索的学术论文7篇,出版专著一部并获得省部级奖项一项。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2015
期刊:现代图书情报技术
影响因子:--
作者:刘伙玉;王东波
通讯作者:王东波
International collaboration in LIS: global trends and networks at the country and institution level
LIS 领域的国际合作:国家和机构层面的全球趋势和网络
DOI:10.1007/s11192-013-1146-x
发表时间:2014-01-01
期刊:SCIENTOMETRICS
影响因子:3.9
作者:Han, Pu;Shi, Jin;Su, Xinning
通讯作者:Su, Xinning
DOI:--
发表时间:2016
期刊:现代图书情报技术
影响因子:--
作者:朱丹浩;杨蕾;王东波
通讯作者:王东波
Editorial delay and its relation to subsequent citations: the journals Nature, Science and Cell
编辑延迟及其与后续引用的关系:《自然》、《科学》和《细胞》杂志
DOI:10.1007/s11192-015-1592-8
发表时间:2015-12-01
期刊:SCIENTOMETRICS
影响因子:3.9
作者:Shen, Si;Rousseau, Ronald;Liu, Ruilun
通讯作者:Liu, Ruilun
DOI:--
发表时间:2015
期刊:情报学报
影响因子:--
作者:刘伙玉;王东波;苏新宁
通讯作者:苏新宁
基于典籍引得的句法级汉英平行语料库构建及人文计算研究
- 批准号:71673143
- 项目类别:面上项目
- 资助金额:48.0万元
- 批准年份:2016
- 负责人:王东波
- 依托单位:
国内基金
海外基金















{{item.name}}会员


