结合外部资源的地方志文本挖掘模型研究
结题报告
批准号:
61866018
项目类别:
地区科学基金项目
资助金额:
38.0 万元
负责人:
左家莉
依托单位:
学科分类:
F0606.自然语言处理
结题年份:
2022
批准年份:
2018
项目状态:
已结题
项目参与者:
罗文兵、曲彦文、肖文艳、张辰麟、杨雨晴、肖波
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
中国史学传统绵延数千年,留下了丰厚的文化遗产。其中,地方志记录了丰富的地方信息,因而是研究中国历史和文化的重要资料。然而,类似于地方志这样的传统文献卷帙浩繁,人类的处理能力难以企及。信息技术使得上述文献得以数字化,也使得有效利用它们成为可能。但传统的技术手段还无法实现对这些文本的深度挖掘。.近年来,深度学习在人工智能的多个子领域均取得了显著的进展,也极大促进了自然语言处理领域的发展,为有效分析和利用上述传统文献提供了有力的工具。.本项目将研究地方志文本的自动挖掘,考虑到地方志领域的训练语料匮乏,我们将借助于百度百科等知识图谱和中国历代人物传记数据库(CBDB)等外部资源,应用深度学习技术并结合基于规则的方法研究地方志信息抽取模型,进一步研究结合外部资源的地方志知识表示模型,以江西书院为例构建江西书院知识图谱,以期为地方志文本的自动挖掘提供一个有效的框架。
英文摘要
Written records of the history of China can date thousands of years ago, which leaves a rich cultural heritage for today's Chinese. Among them, Difangzhi conserver a wealth of local information, which makes it is the most important reference for understanding Chinese history and culture. However, the traditional literature, such as Difangzhi, is too voluminous to be processed by human begin. .The advent of the information technology makes this traditional literature digitalized, which makes it possible to use it automatically. It is still very difficult to have in-depth understanding and full use of it. .In recent years, Deep Learning has made remarkable progress in many sub-areas of artificial intelligence, and has also greatly promoted the development natural language processing. Thus, Deep Learning has provided a powerful tool for analyzing and utilizing traditional literature..The project intends to study the automatic text mining for Difangzhi. As it is very difficult to process Difangzhi, we try to apply deep learning method to study information extraction model and knowledge representation model of Difangzhi, combining knowledge graphs (Such as Baidu Encyclopedia) and other useful external materials (such as China Biographical Database, CBDB). Based on this, we will take ancient academy of Jiangxi as a case study to learn a Jiangxi academy knowledge graph. Thus, we will provide an effective framework of automatic text mining model for Difangzhi.
中华文明源远流长,文献典籍汗牛充栋,这些典籍是理解中华文化精神内涵的基础。然而,由于汉语经过了长时间的历史演变,想要阅读、理解这些经典的历史文献并非易事。若想实现传统文本,如地方志等典籍的知识获取,仍需依托于传统的文本(文言文)的自然语言处理技术。而现有的基于传统文本的自然语言处理研究受限于语料的匮乏尤其是高质量语料的匮乏,实际上尽管传统文本的语料资源建设已受到相关学术领域的关注,但是与许多具体任务相关的标准语料的建设仍值得关注,需要更多的投入。.此外,虽然中文的自然语言处理研究已有突破性的进展,但是目前中文的自然语言处理技术主要还是基于现代文。由于文言文和现代存在较大的差别,基于现代文的自然语言处理技术并不总是能适用于文言文。.我们基于此项目的支持展开了基于文言文的自然语言处理研究,目前主要展开的工作包括:数据集的建设、文言文-现代文的机器翻译研究、文言文的命名实体识别和关系抽取模型研究以及文本风格迁移等。这些工作的展开可以支撑地方志文本的挖掘研究。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Emotion Label Enhancement via Emotion Wheel and Lexicon
通过情感轮和词典增强情感标签
DOI:10.1155/2021/6695913
发表时间:2021-04
期刊:Mathematical Problems in Engineering
影响因子:--
作者:Zeng Xueqiang;Chen Qifan;Chen Sufen;Zuo Jiali
通讯作者:Zuo Jiali
DOI:--
发表时间:2021
期刊:电子与信息学报
影响因子:--
作者:叶继华;杨思渝;左家莉;王明文
通讯作者:王明文
DOI:10.16337/j.1004-9037.2020.01.002
发表时间:2020
期刊:数据采集与处理
影响因子:--
作者:叶继华;祝锦泰;江爱文;李汉曦;左家莉
通讯作者:左家莉
DOI:--
发表时间:2021
期刊:计算机工程与应用
影响因子:--
作者:陈启凡;曾雪强;左家莉;万中英;王明文
通讯作者:王明文
DOI:--
发表时间:2019
期刊:中文信息学报
影响因子:--
作者:张辰麟;王明文;谭亦鸣;陈志明;左家莉;罗远胜
通讯作者:罗远胜
基于概率图的文本检索模型及算法研究
  • 批准号:
    61462043
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    46.0万元
  • 批准年份:
    2014
  • 负责人:
    左家莉
  • 依托单位:
国内基金
海外基金