基于主题形式概念分析的文本处理关键技术研究
批准号:
61502033
项目类别:
青年科学基金项目
资助金额:
20.0 万元
负责人:
施重阳
依托单位:
学科分类:
F0607.知识表示与处理
结题年份:
2018
批准年份:
2015
项目状态:
已结题
项目参与者:
曾伟鸿、郭贵锁、张奇、郝戍峰、陈张、樊静
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
针对目前基于形式概念分析的文本处理主要使用关键词作为形式背景属性,属性之间存在关联、重叠、重复且属性内容不区分主题,导致无法满足特定目标或主题的文本挖掘需求,以及规模化文本概念格构建时间长、单格耗费空间多等问题,本课题研究引入LDA主题模型构建形式背景,设计一个基于主题形式概念分析的文本处理模型。首先,利用主题比关键词信息粒度大且更能表达文本语义信息的优点,使用概率主题模型计算并构成文本数据的形式背景,设计形式概念在概念格上下文中的主题联合分布模型,表达形式概念的典型性或重要性;其次,设计一个分布式概念格构建模型,按主题对形式背景进行分解,对分解背景构成的概念格进行多格同时合并,达到多主题概念融合,并能够提升概念格构建效率;最后,结合学术论文检索,使用主题形式概念分析模型,提出一种基于查询结果集的多文档摘要构建框架,以满足特定主题要求的摘要内容表达及覆盖。
英文摘要
Since Formal Concept Analysis-based text processing always uses keywords as the attributes of formal context, and there exist the correlation, overlap, and repetition between keywords, and the attributes usually remain with mixtures of topics which will lead to the result of text mining does not meet the special information requirements from users. Furthermore, concept lattice’s building on large scale text dataset is time and space consuming. According to the above situations, we combine LDA probabilistic topic model into Formal Concept Analysis. First, we define a textual topical Formal Concept Analysis model in which the attributes can be calculated by probabilistic topic model which can express the attributes’ semantic metric own to some topic or topics in real text mining. And the formal concepts in the lattice built by topics have its joint probabilistic of topic(s) with which we can develop a method to evaluate the importance or typicality of the formal concepts. Second, a distributed processing model is designed, including the decomposition of formal context by topic and the union of several sub concept lattices, which can improve the efficiency of lattice’s construction. At last, with the query result from scholar search engine, we propose a multi-document abstract construction framework based on the proposed model which can fulfill the request of presenting a text summarization with special topic purpose and enough content covering.
由于传统的形式概念分析通常使用单值形式背景进行数据分析,无法反映现实数据属性的复杂性,本课题研究将LDA模型引入形式概念分析,针对文本数据处理,构建一个文本主题形式概念分析模型,依靠此模型,研究解决前文提出的形式概念分析在文本处理中出现的若干问题,以帮助形式概念分析在文本处理中有更广泛的应用。包括:提出一个文本数据模糊形式背景生成模型,构建主题模糊概念格,设计形式概念的主题分布数学模型,以表达形式概念在概念格上下文中的典型性或重要性,可用于精炼文本概念格,挖掘核心主题知识;针对规模化文本数据,设计基于主题的形式背景分解和概念格合并算法,降低概念格构建过程的时间和空间耗费;最后,针对学术论文检索结果集,利用主题模糊形式概念分析模型,提出一种论文摘要和检索框架。结合上述研究内容,本课题获得的研究成果在CCF顶级期刊TKDE,中科院SCI 2区期刊EAAI,CCF B类会议ECAI等顶级期刊和会议上发表,累计6篇论文(第一标注),并获批专利1项,申请专利1项。文本主题模糊概念格模型提供了一个基于LDA主题模型生成模糊形式背景的系统性途径,可以合理的利用主题来组织形式背景并构建概念格,符合用户对特定信息的要求,形式背景的分解和概念格合并对概念格构造效率的提升可以使形式概念分析在文本处理应用中更具可操作性。本课题的研究成果可用于利用形式概念分析进行知识地图构建、文本摘要生成以及信息检索中的请求扩展和个性化推荐等方面,具有较好的研究前景。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Concept coupling learning for improving concept lattice-based document retrieval
用于改进基于概念格的文档检索的概念耦合学习
DOI:10.1016/j.engappai.2017.12.007
发表时间:2018
期刊:Engineering Applications of Artificial Intelligence
影响因子:8
作者:Hao Shufeng;Shi Chongyang;Niu Zhendong;Cao Longbing
通讯作者:Cao Longbing
Case retrieval based on formal concept analysis
基于形式概念分析的案例检索
DOI:10.1166/jctn.2016.5271
发表时间:2016
期刊:Journal of Computational and Theoretical Nanoscience
影响因子:--
作者:Shi Chongyang;Yu Bai;Niu Zhendong;Qi Zhang
通讯作者:Qi Zhang
HCBC: A Hierarchical Case-Based Classifier Integrated with Conceptual Clustering
HCBC:与概念聚类相结合的基于案例的分层分类器
DOI:10.1109/tkde.2018.2824317
发表时间:2019-01
期刊:IEEE Transactions on Knowledge and Data Engineering
影响因子:8.9
作者:Zhang Qi;Shi Chongyang;Niu Zhendong;Cao Longbing
通讯作者:Cao Longbing
A New Digital Paper Search Paradigm Based on FCA
基于FCA的新型数字论文检索范式
DOI:10.3966/160792642018081904013
发表时间:2018-07
期刊:Journal of Internet Technology
影响因子:1.6
作者:Yu Haibin;Shi Chongyang;Zhang Chunxia;Hearne Ryan;Yu Bai
通讯作者:Yu Bai
融合因果发现和动态传播分析的社交谣言检测与干预研究
- 批准号:62372043
- 项目类别:面上项目
- 资助金额:50万元
- 批准年份:2023
- 负责人:施重阳
- 依托单位:
国内基金
海外基金















{{item.name}}会员


