面向Deep Web的大规模知识库自动构建方法研究
结题报告
批准号:
61170020
项目类别:
面上项目
资助金额:
57.0 万元
负责人:
崔志明
依托单位:
学科分类:
F0202.系统软件、数据库与工业软件
结题年份:
2015
批准年份:
2011
项目状态:
已结题
项目参与者:
赵朋朋、王金娥、王朝晖、鲜学丰、辛洁、和天旭、张广铭、郭建兵、陈明
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
知识库是语义Web、机器理解等技术的基础,如何利用Web中半结构化数据自动构建大规模全领域知识库是一个富有挑战性的课题。Deep Web具有结构性好、信息量大、质量高等特点,是一个合适的知识获取数据源,然而利用Deep Web自动构建知识库还鲜有研究。本项目拟基于海量的Deep Web数据,自动构建一个大规模全领域知识库。主要研究内容包括:①研究面向Deep Web的概念、实体、属性和关系抽取方法,丰富知识库的内容,扩展知识库的规模;②研究基于联合机器学习的关系发现方法,实现知识库中节点间关系的自动发现,完善知识库中的关系,提高知识库的质量;③研究采用混合逻辑推理的关系验证及不一致关系的消解策略,提高知识的可信度和可依赖性。本项目的研究为大规模知识库自动构建提供新的解决方案,为知识获取拓展新数据源,对促进Web智能应用的进一步发展具有重要意义。
英文摘要
Deep Web具有结构性好、信息量大、质量高等特点,是一个合适的知识获取数据源。本项目围绕面向Deep Web的概念、实体、属性和关系抽取,关系验证与不一致关系消解展开研究,将Deep Web数据转换为语义知识并构建知识库。针对目前数据集成中多源Deep Web数据抽取方法适应性差、对多类型数据抽取效率低的问题,提出了一种全新的基于Markov逻辑网的通用数据记录抽取模型,该模型利用了基于视觉树的自动实体抽取策略,摆脱了传统DOM树仅适用于单数据区域连续型数据的限制,实现对多数据区域非连续数据的抽取,该模型能够容忍实体属性的不完整性和矛盾性。针对Deep Web数据组成结构的特殊性,提出了基于LDA主题模型的Deep Web数据记录概念抽取方法,该方法充分考虑了数据记录中存在若干实体的事实,论证了实体分布信息对记录中的单词分布产生一定的影响,提出将实体分布融入到LDA主题模型中,可细化主题的分类,增加可区分性。针对多源知识的语义异构问题,提出了一种基于Markov逻辑网的异构知识语义映射方法,从全局考虑实体和实体关系的映射问题,利用实体类别和关系的内在联系,提高映射的准确性。针对从多个数据质量参差不齐的数据源获取的知识存在不一致性问题,提出了一种基于主动迁移学习的实体解析方法,有效的识别来自多个数据源的结果页面中重复实体。在本项目研究成果和研究所前期工作的基础上,设计并实现了两个面向Deep Web的知识获取与集成的平台系统,目前系统整体运行效果良好,有效的验证了本项目提出的面向Deep Web的知识获取与集成方法的有效性。在项目实施过程中申请发明专利20项,其中4项已获授权;获得软件著作权2项;在国内、外核心期刊和国际会议发表学术论文36篇,其中SCI、EI检索36篇;成果通过省级鉴定1项;获得苏州市自然科学优秀论文奖1项;培养了多名科研骨干人才,其中包括博士研究生3名、硕士研究生16名。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Active transfer learning of matching query results across multiple sources
跨多个源匹配查询结果的主动迁移学习
DOI:10.1007/s11704-015-4068-3
发表时间:2015-08
期刊:Frontiers of Computer Science
影响因子:4.2
作者:辛洁;崔志明;赵朋朋;何天旭
通讯作者:何天旭
An active learning approach with uncertainty, representativeness, and diversity.
具有不确定性、代表性和多样性的主动学习方法。
DOI:10.1155/2014/827586
发表时间:2014
期刊:TheScientificWorldJournal
影响因子:--
作者:He T;Zhang S;Xin J;Zhao P;Wu J;Xian X;Li C;Cui Z
通讯作者:Cui Z
DOI:10.4304/jcp.7.9.2262-2268
发表时间:2012-01
期刊:J. Comput.
影响因子:--
作者:Jian Wu;Zhiming Cui;Pengpeng Zhao;Jianming Chen
通讯作者:Jian Wu;Zhiming Cui;Pengpeng Zhao;Jianming Chen
Mixed pattern matching-based traffic abnormal behavior recognition.
基于混合模式匹配的交通异常行为识别
DOI:10.1155/2014/834013
发表时间:2014
期刊:TheScientificWorldJournal
影响因子:--
作者:Wu J;Cui Z;Sheng VS;Shi Y;Zhao P
通讯作者:Zhao P
DOI:10.1155/2014/675234
发表时间:2014
期刊:TheScientificWorldJournal
影响因子:--
作者:Xin J;Cui Z;Zhang S;He T;Li C;Huang H
通讯作者:Huang H
基于逻辑强化学习的深层网页增量信息获取方法研究
  • 批准号:
    60970015
  • 项目类别:
    面上项目
  • 资助金额:
    32.0万元
  • 批准年份:
    2009
  • 负责人:
    崔志明
  • 依托单位:
面向Deep Web的不完备知识处理的逻辑模型研究
  • 批准号:
    60673092
  • 项目类别:
    面上项目
  • 资助金额:
    26.0万元
  • 批准年份:
    2006
  • 负责人:
    崔志明
  • 依托单位:
面向高科技园区产业群的技术预见
  • 批准号:
    70273025
  • 项目类别:
    面上项目
  • 资助金额:
    16.0万元
  • 批准年份:
    2002
  • 负责人:
    崔志明
  • 依托单位:
国内基金
海外基金