Deep Web数据集成查询结果抽取与整合关键技术研究
结题报告
批准号:
61100167
项目类别:
青年科学基金项目
资助金额:
20.0 万元
负责人:
董永权
依托单位:
学科分类:
F0211.信息检索与社会计算
结题年份:
2014
批准年份:
2011
项目状态:
已结题
项目参与者:
梁银、凌萍、陈克建、张功杰、王书芹
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
Web可分为Surface Web和Deep Web。Deep Web数据量大、主题专一、数据质量高,其价值远远超过了Surface Web,然而传统的搜索引擎搜索不出这部分数据。为了方便用户高效使用Deep Web数据,大规模Deep Web数据集成的研究已成为一个非常迫切的问题。查询结果的抽取与整合是Deep Web数据集成中的重要环节,存在着许多困难和挑战。本项目拟探讨其中最为核心的三个关键技术:研究查询结果页面抽取技术,充分利用页面的结构特征和内容特征,实现结构化数据的自动抽取;研究查询结果数据语义标注技术,充分利用Web数据元素之间的逻辑约束关系,提高语义标注的准确性,并实现多数据源数据模式的一致性;研究大规模重复记录检测技术,构建领域层次的重复记录检测模型,实现同一领域大规模Web数据库之间自动的重复记录检测。项目成果预期将在商业智能、企业搜索、情报分析等系统中。
英文摘要
项目组全面完成任务书中各项任务,发表论文22篇,其中SCI检索4篇,EI检索17篇,ISTP检索5篇,申请专利1项,获得软件著作权2项。项目负责人董永权入选江苏省“青蓝工程”优秀青年骨干教师,在美国纽约州立大学宾汉姆顿分校计算机系进行为期一年的访问学习。. 本项目主要围绕Deep Web数据集成中查询结果处理的关键技术展开研究, 主要包括:(1)在查询结果页面抽取方面,针对列表页面,提出一种基于视觉信息和部分树对齐的Web数据抽取方法。该方法充分利用页面的视觉信息,利用聚类及重组方法进行数据记录抽取,利用部分树对齐方法进行数据项抽取,有效提高了列表页面的抽取准确率;针对详细页面,提出一种基于集成学习的Web数据抽取方法。该方法充分利用页面的结构特征和内容特征,集成多个分类器的抽取结果,有效提高了详细页面的抽取准确率。(2)在查询结果语义标注方面,首先提出一种基于半监督条件随机场的Web数据语义标注方法。该方法仅需要较少的训练集,减少了人工标注的负担,同时综合利用多种特征(文字特征、上下文特征、语义特征等)训练条件随机场模型,具有较好的标注性能。在此基础上又进一步展开研究,提出一种基于约束条件随机场模型的Web数据语义标注方法。该方法充分利用了已有的Web数据库信息和Web数据元素之间的逻辑关系,有效提高了Web数据语义标注的性能。(3)在大规模重复记录检测方面,提出一种三段式自动重复记录检测方法。该方法利用聚类集成方法自动选择初始训练集,避免手工标注,提高初始训练集选择的准确率;利用协同训练方法学习任意两个Web数据源之间的分类模型,提高了分类的准确性;利用证据理论方法构建领域层次的重复记录检测模型,有效地实现了同一领域内大规模Web数据源之间的重复记录检测。(4)在Web数据获取方面,提出一种基于查询词采新率模型的Deep Web爬取方法。该方法克服了已有方法单一性和经验性的不足,有效的保证了查询的无关性,从而确保查询样本的覆盖度,减少其冗余性。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2013
期刊:科技通报
影响因子:--
作者:胡局新;张功杰
通讯作者:张功杰
DOI:--
发表时间:2014
期刊:计算机应用
影响因子:--
作者:梁银;董永权
通讯作者:董永权
DOI:10.1016/j.jfranklin.2013.05.027
发表时间:2013-10
期刊:J. Frankl. Inst.
影响因子:--
作者:Xiaoyang Liu;Nan Jiang;Jinde Cao;Shumei Wang;Zhengxin Wang
通讯作者:Xiaoyang Liu;Nan Jiang;Jinde Cao;Shumei Wang;Zhengxin Wang
DOI:--
发表时间:2012
期刊:Journal of Convergence Information Technology
影响因子:--
作者:Ling Ping;Rong Xiangsheng;Dong Yongquan
通讯作者:Dong Yongquan
DOI:10.4156/jcit.vol8.issue1.28
发表时间:2013-01
期刊:Journal of Convergence Information Technology
影响因子:--
作者:Yongquan Dong;Ping Ling;Qiang Chu
通讯作者:Yongquan Dong;Ping Ling;Qiang Chu
面向Deep Web的数据整合关键技术研究
  • 批准号:
    61872168
  • 项目类别:
    面上项目
  • 资助金额:
    62.0万元
  • 批准年份:
    2018
  • 负责人:
    董永权
  • 依托单位:
国内基金
海外基金