云计算环境下海量RDF数据管理系统核心技术研究

批准号:
61170010
项目类别:
面上项目
资助金额:
57.0 万元
负责人:
杜小勇
依托单位:
学科分类:
F0202.系统软件、数据库与工业软件
结题年份:
2015
批准年份:
2011
项目状态:
已结题
项目参与者:
荣垂田、刘真、王晓燕、蒋梦霞、聂志、康菁菁、华雯、章小路、张敏
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
云计算平台由于其高度的可伸缩性和容错能力,引起了学术界和产业界的极大关注。云计算平台下的海量数据管理问题是其研究热点之一。本课题以互联网上普遍存在并正以指数速度增长的海量RDF数据为研究对象,探索如何在云计算平台下有效地管理RDF数据的基础理论和关键技术,包括RDF数据的聚合与演化规律,以及在云计算平台上如何高效地组织和管理海量RDF数据。围绕这两个科学问题,本课题将在以下五个方面开展研究:RDF数据的聚合与演化规律的研究;RDF数据模式的自动抽取算法;基于云平台的RDF数据组织与自适应存储方法;基于云计算平台的SPAQRL查询处理与优化;原型系统研制和应用示范。通过基础理论、核心技术和系统研制的研究,深化对互联网上海量RDF数据性质的理解,掌握云平台上海量RDF数据管理的关键技术,为研制支持语义网应用的海量数据管理系统奠定坚实的基础。
英文摘要
本课题以互联网上以指数速度增长的海量RDF数据为研究对象,探索如何在云计算平台下有效地管理和查询RDF数据的关键技术问题。基本的科学问题有两个:1) 探索海量RDF数据模式发现和演化的理论基础及其聚类和模式抽取的高效算法。(RDF数据聚类问题)2) 提出利用云平台提高海量RDF数据的自适应存储、并提高海量RDF数据SPARQL查询的效率的关键技术。(查询效率问题).课题主要研究内容与成果如下:.在数据聚类和模式抽取方面,我们通过对RDF数据的分析,利用相同主语和谓词自动识别RDF数据的模式,并参考Dirichlet聚类算法实现对RDF数据模式的聚类,将模式相似的RDF实体聚集在一起,为之后的RDF数据组织和存储建立基础。.在数据分布和查询处理方面,我们实现了一个以Map/Reduce做计算、rdf查询引擎做存储的混合架构系统,提出了一种基于Query Pattern的数据划分方法,尽可能减少查询之间的跨节点连接。证明了将划分的小集合放置到各个节点是一个NP-hard问题,因此选择用LNS(Large Neighborhood Search)寻找最优解。在此基础上,我们研究了多种重要的技术,包括字符串的近似连接算法等,为实现高效的查询处理提供支撑。.在原型系统研制方面,我们开发了“方圆”系统,这是一个基于云计算平台的RDF数据管理系统。方圆系统作为异构系统的数据集成工具,被应用于国家863计划项目“开放环境下海量web数据提取集成分析和管理系统平台与应用”中,能支持超过100亿条RDF数据的管理任务。.经过4年的努力,课题组完成了该课题的技术指标:申请专利4项,发表论文14篇(包括2篇已经接受尚没有发表的论文),其中,SCI期刊论文3篇(其中CCF A类期刊2篇)CCF A类会议论文 2篇,CCF B类会议论文5篇,CCF C类会议论文 1篇,国内一级学报论文2篇。申请专利4项,其中一项已经获得授权。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Efficiently Supporting Edit Distance Based String Similarity Search Using B+-Trees
使用 B 树有效支持基于编辑距离的字符串相似性搜索
DOI:10.1109/tkde.2014.2309131
发表时间:2014-12-01
期刊:IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
影响因子:8.9
作者:Lu, Wei;Du, Xiaoyong;Ooi, Beng Chin
通讯作者:Ooi, Beng Chin
DOI:--
发表时间:--
期刊:Computer Journal
影响因子:1.4
作者:Xiaoyan Wang;jinchuan Chen;杜小勇
通讯作者:杜小勇
DOI:10.1007/s00607-013-0382-5
发表时间:2014-01
期刊:Computing
影响因子:3.7
作者:Yu Sun;Jianzhong Qi;Rui Zhang;Yueguo Chen;Xiaoyong Du
通讯作者:Yu Sun;Jianzhong Qi;Rui Zhang;Yueguo Chen;Xiaoyong Du
DOI:--
发表时间:2013
期刊:Journal of Software
影响因子:--
作者:杜方;陈跃国;杜小勇
通讯作者:杜小勇
Efficient and Scalable Processing of String Similarity Join
字符串相似连接的高效且可扩展的处理
DOI:10.1109/tkde.2012.195
发表时间:2013-10
期刊:IEEE Transactions on Knowledge and Data Engineering
影响因子:8.9
作者:Rong, Chuitian;Lu, Wei;Wang, Xiaoli;Du, Xiaoyong;Chen, Yueguo;Tung, Anthony K. H.
通讯作者:Tung, Anthony K. H.
OLML:在线机器学习系统研究
- 批准号:--
- 项目类别:--
- 资助金额:57万元
- 批准年份:2020
- 负责人:杜小勇
- 依托单位:
基于RDF自适应存储的SPARQL查询优化技术研究
- 批准号:60873017
- 项目类别:面上项目
- 资助金额:31.0万元
- 批准年份:2008
- 负责人:杜小勇
- 依托单位:
本体库管理系统技术研究
- 批准号:60573092
- 项目类别:面上项目
- 资助金额:25.0万元
- 批准年份:2005
- 负责人:杜小勇
- 依托单位:
数据仓库系统技术研究
- 批准号:69973050
- 项目类别:面上项目
- 资助金额:12.0万元
- 批准年份:1999
- 负责人:杜小勇
- 依托单位:
国内基金
海外基金
