非结构化数据管理若干关键技术研究

批准号:
61073005
项目类别:
面上项目
资助金额:
40.0 万元
负责人:
王建民
依托单位:
学科分类:
F0202.系统软件、数据库与工业软件
结题年份:
2013
批准年份:
2010
项目状态:
已结题
项目参与者:
王朝坤、闻立杰、谌卫军、刘英博、朱妤晴、杨和东、丁建伟、田浩、刘璋
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
本课题面向网络化应用对非结构化数据管理需求,重点突破非结构化数据一体化管理核心技术,研制非结构化数据管理系统,并在电信服务领域进行应用验证。借鉴非结构化数据管理相关理论和方法,重点突破非结构化数据管理统一数据模型、可扩展体系结构、查询访问机制(包括存储、索引、并发控制、查询处理和优化、一致性管理)等关键技术,开发新型支持关键字检索和近似查询的类SQL语言,并在云计算(低成本计算机群)平台上,研制开放、可靠、高效、可扩展的非结构化数据管理原型系统,支持多种非结构化数据的一体化管理和访问。本项目研制的非结构化数据管理系统将在电信服务领域(3G互动社区)进行应用验证。
英文摘要
不同类型的非结构化数据通常具有不同的模式,而且具有不同的处理操作,同时非结构化数据还具有海量、动态、多样等大数据特点,其管理面临着巨大挑战。.三年来,项目负责人及本项目团队根据《资助项目计划书》,围绕非结构化数据管理系统关键技术进行了攻关,提出了一种开放式、多层次、组件化、可组装的体系结构,设计了一种类SQL的非结构化数据统一查询语言LaSQL,给出了非结构化数据分布式索引系列方法,提出了一种用户可定制的副本一致性形式化方法与实现机制,开发非结构化数据管理系统原型LaUDMS,并在工业大数据和互联网金融领域进行了应用验证。.非结构化数据管理系统包括数据存储、特征管理和语义服务三个层次。其中,LaUDStore是对数据存储层的具体实现,统一支撑结构化和非结构化数据的存储;特征管理通过对高维向量和关键字两种典型特征支持来实现,分别基于高维索引检索模块和Katta系统,涵盖特征抽取、高维索引检索和文本索引抽取三个模块;语义服务主要通过RDF来实现。.定义了非结构化数据统一查询语言LaSQL,LaSQL是一种标准查询语言,为La Structure Query Language的简称。LaSQL语言标准以Cassandra Query Language v2.0与Hive Query Language为基础、参照了UnQL和SQLMM进行设计,涵盖了非结构化数据管理的基本操作需求,即基于键值KV模型与文件存储访问的需求。.针对多种非结构化数据的并行查询处理框架特点,实现了Hybrid Spill Tree算法,其核心是基于减少回溯的高维索引结构,其特点是检索效率快,而缺点则是只能搜索近似KNN,但可通过参数的调整使得Hybrid Spill Tree的近似KNN与精确KNN接近。.由于不同的非结构化数据有对于存储访问延迟有不同的需求,课题组提出了一种基于数据访问访问过程解构与执行过程重组的方法,利用可扩展云存储的延迟与一致性间的权衡关系,为不同非结构化数据访问提供了可在指定延迟中返回的非结构化数据存储接口。.将过程模型和过程实例看作一种特殊的非结构化数据,提出了2个过程模型相似性度量,提出了多种模型快速索引结构和1个过程挖掘算法快速挖掘框架。.在VLDB会议、IEEE TSC等会议和期刊上发表相关学术论文12篇,获得相关中国发明专利3项,申请1项软件著作权。
专著列表
科研奖励列表
会议论文列表
专利列表
自然科学基金项目辅助评审关键技术与系统研发
- 批准号:61050010
- 项目类别:专项基金项目
- 资助金额:50.0万元
- 批准年份:2010
- 负责人:王建民
- 依托单位:
基于软件水印的JAVA可信运行环境关键技术研究
- 批准号:90718010
- 项目类别:重大研究计划
- 资助金额:50.0万元
- 批准年份:2007
- 负责人:王建民
- 依托单位:
水印关系数据库关键技术研究
- 批准号:60473077
- 项目类别:面上项目
- 资助金额:22.0万元
- 批准年份:2004
- 负责人:王建民
- 依托单位:
基于过程度量和挖掘的适应性工作流管理系统关键技术研究
- 批准号:60373011
- 项目类别:面上项目
- 资助金额:21.0万元
- 批准年份:2003
- 负责人:王建民
- 依托单位:
国内基金
海外基金
