面向图像暗数据的点亮与存储新技术研究

批准号:
61902135
项目类别:
青年科学基金项目
资助金额:
24.0 万元
负责人:
刘渝
依托单位:
学科分类:
F0204.计算机系统结构与硬件技术
结题年份:
2022
批准年份:
2019
项目状态:
已结题
项目参与者:
--
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
暗数据是用户在开展正常业务活动期间搜集、处理、存储,但通常无法被挖掘或理解的数据。根据合规管理监督委员会的研究显示,在企业存储的数据中,69%的数据都以暗数据形式存在。暗数据占据大量的存储资源,在可利用性和安全性等方面存在诸多问题。本项目以图像暗数据为研究对象,针对其规模庞大难以挖掘利用的问题开展研究,内容包括:首先,结合深度学习、哈希技术和图嵌入技术研究具有泛化能力的内容语义哈希技术;然后,结合图排序技术和检索技术研究基于内容语义的暗数据点亮新方法;最后,结合图谱化元数据管理技术,在对象文件系统层面研究支持暗数据点亮的存储新技术。本项目创新性地提出从内容语义出发理解并点亮暗数据,并以元数据管理方式抑制暗数据的产生,促进深度学习、哈希技术与存储技术的交叉融合,为暗数据研究探索一条新的途径。
英文摘要
Dark data is defined as the information assets that can be easily collected and stored, but generally fail to use for data analytics and mining. According to research by the compliance management oversight board, 69 percent of the data stored by companies is in the form of dark data. The dark data occupies large storage space and poses many problems of availability and security. Faced with problems of dark data which is large and hard to analyze, this project researches new technology of lightening for image dark data by deep learning, hash technology, multi-media retrieval technology and graph ranking technology. First, we research the semantic hash method with generation ability. Then, we research new lightening method by hash method and graph ranking method. At last, Based on our new lightening method, we research new storage technology by the metadata management to reduce the generation of dark data on the object file system. This project innovatively proposes to understand and lighten dark data based on content semantics, and suppress the generation of dark data by metadata management. It can promote the fusion of deep learning, hash technology and storage technology, and explore a new way for dark data research.
本项目针对图像暗数据此类规模庞大价值模糊的数据如何评估并挖掘其价值开展研究,主要研究内容包括:无监督深度哈希生成技术、内容认知存储系统结构设计和暗数据点亮与价值评估框架设计三个方面。.经过三年的研究,提出了一套从底层存储机制到上层内容语义理解的完整框架。首先,以相似性哈希码为元数据搭建数据存储与内容认知间的桥梁。然后,以暗数据点亮为目的设计了图结构元数据组织。最后,实现了在存储系统中对暗数据的点亮和评估操作,较好的缓解了暗数据价值难以评估和挖掘的问题。代表性研究成果如下。.在无监督深度哈希生成技术方面,提出在最先进的对比学习框架下,在实例增强的基础上通过聚类对正负样本进行判别,解决了对比哈希中的假负样本现象,实现了深度无偏哈希算法,将无监督哈希的检索精度提升至与有监督哈希相同的水平;在内容认知存储结构设计方面,提出了内容筛选存储系统,将哈希模型获得的相似性哈希码作为数据的元数据,通过限定的汉明距离进行图结构组织,为用户在读取内容相关数据时提供初步的筛选,其访问速度可提升3到4个数量级;在暗数据点亮与价值评估框架设计方面,在内容筛选存储系统基础上,计算图结构上的所有节点的重要性。在得到代表需求的数据的重要性后,探查该数据重要性在所有节点中重要性的排名比例,实现了对暗数据的价值评估操作。.本项目已发表学术论文13篇,其中在CCF的A类国际会议与国内期刊上发表论文4篇,JCR 1区期刊论文1篇,JCR2区及CCF B类会议及论文6篇;申请发明专利8项,获得发明专利授权1项;获得软件著作权4项;获得2021年第七届“互联网+”大学生创新创业大赛金奖1项。.通过本项目研究,加深了AI技术、数据技术和存储技术的融合探索,衍生了包括智能数据库调参、智能缓存等其他工作,并在卫星数据的即时响应与定位方面即将展开应用。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Unsupervised deep hashing with node representation for image retrieval
用于图像检索的具有节点表示的无监督深度哈希
DOI:10.1016/j.patcog.2020.107785
发表时间:2021-04-01
期刊:PATTERN RECOGNITION
影响因子:8
作者:Wang, Yangtao;Song, Jingkuan;Liu, Yu
通讯作者:Liu, Yu
Deep Hash-based Relevance-aware Data Quality Assessment for Image Dark Data
基于深度哈希的图像暗数据相关性感知数据质量评估
DOI:10.1145/3420038
发表时间:2021-04
期刊:ACM/IMS Transactions on Data Science
影响因子:--
作者:Liu Yu;Wang Yangtao;Gao Lianli;Guo Chan;Xie Yanzhao;Xiao Zhili
通讯作者:Xiao Zhili
A low cost and un-cancelled laplace noise based differential privacy algorithm for spatial decompositions
一种低成本且不可消除的基于拉普拉斯噪声的空间分解差分隐私算法
DOI:10.1007/s11280-019-00769-8
发表时间:2020-01-01
期刊:WORLD WIDE WEB-INTERNET AND WEB INFORMATION SYSTEMS
影响因子:3.7
作者:Li, Xiaocui;Wang, Yangtao;Li, Chunhua
通讯作者:Li, Chunhua
Semantic-aware data quality assessment for image big data
图像大数据的语义感知数据质量评估
DOI:10.1016/j.future.2019.07.063
发表时间:2020-01
期刊:Future Generation Computer Systems-The International Journal of eScience
影响因子:7.5
作者:Liu Yu;Wang Yangtao;Zhou Ke;Yang Yujuan;Liu Yifei
通讯作者:Liu Yifei
Fast Graph Convolution Network Based Multi-label Image Recognition via Cross-modal Fusion
基于快速图卷积网络的跨模态融合多标签图像识别
DOI:10.1145/3340531.3411880
发表时间:2020-10
期刊:Proceedings of the 29th ACM International Conference on Information & Knowledge Management
影响因子:--
作者:Yangtao Wang;Yanzhao Xie;Yu Liu;Ke Zhou;Xiaocui Li
通讯作者:Xiaocui Li
国内基金
海外基金
