公共云存储中私密数据的去重删除研究

张璜
摘 要: 为了降低公共云存储系统的空间开销,对公共云存储中私密数据的重复数据进行归并和删除处理,提高云存储容量,提出一种基于语义本体特征匹配检测的公共云存储中私密数据的去重删除技术。采用交叉分布方法进行公共云存储中私密数据的特征分解,根据数据的属性类别进行存储空间区域划分,提取私密数据的语义本体结构信息特征量,根据提取的特征量进行匹配检测,根据语义属性实现对重复数据的自适应筛选,对筛选出来的重复数据采用矩阵分解方法进行特征压缩和删减,实现去重删除。仿真结果表明,采用该算法进行公共云存储中私密数据的去重删除处理,提高了存储空间的容量,降低了数据存储的维数,实现了私密数据的优化存储。
关键词: 公共云存储; 私密数据; 去重删除; 语义
中图分类号: TN915?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)23?0073?04
Abstract: In order to reduce the space overhead of the public cloud storage system, merge and delete the duplicate data among private data in public cloud storage, and improve the cloud storage capacity, a de?duplication deletion technology of private data in public cloud storage is proposed, which is based on the semanteme ontology feature matching. The cross?distribution method is used to perform the feature decomposition of the private data in public cloud storage, with which the storage space region is divided according to the data attribute category, and the characteristic quantity of the semantic ontology structure information of the private data is extracted to carry out the matching detection. The duplicated data is adaptively screened according to the semantic property, and performed with feature compression and deletion with matrix decomposition method to realize the de?duplication deletion. The simulation results show that the algorithm used to realize the de?duplication deletion of the private data in public cloud storage can improve the capacity of storage space, reduce the dimension of data storage, and realize the optimization storage of private data.
Keywords: public cloud storage; private data; de?duplication deletion; semanteme
0 引 言
公共云存储系统为计算机用户提供了海量的存储空间,在公共云存储环境中,大量的个人用户数据通过分布式网格存储的形式保存在云端,在公共云存储空间中分布有大量的云数据,云数据包含商业信息、个人隐私信息以及各种网络信息,并通过一个超级虚拟存储空间进行储存空间分配,方便网络用户进行信息查询和调阅。公共云存储系统通过SCSI或SAS等DAS存储设备实现信息的管理和调度,在存储设备上进行逻辑虚拟化管理[1]。公共云存储由于网络的开放性,在将数据上传到系统中时大量的私密数据由于重传和类似等因素,导致数据重复,占据了大量的存储空间,导致资源浪费,需要对公共云存储中的私密数据进行去重删除处理,提高存储效能,研究去重删除方法在优化云存储设计中具有重要意义。
云存储广泛应用到监控应用平台、网络硬盘、远程数据备份等领域,大量的隐私数据上传到公共云存储空间中,通过广域网、互联网保存在网络中,通过对存储系统中的私密数据进行去重删除,降低存储开销。传统对云存储的重复数据删除方法主要有冗余滤波方法、匹配检测方法、自相关特征分割方法等[2?3],通过相关的滤波检测方法进行私密数据的重复数据检测和滤波处理,进行数据删除,取得了一定的效果。其中,文献[4]提出一种基于对象的OpenXML复合文件去重方法,采用空间权向量约束方法进行冗余检测,实现云存储中复合文件去重,提高了存储容量,但该计算方法的开销较大,数据去重的实时性不好。文献[5]提出一种基于布隆过滤器所有权证明的高效安全可去重云存储方案,针对大规模的云存储数据进行子域划分及二值分割,结合布隆过滤器进行冗余数据和重复数据删减,但该方法往往需要数量庞大的布隆过滤器,导致系统的设计较为复杂,稳定性不好。对此,本文提出一种基于语义本体特征匹配检测的公共云存储中私密数据的去重删除技术,根据语义属性实现对重复数据的自适应筛选,实现去重删除,通过仿真实验进行了去重性能测试,得出有效性结论。
1 公共云存储空间区域划分优化
1.1 公共云存储私密数据结构分析
3 仿真实验分析
通过仿真实验测试本文方法在实现公共云存储中私密数据去重删除,提高存储效能方面的应用性能,实验采用Matlab 7 仿真工具设计,首先对公共云存储空间中的私密数据进行原始信息采样,数据采样的时间间隔为12 s,私密数据的信息采样频率[fs=4f0=20 kHz,]数据规模为120 Gb,最大迭代次数为[N=50,]根据上述仿真环境设定,采用本文方法进行云存储系统中的私密数据去重删除仿真,采集的原始私密数据如图2所示。
采用本文方法进行去重删除,得到删除后的有用数据如图3所示。
分析图2和图3结果得知,原始数据中具有大量的重复数据,浪费了大量的公共云存储空间,采用本文方法进行去重删除,重复数据得到有效滤除,提高了存储效能。图4给出了采用本文方法和传统方法进行数据处理后的存储开销对比,分析得知,采用本文方法进行去重删除,有效降低了存储开销,提高了公共云存储空间容量。
4 结 语
本文提出一种基于语义本体特征匹配检测的公共云存储中私密数据的去重删除技术。采用交叉分布方法进行公共云存储中私密数据的特征分解,根据数据的属性类别进行存储空间区域划分,提取私密数据的语义本体结构信息特征量,根据提取的特征量进行匹配检测,根据语义属性实现对重复数据的自适应筛选,对筛选出来的重复数据采用矩阵分解方法进行特征压缩和删减,实现去重删除。研究得出,本文方法能有效降低公共云存储中私密数据的存储开销,提高存储空间容量,具有很好的应用性。
参考文献
[1] 梁聪刚,王鸿章.微分进化算法的优化研究及其在聚类分析中的应用[J].现代电子技术,2016,39(13):103?107.
[2] ZHANG Ming, CHEN Wen, CHEN Liuwei, et al. Photorefractive long period waveguide grating filter in lithium niobate strip waveguide [J]. Optical and quantum electronics, 2014, 46: 1529?1538.
[3] HESS R A. Aircraft and rotorcraft system identification?enginee?ring methods with flight test examples [J]. Journal of guidance, control, and dynamics, 2013, 36(4): 1249?1250.
[4] 阎芳,李元章,张全新,等.基于对象的OpenXML复合文件去重方法研究[J].计算机研究与发展,2015,52(7):1546?1557.
[5] 刘竹松,杨张杰.基于布隆过滤器所有权证明的高效安全可去重云存储方案[J].计算机应用,2017,37(3):766?770.
[6] 邓志刚,曾国荪,谭云兰,等.云存储内容分发网络中的能耗优化方法[J].计算机应用,2016,36(6):1515?1519.
[7] 李保利.基于类别层次结构的多层文本分类样本扩展策略[J].北京大学学报(自然科学版),2015,51(2):357?366.
[8] 何力,丁兆云,贾焰,等.大规模层次分类中的候选类别搜索[J].计算机学报,2014,37(1):41?49.
[9] 张啸剑,孟小峰.面向数据发布和分析的差分隐私保护[J].计算机学报,2014,37(4):927?949.