云计算下非结构化大数据存储系统设计
涂俊英+李志敏
摘 要: 当前云计算下非结构化大数据存储系统设计方法是通过使用分布式数据库存储跨区域的云计算数据和全局数据存储管理目录实现的,运行系统复杂,成本高昂。为此,提出基于HBase的云计算下非结构化大数据存储系统设计方法,首先对云计算下非结构化大数据进行分析,完成云计算下非结构化大数据提取,为云计算下非结构化大数据存储系统框架设计创造条件,并介绍HBase的特点,得到基于HBase非结构化大数据存储系统架构及运行流程,然后进行云计算下非结构化大数据存储结构模型总体设计及非结构化大数据分布式结构分析,采用负载均衡控制方法进行云计算下非结构化大数据存储系统冗余数据特征压缩及信息存储优化算法设计,完成云计算下非结构化大数据存储系统设计。通过仿真实验证明,所提方法能够有效降低云计算下非结构化大数据存储花费的时间,保证存储的数据可用、不丢失,方便云计算下非结构化大数据的使用,具有较强的使用价值。
关键词: 云计算; 非结构化; 大数据; 均衡控制; 运行流程; 存储系统设计
中图分类号: TN919?34; TP333 文献标识码: A 文章编号: 1004?373X(2018)01?0173?05
Abstract: The current design method of the unstructured large data storage system under cloud computing is realized by using the distributed database for cloud computing cross?regional storage and global data storage management directory, which has complex system operation and high cost. So a design method of the HBase?based unstructured large data storage system under cloud computing is proposed. The unstructured large data under cloud computing is analyzed, and extracted to create the condition for the framework design of the unstructured large data storage system under cloud computing. Based on the characteristics of HBase, the architecture and operation flow of the unstructured large data storage system based on HBase are obtained. The overall design of the unstructured large data storage structure model under cloud computing and unstructured large data distributed structural analysis are carried out. The load balancing control method is used to compress the redundant data feature and design the information storage optimization algorithm of the unstructured large data storage system under cloud computing to realize the design of the unstructured large data storage system under cloud computing. The simulation results show that the proposed method can effectively reduce the storage time of the unstructured large data under cloud computing and ensure the available and subsistent data stored in database, is convenient for the use of the unstructured large data under cloud computing, and has high use value.
Keywords: cloud computing; unstructure; large data; balancing control; operation flow; storage system design
0 引 言
隨着计算机互联网技术的普及,云计算被广泛应用在科技、医疗、军事等各个领域[1],在人们生活中占据着越来越重要的作用,随着网络中数据的增多,对非结构化大数据进行存储具有重要意义[2?3],有利于非机构化大数据的保护,保证非结构化大数据的可用[4]。本文提出一种基于多通道的云计算下非结构化大数据存储系统,完成云计算下非结构化大数据硬件设计及逻辑设计[5],这种方法是云计算下非结构化大数据存储的重要方法,是解决该问题的有效途径,也成为业内人士研究的焦点问题,研究取得了丰硕的成果[6?7]。
文献[8]提出一种基于FPGA和Serial ATA桥接芯片的云计算下非结构化大数据存储系统设计方法,利用FPGA对IP核控制JM20330芯片进行设计,从而完成由IDE到SATA接口的转换,提供单接口传输通道,并支持热插拔,实现脱机情况下对SATA硬盘的操作,从而完成云计算下非结构化大数据存储系统的设计。但这种方法对硬件要求高,不利于系统维护工作的开展。
文献[9]提出一种基于分布式的云计算下非结构化大数据存储系统设计方法,通过将数据划分成大小相同的非结构化大数据文件块,利用多副本的形式分布存储在不同地理位置以实现更好的容错机制,从而提供高可用的持久化的数据存储。但这种进行非结构化大数据存储系统设计的方法可能导致非结构化大数据内容丢失。
文献[10]提出一种基于NAND FLASH存储介质的云计算下非结构化大数据存储系统设计方法,该设计方法是通过硬件系统以及软件系统的设计完成的,在云计算下非结构化大数据存储系统的软件设计中提出将数据管理算法应用于NAND闪存,利用二级地址的映射关系对非结构化大数据进行处理,均匀损耗。该方法在对非结构化大数据进行存储时,可能会导致原大数据内容信息失真。
针对上述问题,本文提出一种基于HBase的云计算下非结构化大数据存储系统设计方法,首先对云计算下非结构化大数据进行分析,完成云计算下非结构化大数据提取,为云计算下非结构化大数据存储系统框架设计创造条件,并介绍HBase的特点,得到基于HBase非结构化大数据存储系统架构及运行流程,然后进行云计算下非结构化大数据存储结构模型总体设计及非结构化大数据分布式结构分析,采用负载均衡控制方法进行云计算下非结构化大数据存储系统冗余数据特征压缩及信息存储优化算法设计。完成云计算下非结构化大数据存储系统设计。通过仿真实验证明,所提方法能够有效降低云计算下非结构化大数据存储花费的时间,保证存储的数据可用、不丢失,方便云计算下非结构化大数据的使用,具有较强的实用性。
1 云计算下非结构化大数据存储系统设计
非结构化数据具有存储方式不一,数据格式多样,业务流程多样,数据难以标准化,信息量大等特点,通过分层的网络结构对云计算下非结构化大数据进行存储,将云计算下非结构化大数据分成应用层、会话层、数据层、路由层和物理层5个功能层。应用层提供云计算下非结构化大数据应用接口;会话层具备较多权限以及安全执行能力,该层根据不同等级的安全情况,制定不同形式的安全方案以确保数据的安全;数据层的作用是统一管理云计算下非结构化数据及其元数据;路由层的主要作用是保证各个设备间连接并完成路径计算。
1.1 云计算下非结构化大数据分析
云计算下非结构化大数据分析主要包括与应用程序一起集成的云计算客户端、云计算后端处理服务器和报表系统。通过将云计算数据库集成在同一云计算数据库,利用接收云计算下非结构化大数据的服务器和处理非结构化大数据的服务器以及报表系统,完成云计算下非结构化大数据分析。
云计算客户端以组件的形式集成在云计算软件中,用户在安装云计算软件的同时,将客户端安装在电脑中,将用户操作记录,并发送出去。
接收服务器部署在云计算环境中,其关键作用是负责接收客户端传送过来的最优数据,并将这些数据信息保存在固定的文件中,之后在特定的时间将这些文件传输到指定的目录中。
操作数据预处理。设计它的目的是接收来自服务器Event Collect层传送来的数据信息,并且按照事件的类型来标记这些数据信息记录。
云计算环境下非结构化大数据的采集是云计算环境下非结构化大数据存储的基础。随着互联网技术和应用的发展以及各种终端设备的普及,数据的来源范围越来越大,非结构化大数据的产量也随之增多,非结构化数据之间的关联也越来越复杂,这也是非结构化大数据中“大”的体现,所以需要提高云计算下非结构化大数据采集的速度和精度要求。
云计算下非结构化大数据的处理与集成主要是对前一步采集到的非结构化大数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为云计算下非结构化大数據的采集步骤不一样,采集到的数据结构并不统一,不利于后续非结构性大数据的存储利用。并且,不将一些无效废结构性大数据去除,还会影响数据分析的精度和可靠性,所以,将非结构化大数据统一格式并且去除无效数据是非常必要的。
在完成了对云计算下非结构化大数据的采集和处理后,需要对非结构性大数据进行分析。通过分析,将云计算下非结构化大数据的价值体现出来。云计算下非结构化大数据分析的对象是上一步云计算下处理与集成后的统一格式的非结构化大数据,针对有价值的云计算下非结构化大数据进行存储。图1为云计算下非结构化大数据分析过程。
通过上述分析,完成云计算下非结构化大数据的提取,方便云计算下非结构化大数据存储系统设计,为存储系统框架的构建创造条件。
1.2 云计算下非结构化大数据存储系统框架设计
云计算是一种分布式计算,通过将网络中的计算节点作为资源池,对网络资源进行整合,并利用特定软件对资源进行管理。Hadoop是云计算的核心技术,其中HBase是Hadoop的重要组成部分。
HBase是分布式、面向列的存储系统,提供实时读写和随机访问大数据集。HBase自动把表横切成不同的区域,每个区域包含表的所有行的一个子集。HBase由一个主节点协调一个或多个区域服务器组成。HBase主节点负责引导初始安装、分配区域给区域服务器,恢复区域服务器的故障,主节点负载较轻。区域服务器负责0到多个区域,响应客户端的读写请求。HBase的实现依赖于Zookeeper来协调管理,Zookeeper负责选取一个节点为Master,剩下的节点为 region server。
基于HBase非结构化大数据库存储系统架构采用分布式架构中的主从模式,保证数据库的可扩展性与数据的强一致性。
基于HBase的云计算下非结构化大数据存储系统如图2所示。
云计算下非结构化大数据存储系统通过互联网采集云计算下的海量数据,通过后台系统实现非结构化大数据的自主存储。具体存储平台如图3所示。
通过上述论述进行非结构化大数据存储平台设计,从而完成云计算下非结构化大数据存储平台设计。
1.3 云计算下非结构化大数据存储算法设计
在对云计算网络中非结构化数据存储结构分析时,根据云计算下非结构化大数据调度模型和云计算下非结构化大数据存储概念相似度特征,得到云计算下非结构化大数据存储分布的二元域[F2]分布规则。针对云计算下非结构化大数据存储系统的不同用户偏好,构建非结构化大数据存储系统的多用户规则调度模型为:
[fij=wtδt+wcδc+wqδq+wsδs] (1)
式中:[wt+wc+wq+ws=1;][t]表示非结构化大数据存储系统中进行数据采集的时间;[c]表示非结构化大数据存储系统中满足用户存储需求的代价;[q]表示存储系统中非结构化大数据存储的质量;[s]表示非结构化大数据存储系统的数据存储损耗;[w]表示非结构化大数据节点总数;[δ]表示云计算下非结构化大数据存储数据包。
设定[k]表示非结构化大数据源数量,存在[k+ε]个非结构化大数据节点,从中收集了[k+ε]个非结构化大数据存储数据包,其中[ε>0]为常数。为便于描述,这[k+ε]个非结构化大数据存储数据包用[Yi]表示,[i=1,2,…,k+ε]。因为每个存储数据包都是源数据包的线性组合,因此,任意一个[Yi,][i=1,2,…,n]都可以表示为:
[Yi=gi[X1,X2,…,Xk]] (2)
式中:[X1,X2,…,Xk]表示[k]个非结构化大数据源数据包;[gi]表示一个独立的且取值在二元域[F2={0,1}]上的行向量,即非结构化大数据的存储数据包[Yi]的生成行向量。[gij]表示[gi]的每个元素,[j=1,2,…,k,]其取值都是独立的,其定义的分布可表示为:
[Pr(gij=r)=alnkk,r=11-alnkk,r=0 ] (3)
式中:[alnkk]表示非结构化大数据节点概率;[r]表示两个节点的距离。
[G(k+ε)×k]表示[k+ε]个非结构化大数据存储数据包构成的[(k+ε)×k]阶矩阵,即[k+ε]个非结构化大数据存储数据包的生成矩阵,则:
[G(k+ε)×k=[g1,g2,…,gk+ε]T] (4)
借助生成矩阵,[k+ε]个非结构化大数据存储数据包可以表述为:
[Y1Y2?Yk+ε=G(k+ε)×k?X1X2?Xk] (5)
用[Pfailure]表示二元域[F2]上的生成矩阵[G(k+ε)×k]列不满秩的概率,当[G(k+ε)×k]的每个非结构化大数据元素的取值服从公式(3)定义的分布时,则[Pfailure]可表示为:
[Pfailure≤w=1kkwk+ε] (6)
假設[ρ]表示生成矩阵[G(k+ε)×k]中每个元素值为1的概率,当[alnkk=12]时,对[Pfailure]进行简化,可以表示为:
[Pfailure≤12ε] (7)
若[s]表示非结构化大数据存储系统的数据存储损耗,[w]表示非结构化大数据节点总数,则有:
[s=0,2,…,wws=2w-1] (8)
通过上述算法,完成云计算下非结构化大数据存储算法设计,从而完成非结构化大数据存储系统设计。
2 仿真实验结果与分析
为了证明本文提出的基于HBase的云计算下非结构化大数据存储系统设计方法的有效性,以Intel P4 2 GB处理器为硬件环境,Matlab 2008a为平台,通过模拟非结构化大数据存储情况,进行仿真实验。运用对比法将本文所提系统设计方法与文献[9]提出的基于分布式的云计算下非结构化大数据存储系统设计方法存储性能进行比较,从而完成实验。
分别利用本文所提云计算下非结构化大数据存储系统设计方法和文献[9]提出的基于分布式的云计算下非结构化大数据存储系统设计方法进行非结构化存储需要的时间进行对比分析,对比结果如表1表示。
从表1和图4可以看出,存储同样大小的非结构化大数据,本文提出的存取系统设计方法与文献[9]提出的存储系统设计方法相比,存储花费时间更短。说明本文所提方法存储速度快。
将表1用图形方式进行表示,得出结果如图4所示。
在进行非结构化大数据存储时,存在多个非结构化大数据,当完全存储非结构化大数据时,则称该非结构化大数据存储完整,存储的完整度表示存储完整数量与总非结构化大数据数量的比值。分别利用本文所提存储系统设计方法与文献[9]所提存储系统设计方法对非结构化大数据进行存储性能对比,得到非结构化大数据存储完整量结果如表2所示,非结构化大数据存储完整度如图5所示。
通过表2可以看出,对相同数量的非结构化大数据进行存储,本文所提方法完整存储非结构化大数据的数量较多。从图5可以看出,本文所提存储系统设计方法进行存储时,对非结构化大数据存储的完整度平均在90%,而采用文献[9]所提系统设计方法进行存储时,对非结构化大数据存储的完整度在80%左右,说明本文所提云计算下非结构化大数据存储系统设计方法能够较好地保证非结构化大数据存储的完整性。综合上述实验,可以得到本文所提方法能够有效地提高云计算下非结构化大数据存储的速度及完整性,具有较强的使用价值。
3 结 语
随着云计算的广泛使用,云计算数据越来越多,对非结构化大数据存储愈来愈受到人们的重视,针对传统云计算下非结构化大数据存储存在运行系统复杂,成本高昂的问题,提出基于HBase的云计算下非结构化大数据存储系统设计方法,能够提高非结构化大数据存储的速度与完整性,具有较强的使用价值。
参考文献
[1] 陈志华,刘晓勇.云计算下大数据非结构的稳定性检索方法[J].现代电子技术,2016,39(6):58?61.
CHEN Zhihua, LIU Xiaoyong. Methods of unstructured big data stability retrieval in cloud computing [J]. Modern electronics technique, 2016, 39(6): 58?61.
[2] 吴凯峰,刘万涛,李彦虎,等.基于云计算的电力大数据分析技术与应用[J].中国电力,2015,48(2):111?116.
WU Kaifeng, LIU Wantao, LI Yanhu, et al. Cloud?computing based power big data analysis technology and its application [J]. Electric power, 2015, 48(2): 111?116.
[3] 王敬东.面向大数据的数字图书馆数据库缓存模型设计[J].图书情报工作,2014,58(22):95?99.
WANG Jingdong. Design of digital library database cache model oriented to big data [J]. Library and information service, 2014, 58(22): 95?99.
[4] 李洪奇,朱丽萍,孙国玉,等.面向海量小文件的分布式存储系统设计与实现[J].计算机工程与设计,2016,37(1):86?92.
LI Hongqi, ZHU Liping, SUN Guoyu, et al. Design and implementation of distributed mass small file storage system [J]. Computer engineering and design, 2016, 37(1): 86?92.
[5] 吴燕波,薛琴,向大为,等.云平台下的NoSQL分布式大数据存储技术与应用[J].现代电子技术,2016,39(9):44?47.
WU Yanbo, XUE Qin, XIANG Dawei, et al. NoSQL distributed big data storage technology and its application under cloud platform [J]. Modern electronics technique, 2016, 39(9): 44?47.
[6] 刘帆.关系数据库中实时高效元数据存储算法优化研究[J].科学技术与工程,2017,17(17):255?260.
LIU Fan. A relational database real?time efficient data storage algorithm optimization research [J]. Science technology and engineering, 2017, 17(17): 255?260.
[7] 杨俊杰,廖卓凡,冯超超.大数据存储架构和算法研究综述[J].计算机应用,2016,36(9):2465?2471.
YANG Junjie, LIAO Zhuofan, FENG Chaochao. Survey on big data storage framework and algorithm [J]. Journal of computer applications, 2016, 36(9): 2465?2471.
[8] 王东强,王晓霞.云存储中大数据优化粒子群聚类算法[J].电子设计工程,2017,25(2):26?30.
WANG Dongqiang, WANG Xiaoxia. Large data optimization particle swarm clustering algorithm based on cloud storage [J]. Electronic design engineering, 2017, 25(2): 26?30.
[9] 李德有,赵立波,解晨光.Hadoop构建的银行海量数据存储系统研究[J].哈尔滨理工大学学报,2015,20(4):60?65.
LI Deyou, ZHAO Libo, XIE Chenguang. The research of a big data storage system constructed with Hadoop [J]. Journal of Harbin University of Science and Technology, 2015, 20(4): 60?65.
[10] 洑涵妤.基于云计算的安全数据存储系统的设计与实现[J].煤炭技术,2010,29(12):169?171.
FU Hanyu. Design and implementation of secure data storage system based on cloud computing [J]. Coal technology, 2010, 29(12): 169?171.
摘 要: 当前云计算下非结构化大数据存储系统设计方法是通过使用分布式数据库存储跨区域的云计算数据和全局数据存储管理目录实现的,运行系统复杂,成本高昂。为此,提出基于HBase的云计算下非结构化大数据存储系统设计方法,首先对云计算下非结构化大数据进行分析,完成云计算下非结构化大数据提取,为云计算下非结构化大数据存储系统框架设计创造条件,并介绍HBase的特点,得到基于HBase非结构化大数据存储系统架构及运行流程,然后进行云计算下非结构化大数据存储结构模型总体设计及非结构化大数据分布式结构分析,采用负载均衡控制方法进行云计算下非结构化大数据存储系统冗余数据特征压缩及信息存储优化算法设计,完成云计算下非结构化大数据存储系统设计。通过仿真实验证明,所提方法能够有效降低云计算下非结构化大数据存储花费的时间,保证存储的数据可用、不丢失,方便云计算下非结构化大数据的使用,具有较强的使用价值。
关键词: 云计算; 非结构化; 大数据; 均衡控制; 运行流程; 存储系统设计
中图分类号: TN919?34; TP333 文献标识码: A 文章编号: 1004?373X(2018)01?0173?05
Abstract: The current design method of the unstructured large data storage system under cloud computing is realized by using the distributed database for cloud computing cross?regional storage and global data storage management directory, which has complex system operation and high cost. So a design method of the HBase?based unstructured large data storage system under cloud computing is proposed. The unstructured large data under cloud computing is analyzed, and extracted to create the condition for the framework design of the unstructured large data storage system under cloud computing. Based on the characteristics of HBase, the architecture and operation flow of the unstructured large data storage system based on HBase are obtained. The overall design of the unstructured large data storage structure model under cloud computing and unstructured large data distributed structural analysis are carried out. The load balancing control method is used to compress the redundant data feature and design the information storage optimization algorithm of the unstructured large data storage system under cloud computing to realize the design of the unstructured large data storage system under cloud computing. The simulation results show that the proposed method can effectively reduce the storage time of the unstructured large data under cloud computing and ensure the available and subsistent data stored in database, is convenient for the use of the unstructured large data under cloud computing, and has high use value.
Keywords: cloud computing; unstructure; large data; balancing control; operation flow; storage system design
0 引 言
隨着计算机互联网技术的普及,云计算被广泛应用在科技、医疗、军事等各个领域[1],在人们生活中占据着越来越重要的作用,随着网络中数据的增多,对非结构化大数据进行存储具有重要意义[2?3],有利于非机构化大数据的保护,保证非结构化大数据的可用[4]。本文提出一种基于多通道的云计算下非结构化大数据存储系统,完成云计算下非结构化大数据硬件设计及逻辑设计[5],这种方法是云计算下非结构化大数据存储的重要方法,是解决该问题的有效途径,也成为业内人士研究的焦点问题,研究取得了丰硕的成果[6?7]。
文献[8]提出一种基于FPGA和Serial ATA桥接芯片的云计算下非结构化大数据存储系统设计方法,利用FPGA对IP核控制JM20330芯片进行设计,从而完成由IDE到SATA接口的转换,提供单接口传输通道,并支持热插拔,实现脱机情况下对SATA硬盘的操作,从而完成云计算下非结构化大数据存储系统的设计。但这种方法对硬件要求高,不利于系统维护工作的开展。
文献[9]提出一种基于分布式的云计算下非结构化大数据存储系统设计方法,通过将数据划分成大小相同的非结构化大数据文件块,利用多副本的形式分布存储在不同地理位置以实现更好的容错机制,从而提供高可用的持久化的数据存储。但这种进行非结构化大数据存储系统设计的方法可能导致非结构化大数据内容丢失。
文献[10]提出一种基于NAND FLASH存储介质的云计算下非结构化大数据存储系统设计方法,该设计方法是通过硬件系统以及软件系统的设计完成的,在云计算下非结构化大数据存储系统的软件设计中提出将数据管理算法应用于NAND闪存,利用二级地址的映射关系对非结构化大数据进行处理,均匀损耗。该方法在对非结构化大数据进行存储时,可能会导致原大数据内容信息失真。
针对上述问题,本文提出一种基于HBase的云计算下非结构化大数据存储系统设计方法,首先对云计算下非结构化大数据进行分析,完成云计算下非结构化大数据提取,为云计算下非结构化大数据存储系统框架设计创造条件,并介绍HBase的特点,得到基于HBase非结构化大数据存储系统架构及运行流程,然后进行云计算下非结构化大数据存储结构模型总体设计及非结构化大数据分布式结构分析,采用负载均衡控制方法进行云计算下非结构化大数据存储系统冗余数据特征压缩及信息存储优化算法设计。完成云计算下非结构化大数据存储系统设计。通过仿真实验证明,所提方法能够有效降低云计算下非结构化大数据存储花费的时间,保证存储的数据可用、不丢失,方便云计算下非结构化大数据的使用,具有较强的实用性。
1 云计算下非结构化大数据存储系统设计
非结构化数据具有存储方式不一,数据格式多样,业务流程多样,数据难以标准化,信息量大等特点,通过分层的网络结构对云计算下非结构化大数据进行存储,将云计算下非结构化大数据分成应用层、会话层、数据层、路由层和物理层5个功能层。应用层提供云计算下非结构化大数据应用接口;会话层具备较多权限以及安全执行能力,该层根据不同等级的安全情况,制定不同形式的安全方案以确保数据的安全;数据层的作用是统一管理云计算下非结构化数据及其元数据;路由层的主要作用是保证各个设备间连接并完成路径计算。
1.1 云计算下非结构化大数据分析
云计算下非结构化大数据分析主要包括与应用程序一起集成的云计算客户端、云计算后端处理服务器和报表系统。通过将云计算数据库集成在同一云计算数据库,利用接收云计算下非结构化大数据的服务器和处理非结构化大数据的服务器以及报表系统,完成云计算下非结构化大数据分析。
云计算客户端以组件的形式集成在云计算软件中,用户在安装云计算软件的同时,将客户端安装在电脑中,将用户操作记录,并发送出去。
接收服务器部署在云计算环境中,其关键作用是负责接收客户端传送过来的最优数据,并将这些数据信息保存在固定的文件中,之后在特定的时间将这些文件传输到指定的目录中。
操作数据预处理。设计它的目的是接收来自服务器Event Collect层传送来的数据信息,并且按照事件的类型来标记这些数据信息记录。
云计算环境下非结构化大数据的采集是云计算环境下非结构化大数据存储的基础。随着互联网技术和应用的发展以及各种终端设备的普及,数据的来源范围越来越大,非结构化大数据的产量也随之增多,非结构化数据之间的关联也越来越复杂,这也是非结构化大数据中“大”的体现,所以需要提高云计算下非结构化大数据采集的速度和精度要求。
云计算下非结构化大数据的处理与集成主要是对前一步采集到的非结构化大数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为云计算下非结构化大数據的采集步骤不一样,采集到的数据结构并不统一,不利于后续非结构性大数据的存储利用。并且,不将一些无效废结构性大数据去除,还会影响数据分析的精度和可靠性,所以,将非结构化大数据统一格式并且去除无效数据是非常必要的。
在完成了对云计算下非结构化大数据的采集和处理后,需要对非结构性大数据进行分析。通过分析,将云计算下非结构化大数据的价值体现出来。云计算下非结构化大数据分析的对象是上一步云计算下处理与集成后的统一格式的非结构化大数据,针对有价值的云计算下非结构化大数据进行存储。图1为云计算下非结构化大数据分析过程。
通过上述分析,完成云计算下非结构化大数据的提取,方便云计算下非结构化大数据存储系统设计,为存储系统框架的构建创造条件。
1.2 云计算下非结构化大数据存储系统框架设计
云计算是一种分布式计算,通过将网络中的计算节点作为资源池,对网络资源进行整合,并利用特定软件对资源进行管理。Hadoop是云计算的核心技术,其中HBase是Hadoop的重要组成部分。
HBase是分布式、面向列的存储系统,提供实时读写和随机访问大数据集。HBase自动把表横切成不同的区域,每个区域包含表的所有行的一个子集。HBase由一个主节点协调一个或多个区域服务器组成。HBase主节点负责引导初始安装、分配区域给区域服务器,恢复区域服务器的故障,主节点负载较轻。区域服务器负责0到多个区域,响应客户端的读写请求。HBase的实现依赖于Zookeeper来协调管理,Zookeeper负责选取一个节点为Master,剩下的节点为 region server。
基于HBase非结构化大数据库存储系统架构采用分布式架构中的主从模式,保证数据库的可扩展性与数据的强一致性。
基于HBase的云计算下非结构化大数据存储系统如图2所示。
云计算下非结构化大数据存储系统通过互联网采集云计算下的海量数据,通过后台系统实现非结构化大数据的自主存储。具体存储平台如图3所示。
通过上述论述进行非结构化大数据存储平台设计,从而完成云计算下非结构化大数据存储平台设计。
1.3 云计算下非结构化大数据存储算法设计
在对云计算网络中非结构化数据存储结构分析时,根据云计算下非结构化大数据调度模型和云计算下非结构化大数据存储概念相似度特征,得到云计算下非结构化大数据存储分布的二元域[F2]分布规则。针对云计算下非结构化大数据存储系统的不同用户偏好,构建非结构化大数据存储系统的多用户规则调度模型为:
[fij=wtδt+wcδc+wqδq+wsδs] (1)
式中:[wt+wc+wq+ws=1;][t]表示非结构化大数据存储系统中进行数据采集的时间;[c]表示非结构化大数据存储系统中满足用户存储需求的代价;[q]表示存储系统中非结构化大数据存储的质量;[s]表示非结构化大数据存储系统的数据存储损耗;[w]表示非结构化大数据节点总数;[δ]表示云计算下非结构化大数据存储数据包。
设定[k]表示非结构化大数据源数量,存在[k+ε]个非结构化大数据节点,从中收集了[k+ε]个非结构化大数据存储数据包,其中[ε>0]为常数。为便于描述,这[k+ε]个非结构化大数据存储数据包用[Yi]表示,[i=1,2,…,k+ε]。因为每个存储数据包都是源数据包的线性组合,因此,任意一个[Yi,][i=1,2,…,n]都可以表示为:
[Yi=gi[X1,X2,…,Xk]] (2)
式中:[X1,X2,…,Xk]表示[k]个非结构化大数据源数据包;[gi]表示一个独立的且取值在二元域[F2={0,1}]上的行向量,即非结构化大数据的存储数据包[Yi]的生成行向量。[gij]表示[gi]的每个元素,[j=1,2,…,k,]其取值都是独立的,其定义的分布可表示为:
[Pr(gij=r)=alnkk,r=11-alnkk,r=0 ] (3)
式中:[alnkk]表示非结构化大数据节点概率;[r]表示两个节点的距离。
[G(k+ε)×k]表示[k+ε]个非结构化大数据存储数据包构成的[(k+ε)×k]阶矩阵,即[k+ε]个非结构化大数据存储数据包的生成矩阵,则:
[G(k+ε)×k=[g1,g2,…,gk+ε]T] (4)
借助生成矩阵,[k+ε]个非结构化大数据存储数据包可以表述为:
[Y1Y2?Yk+ε=G(k+ε)×k?X1X2?Xk] (5)
用[Pfailure]表示二元域[F2]上的生成矩阵[G(k+ε)×k]列不满秩的概率,当[G(k+ε)×k]的每个非结构化大数据元素的取值服从公式(3)定义的分布时,则[Pfailure]可表示为:
[Pfailure≤w=1kkwk+ε] (6)
假設[ρ]表示生成矩阵[G(k+ε)×k]中每个元素值为1的概率,当[alnkk=12]时,对[Pfailure]进行简化,可以表示为:
[Pfailure≤12ε] (7)
若[s]表示非结构化大数据存储系统的数据存储损耗,[w]表示非结构化大数据节点总数,则有:
[s=0,2,…,wws=2w-1] (8)
通过上述算法,完成云计算下非结构化大数据存储算法设计,从而完成非结构化大数据存储系统设计。
2 仿真实验结果与分析
为了证明本文提出的基于HBase的云计算下非结构化大数据存储系统设计方法的有效性,以Intel P4 2 GB处理器为硬件环境,Matlab 2008a为平台,通过模拟非结构化大数据存储情况,进行仿真实验。运用对比法将本文所提系统设计方法与文献[9]提出的基于分布式的云计算下非结构化大数据存储系统设计方法存储性能进行比较,从而完成实验。
分别利用本文所提云计算下非结构化大数据存储系统设计方法和文献[9]提出的基于分布式的云计算下非结构化大数据存储系统设计方法进行非结构化存储需要的时间进行对比分析,对比结果如表1表示。
从表1和图4可以看出,存储同样大小的非结构化大数据,本文提出的存取系统设计方法与文献[9]提出的存储系统设计方法相比,存储花费时间更短。说明本文所提方法存储速度快。
将表1用图形方式进行表示,得出结果如图4所示。
在进行非结构化大数据存储时,存在多个非结构化大数据,当完全存储非结构化大数据时,则称该非结构化大数据存储完整,存储的完整度表示存储完整数量与总非结构化大数据数量的比值。分别利用本文所提存储系统设计方法与文献[9]所提存储系统设计方法对非结构化大数据进行存储性能对比,得到非结构化大数据存储完整量结果如表2所示,非结构化大数据存储完整度如图5所示。
通过表2可以看出,对相同数量的非结构化大数据进行存储,本文所提方法完整存储非结构化大数据的数量较多。从图5可以看出,本文所提存储系统设计方法进行存储时,对非结构化大数据存储的完整度平均在90%,而采用文献[9]所提系统设计方法进行存储时,对非结构化大数据存储的完整度在80%左右,说明本文所提云计算下非结构化大数据存储系统设计方法能够较好地保证非结构化大数据存储的完整性。综合上述实验,可以得到本文所提方法能够有效地提高云计算下非结构化大数据存储的速度及完整性,具有较强的使用价值。
3 结 语
随着云计算的广泛使用,云计算数据越来越多,对非结构化大数据存储愈来愈受到人们的重视,针对传统云计算下非结构化大数据存储存在运行系统复杂,成本高昂的问题,提出基于HBase的云计算下非结构化大数据存储系统设计方法,能够提高非结构化大数据存储的速度与完整性,具有较强的使用价值。
参考文献
[1] 陈志华,刘晓勇.云计算下大数据非结构的稳定性检索方法[J].现代电子技术,2016,39(6):58?61.
CHEN Zhihua, LIU Xiaoyong. Methods of unstructured big data stability retrieval in cloud computing [J]. Modern electronics technique, 2016, 39(6): 58?61.
[2] 吴凯峰,刘万涛,李彦虎,等.基于云计算的电力大数据分析技术与应用[J].中国电力,2015,48(2):111?116.
WU Kaifeng, LIU Wantao, LI Yanhu, et al. Cloud?computing based power big data analysis technology and its application [J]. Electric power, 2015, 48(2): 111?116.
[3] 王敬东.面向大数据的数字图书馆数据库缓存模型设计[J].图书情报工作,2014,58(22):95?99.
WANG Jingdong. Design of digital library database cache model oriented to big data [J]. Library and information service, 2014, 58(22): 95?99.
[4] 李洪奇,朱丽萍,孙国玉,等.面向海量小文件的分布式存储系统设计与实现[J].计算机工程与设计,2016,37(1):86?92.
LI Hongqi, ZHU Liping, SUN Guoyu, et al. Design and implementation of distributed mass small file storage system [J]. Computer engineering and design, 2016, 37(1): 86?92.
[5] 吴燕波,薛琴,向大为,等.云平台下的NoSQL分布式大数据存储技术与应用[J].现代电子技术,2016,39(9):44?47.
WU Yanbo, XUE Qin, XIANG Dawei, et al. NoSQL distributed big data storage technology and its application under cloud platform [J]. Modern electronics technique, 2016, 39(9): 44?47.
[6] 刘帆.关系数据库中实时高效元数据存储算法优化研究[J].科学技术与工程,2017,17(17):255?260.
LIU Fan. A relational database real?time efficient data storage algorithm optimization research [J]. Science technology and engineering, 2017, 17(17): 255?260.
[7] 杨俊杰,廖卓凡,冯超超.大数据存储架构和算法研究综述[J].计算机应用,2016,36(9):2465?2471.
YANG Junjie, LIAO Zhuofan, FENG Chaochao. Survey on big data storage framework and algorithm [J]. Journal of computer applications, 2016, 36(9): 2465?2471.
[8] 王东强,王晓霞.云存储中大数据优化粒子群聚类算法[J].电子设计工程,2017,25(2):26?30.
WANG Dongqiang, WANG Xiaoxia. Large data optimization particle swarm clustering algorithm based on cloud storage [J]. Electronic design engineering, 2017, 25(2): 26?30.
[9] 李德有,赵立波,解晨光.Hadoop构建的银行海量数据存储系统研究[J].哈尔滨理工大学学报,2015,20(4):60?65.
LI Deyou, ZHAO Libo, XIE Chenguang. The research of a big data storage system constructed with Hadoop [J]. Journal of Harbin University of Science and Technology, 2015, 20(4): 60?65.
[10] 洑涵妤.基于云计算的安全数据存储系统的设计与实现[J].煤炭技术,2010,29(12):169?171.
FU Hanyu. Design and implementation of secure data storage system based on cloud computing [J]. Coal technology, 2010, 29(12): 169?171.