网站首页  词典首页

请输入您要查询的论文:

 

标题 基于网格存储P2P分布式存储和云存储的比较研究
范文 李雪萍 张文华 胡春 冯凯
收稿日期:2011-06-02
基金项目:本文为江西省社会科学研究“十一五”(2010年)规划项目,《云计算与图书馆信息资源共建共享》(项目编号:10TW12)资助。
〔摘要〕本文分析了近年来提出的3种存储方式(网络存储、p2p分布式存储和云存储)的技术特点和应用实例,指出这3种存储方式的分类以及优缺点,并对这三类存储系统进行了对比研究,提出3种存储方式的融合趋势,最后给出各图书馆在选用具体的存储方式时要注意开放性、先进性、高安全性和易管理性的原则。
〔关键词〕云存储;P2P;网格存储;数字图书馆
DOI:10.3969/j.issn.1008-0821.2011.08.010
〔中图分类号〕G255.76 〔文献标识码〕A 〔文章编号〕1008-0821(2011)08-0038-06
Comparative Study of Grid Storage,P2P Distributed Storage and Cloud Storage
Li Xueping Zhang Wenhua Hu Chun Feng Kai
(Library,East China Institute of Technology,Fuzhou 344000,China)
〔Abstract〕This paper analyzed the technical characteristics and application examples of the three storage(network storage,P2P distributed storage and cloud storage)proposed in recent years,pointed out the classification of these three storage as well as advantages and disadvantages,and studied on these three types of storage systems,proposed the integration trend of three storage,finally gave management principles,an open,advanced,high security and manageability,for the libraries when they select the specific storage.
〔Key words〕cloud storage;P2P;grid storage;digital library
1 图书馆信息存储技术
长久以来图书馆一直在不断地探索和寻求保存信息的方法和载体,期望能适时地把最适宜的存储技术应用到图书馆中来。在图书馆中,除了传统的信息存储技术,还有网络存储技术、P2P存储技术等。随着云计算概念的出现,目前云存储技术也成为一个研究热点。
1.1 传统的资源存储技术
传统的图书馆资源存储方式主要有:直接附加存储(DAS,Direct Attached Storage)、网络附加存储(NAS,Network Attached Storage)、存储区域网络(SAN,Storage Area Network)和互联网小型计算机系统接口(ISCSI,Internet Small Computer System Interface)[1]。
上述4种存储技术方案虽然在一定程度上解决了数据集中和共享问题,但还存在以下不足:(1)扩充性能差,难以满足数据资源爆炸式增长要求;(2)兼容性与共享性差,难以适应多用户、异构性环境和跨平台的要求;(3)存储的智能性差,不能满足动态存储、按需存储的要求;(4)存储速率小,不能满足大数据量、大并发访问的要求。
1.2 网格存储技术
1.2.1 网格存储的概念
网格是一种信息社会的网络基础设施,它将实现互联网上所有资源的互联互通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。从应用角度看,主要分为网络网格、计算网格和存储网格3类,其中存储网格是基础。
网格存储是网格技术的主要组成部分,它以节点为基础,可以在多重节点上进行内容管理与存储,也可以在存储环境的多重节点进行数据转移与传输。基于此,它可以将NAS、SAN两种不同的技术、不同的管理工具、不同的存储应用融合在一起,实现各类资源的自动优化、自动配置、自动保护和自动恢复功能。
目前,主要有两种典型的网格存储架构:NetApp网格存储层次结构、惠普的智能网格存储架构。
NetApp网格存储共分4层:最底层是为用户实际存放数据使用的存储设备;
第二层为网格管理层,使用文件服务器与全局命名空间对整个存储网格进行管理;第三层是存储网络层,提供各类设备的连接;最上层为用户的各类业务应用。
惠普存储网格技术的核心是一个个的智能单元(Smart Cell),每个智能单元都是一个“计算机+存储”的模块,可与外界直接沟通。这种网格存储也是架构在SAN架构上的,可以通过增加智能单元提升系统性能,通过增加磁带、磁盘等设备增加系统功能。
1.2.2 网格存储的优势
网格存储整合了SAN和NAS等存储系统的优点,并结合网格计算技术、虚拟化技术、智能存储技术和开放性标准,不仅能满足大容量、网络化、容错性和高效性这些基本存储要求,还能满足非集中控制、透明访问、异构性、协调性等特殊存储要求。与传统的存储方式相比,网格存储的优势主要体现在如下3个方面:
(1)可靠性。一个设计良好的网格极具弹性。网格不只是在任何两个节点之间提供通道,而是在每个存储节点之间提供多个通道。这使得维护服务和出故障时更换部件更容易,对系统的可用性或宕机时间影响最小。
(2)性能。导致高可靠性的因素同样也能改善性能。 不需要有大量端口的集中式交换机,消除了潜在的性能瓶颈,并能将负载平衡技术应用于可使用的多个通道,为整个网络提供一致的性能。
(3)可扩展性。利用端口数不多的廉价交换机,就能很容易地扩展网格网络,故很容易实现网格的升级。
1.3 P2P存储系统(Peer-to-Peer Storage System,也称对等存储系统)
P2P存储系统,广义上是指存储节点以一种功能对等方式组成的存储网络,既可以完全由统一管辖的服务器节点以对等方式组成的封闭式P2P系统,又可以是完全由用户桌面机组成的开放式P2P系统,还可以是服务器与桌面机共同以对等的方式组成的混合存储系统[2]。因此,P2P技术既可用来组织专业的大型存储服务,又可以用来组织闲散的桌面机资源形成互助存储网络。基于P2P的分布式存储系统可以利用大量节点的计算和带宽资源用于数据存取,所以具有弱结构化、没有单一故障点、可靠性好、易于扩展、数据吞吐率高等优点。但由于P2P系统的动态性高,使得存储应用的可用性、可靠性受到了制约,同时由于P2P系统的松散管理机制,也会凸显出该存储系统的安全问题。
1.3.1 P2P系统分类
P2P应用系统按其网络体系结构大致可以分为三类[3]。
(1)集中式P2P系统,该系统采用集中式网络架构,要求各对等端(Peer)都登录到中心服务器上,通过中心服务器保存并维护所有对等端的共享文件目录信息。此类P2P系统通常有较为固定的TCP通信端口,并且由于有中心服务器,只要监管域内访问中心服务器的地址,其业务流量就比较容易得到监测和控制。
(2)分布式的P2P系统。此类P2P系统普遍采用随机动态地连接端口,伪装端口,或直接利用HTTP作为基础通信协议。但是由于纯分布式的网络架构将网络认为是一个完全随机图,节点之间的链路没有遵循某些预先定义的拓扑来构建,因而文件信息的查询结果可能不完全,且查询速度较慢,采用广播查询的系统对网络带宽的消耗非常大,并由此带来可扩展性差等问题。
(3)混合式P2P系统,现在应用最为广泛,该系统吸取了集中式和纯分布式P2P系统的特点,采用了混合式的架构。选择性能较高(处理、存储、带宽等方面性能)的节点作为超节点(SuperNodes),在各个超节点上存储了系统中其他部分节点的信息,发现算法仅在超节点之间转发,超节点再将查询请求转发给适当的叶子节点。
1.3.2 知名P2P存储系统简介
(1)Berkeley的OceanStore
OceanStore[4]是一个在全球范围内搭建的海量存储池,向用户存储服务,尤其针对那些移动终端,例如一些嵌入式设备。用户可以在任何时候、任何地点、通过任何设备接入互联网,并访问存储在OceanStore中的数据。用户为其在OceanStore中占用的存储空间付费,存储的个人数据保证安全,不会泄漏给其他用户,也不会泄漏给系统管理员。
(2)MIT的CFS(Cooperative File System)
基于协作文件系统CFS[5]的文件共享系统SFS(Shared File System)是一个用于对等网络的只读网络文件共享系统。它可以提供高效率的、鲁棒的和负载平衡的文件存取功能,采用了完全分布式体系结构(没有服务器)很容易地扩展到大规模网络。SFS允许用户发布数据(文件系统)到分布式网络中,CFS将共享文件系统映射到用户的本地文件系统命名空间中,随着网络不断地增长,用户间共享文件的需求也越来越高。
(3)微软亚洲研究院的BitVault
BitVault是微软研究设计的用来存储大容量但很少变化信息的一项技术[6]。BitVault结合了P2P(点对点)技术实现自我管理和自我诊断,并且使用“大量平衡修复”来降低数据丢失发生可能性。是一个能低价存储数据并且能处理P级数据信息的分布式存储引擎。
(4)圣地牙哥加州大学的Total Recall
对等存储系统Total Recall[6]可以自动配置系统所需要的各种参数,包括冗余方法、冗余度和修复时间等,这样就可以避免繁杂的人工设置。Total Recall系统底层采用了Chord路由算法。Total Recall针对不同类型数据在冗余方法上分别采用了副本或纠删码或是混合的方式。
(5)清华大学的Granary
Granary系统[7]是按能够自适应地支持高动态系统和稳定系统的目标设计的,并提供面向对象的存储,它有如下两个特点:①面向对象的数据管理,支持属性级的数据查询,这一点极大地方便了上层应用系统的开发;②对于系统环境的自适应性,无论在怎样的系统规模下,组成结点的动态性如何,也无论这些结点的能力分布如何,Granary都可以自动调节,取得当前系统环境下的最优性能。
(6)北京大学的UPStore
UPStore存储平台[6]具有一套开放性的存储框架,可以通过修改算法来适应多种动态性的环境。
上述典型的P2P存储系统的持久存储相关技术对比[8]。不难发现,各个系统所设计的目标工作环境是不同的。根据不同的工作环境,它们所采取的技术组合也不尽相同。其中,不同系统对副本和纠删码的冗余方式各有偏好;在分发方式上,逐渐抛弃了直接DHT分发的方法;错误检测根据不同的目标环境,采用定期心跳(探测)或失效事件广播法;在修复方式上,系统设计逐渐趋向于用更多的副本来支持延迟修复。
1.4 云存储
云存储是在云计算的概念上延伸和发展出来的,指通过集群应用、网格技术或分布式文件系统等功能,将网络中各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统[9]。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。云计算和云存储的架构模型对比[10]。
从架构模型来看,云存储系统系统比云计算系统多了一个存储层,同时,在基础管理也多了很多与数据管理和数据安全有关的功能,在两者在访问层和应用接口层则是完全相同的。
1.4.1 云存储涉及到的关键技术
(1)海量存储技术
云计算具有高性能的海量数据通道,可以连接系统的各个主要功能模块,能随意扩展存储空间容量,这样就保证了海量数据传输的实时性、可靠性和安全性,同时还提供了统一的数据交换界面,使各系统功能模块的独立性更强。
(2)动态存储技术
云计算环境下的服务器是一种动态虚拟的硬件服务器,能够实现“无处不在”的访问,与Web云上的所有用户共同拥有和享受流量和计算能力,能够动态地接收用户请求并及时反馈信息。这种服务器是由由用户的动态请求来驱动,动态地为用户部署虚拟硬件,并动态提供存储和计算能力。还能对多功能负载进行优化,并保障数据的安全和完整。
(3)异构存储技术
云计算存储环境中,可以将不同位置数字图书馆的各种存储系统和设备虚拟成单一的存储系统,提供统一的访问和管理机制,使各存储服务器自主接入到云计算中,通过中间层的存储虚拟化技术形成统一的访问接口[11]。用户只需将存储设备添加到存储池中并进行简单配置,就可以创建虚拟卷,而不必关注系统中单个设备的物理存储容量和存储介质的属性,从而实现统一的存储管理。
1.4.2 云存储的优势
当前存储需求海量增长,传统存储方式已不能满足当前的存储需求,这不仅表现在容量和性能扩展上的瓶颈,同样还表现在性能和经济成本上面。云存储有着可以动态、灵活地进行扩展和配置的优势,能够使各存储资源以分布式共享的形式而存在,可以通过网络将软硬件资源提供给用户进行按需使用[10]。云存储方式这些不同于传统存储方式的优势,给数字资源的存储带来了很大的便利。
(1)支持海量存储以及动态扩展
云存储因为使用了支持大规模存储的集群技术、P2P技术和网格技术,可以允许存储服务器和存储节点同时增加,进行并行扩容。所以就不存在兼容性的问题,其存储性能还可随节点的增加而无缝性增长。另外,云存储还能实现数字资源的集中监控和动态管理,其存储空间可随意伸缩、实时调整。不存在存储空间的扩展性问题,同时避免了资源的浪费[12]。
(2)协同保存
云存储通过抽象不同分布区域的大规模硬件设施,以虚拟技术来强化数据的保护和管理,达到为各节点提供分布式锁管理,并且缓存各节点的一致性功能,再集中元数据来控制各存储节点,形成一个包含多个存储设备、多种应用、多样服务的协同工作的和种共享性的存储虚拟架构。所以云存储环境对各区域机构的技术要求不高,只要各机构能够通过网络进行服务的创建、发布、执行和管理,就能轻松、高效地与其他机构通过协同工作和互补的方式进行资源共享,这就使得数字资源的保存变得更加轻松。
(3)高效备份和实时迁移
云存储可以通过虚拟化将分布在不同地点的硬件资源进行逻辑抽象,划分不同的逻辑分区,并保证多个分区之间的合理的隔离与通信。所以云存储方式可以按需执行备份策略,方便在异地形成多个备份。
(4)降低成本代价
云存储能从投资和运行维护两方面降低成本。云存储因其有动态扩展、灵活配置的特点,存储机构可以根据实际需求配置存储规模,初期投资就不多。而且,因其不必拥有存储基础设施,因此不用对存储底层进行管理和维护,也就不要机房、硬件设备、制冷设施等配套设施,也有利于低碳推广。
云存储具有较多优势,但因为云存储要将所保存的数据放到云端,数据存储的物理位置不易控制,用户所有数据的访问都要依赖云存储商的服务,这就意味着对数字资源保存责任的部分转移,这必然带来数据隐私保护和安全上的隐患[13]:
①数据的隐私。数字存储资源既包括可以在网络上开放获取的资源,也包括只有订购数据库的用户才能够访问的期刊资源,后者是受到版权保护的。如果这些受版权保护的数据以远程方式存放于云端,必然会引发用户对数据隐私保护的担忧。虽然可以通过加密方式对访问进行授权来,以阻止非法访问2,但这不一定能适用长期保存流程,也不利于保证数据的完整性。
②数据的安全性。数字资源长期保存在云端,理论上能保证数据内容的零损毁,但万一数据丢失,云存储服务商却不能为用户找回丢失数据。所以,在使用云存储过程中要建立冗余和备份,可以采用将云存储作为辅助存储池,或是同时使用两个或多个云存储平台的方法来避免数据的丢失。
1.4.3 国外云存储服务实例
美国图书馆云计算存储服务的实践参考[14]。
除了上述的图书馆以外,OCLC也宣布了将向它的会员图书馆提供基于云的、Web规模的、协作式的图书馆管理服务。
2 网格存储、P2P存储和云存储的对比与融合
网格存储、P2P存储以及云存储是近年来提出来的3种新的存储技术架构和设计思想,3种存储方式的总体目标比较相似,都是将存储资源看成一个虚拟的资源池,并对外提供信息存储服务,让用户高效使用存储资源。虽然这3种存储方式的侧重点有所不同,但3种存储方式的技术融合已成为一种趋势[15]。
3种存储方式的共同之处是:都采用了适当的分层及抽象来进行存储资源的整合利用,其共同特征都有大容量、高性能、高可靠、高可用、可扩展等等,要解决的问题都包含系统服务模型、数据副本管理、任务调度、资源管理、负载平衡、数据缓存、并行传输机制等等。
随着数据存储需求的增强,三者的融合已成为一种必然趋势。融合主要包括结构、技术和目的的融合。结构上的融合是一种系统变成另一种系统的某个节点或分支,技术上的融合是不同系统可以采用相同技术处理问题,目的融合表现出为都可以为不同的存储应用服务。
3 结束语
一个良好的存储系统解决方案应能适应数字资源的海量存储和不断增长,同时能够满足当今网络环境复杂性和扩展性的不断提高。实际工作中,究竟选用哪种存储技术方案还是几种方案的整合,不能一概而论,但要注意把握以下一些基本的原则[16]:
3.1 开放性
采用的各种硬件设备和软件系统应遵循国际标准或工业标准及国际流行标准,符合开放性设计原则,能够满足多种操作系统、数据库系统和应用系统之间交换数据的需要,具有较强的互操作性。
3.2 先进性
3.3 高安全性
要求系统性能稳定可靠,容错能力强。当设备出现故障或系统崩溃时,能够及时启动备用系统并且系统数据能够及时得到恢复,防止任何情况下的数据丢失,着力提高数据存储的安全性与可靠性,确保服务的连续性,使数据资源具有更高的可用性。
3.4 易管理性
要求整个系统具有高度的灵活性,易于维护和管理,可以通过完善的管理机制进行有效的管理,保障系统良好运行,并且管理和维护操作简单,成本较低。因此,各个馆在制定具体的存储技术方案时,一定要从实际出发,综合考虑,精心规划,反复论证,合理选择,既要有一定的前瞻性,又要量力而行,为数字图书馆的建设打下坚实的基础。
参考文献
[1]曾红伍.网格存储技术在数字图书馆中的应用[J].软件导刊,2009,(1):122-124.
[2]董辉,雷大军.P2P分布式存储系统中冗余策略研究[J].现代计算机:专业版,2009,(9):8-10.
[3]周毅.P2P文件安全备份系统研究[D].华中科技大学,2007.
[4]P2P存储系统-OceanStore[EB/OL].2011-03-25.
[5]顾洁.P2P技术在数字图书馆中的应用研究[D].东北师范大学,2008.
[6]田敬,代亚非.P2P持久存储研究[J].软件学报,2007,(6):1379-1399.
[7]代亚非.P2P存储在云计算时代的新的机遇[J].中国计算机学会通讯,2009,(6):54-56.
[8]p2p分布式存储[EB/OL].http:∥blog.csdn.net/zjk2005forever/archive/2010/01/20/5218535.aspx,2011-03-25.
[9]孙彩杰.图书馆的信息存储策略[J].四川图书馆学报,2010,(2):34-37.
[10]贺雪晴,吴景海.基于云计算的数字图书馆资源存储研究[J].情报探索,2010,(12):92-94.
[11]余玲.基于网格的数字图书馆资源存储研究[D].华中师范大学,2007.
[12]于秀芬,张曾昱.基于云存储架构的随书光盘镜像服务器构建探讨[J].图书馆杂志,2011,(2):52-55.
[13]杜海宁.基于云计算的图书馆海量数据存储研究[J].图书与情报,2010,(3):99-101.
[14]徐锋.数字图书馆数据存储的思考[EB/OL].http:∥www.jslib.org.cn/njlibzxsyj/201009/t20100926z97279.htm,2011-03-25.
[15]宋玮.分布式存储系统中的节点自主性问题研究[D].华南理工大学,2010.
[16]严庄.图书馆数字资源存储技术方案研究[J].四川文理学院学报,2007,(6):108-110.
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/11 4:54:46