标题 | 云计算环境下海量分布式数据处理协同机制的研究 |
范文 | 姜浩 摘要;云计算环境下的数据管理和存储呈现出异构、分布式和动态等特点,为数据处理系统的设计和开发带来一定挑战,数据处理过程的协同是解决上述问题的有效手段。因此,面对信息爆炸式增长,以及数据处理管理、数据任务流程、数据分布管理等,更深层次的对分布式数据处理系统机制进行研究是必不可少的。 关键词:云计算;数据处理;协同 中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2017)07-0030-0c 1概述 1.1什么是云计算 “云”一般用来表示互联网和底层基础设施的一种抽象说法。目前最广为人们所接受的定义是美国国家标准与技术研究院所指出的:云计算是一种按照使用量的情况进行计费,提供便捷可用,能够满足用户满足需求的网络访问模式,这种模式下,用户可以进入计算机的资源共享地,包括网络、服务器、应用软件、存储数据等资源,这些资源可以快速提取使用,并且管理工作量并不大,也不需要和服务供应商进行大量的交互任务。 1.2云计算与大数据 全球人口众多,对于网络的需求量也越来越广,若所有人使用后存储的大数据仅用一台计算机处理,显然是会对系统造成紊乱的,这时就需要分布式计算架构。就好比一棵大树上结满的果实如果全在一处上必然会压断枝丫,但如果分散来生长,树也能越来越繁茂,协同处理机制就刚好成为互联网这棵大树之中牵连的果实。 1.3云计算环境下的变化 1)软件技术、架构将发生显著变化 一方面,所开发的软件必须与云的存储和计算能力相适应,能够与虚拟化资源相结合;另一方面,软件需要满足大量用户的使用,能够具有很强的安全性要求,保护用户的隐私信息,并且可以工作于电脑终端、手机端等各种环境。 2)软件开发的环境、工作模式变化 软件可以在线开发,工作时能够更加敏捷更加人性化以及实现知识积累和重复使用。 3)软件表现形式变化 基于多用户大数据的需求,软件开发的形式也越来越丰富,可以是服务,也可以是网页,也可能是在线应用商店中的软件等。 2海量分布式数据存储和管理技术 需要说明的是大数据不等同于海量数据,而是包括海量交易数据和海量交互数据以及海量数据处理。 2.1数据分布式存储技术 它是指通过网络来实现对企业中的各个机器中的磁盘空间使用,同时可以将这些分散在不同磁盘上的存储资源集合起来构成一个虚拟的存储设备。数据分散在企业的各个设备上又可以构成虚拟的一个数据集合。而且它具有高可用性,高可靠性,经济性等优点,它能为同一份数据存储多个副本,这就保证了数据不会轻易丟失,用户使用效率也大大提高。比如谷歌的GFS及时分布式存储系统的典型代表,其利用就是冗余存储的方式来从而达到数据存储的可靠性能。每份数据都在系统上保存着至少3个的备份,对数据的所有修改都在备份上进行,并用版本号的方式确定数据都保持着一致的状态,确保了数据及其备份的一致性。相比于传统分布式文件系统,云计算环境下的分布式数据处理协同机制有很多的优点,当组件管理失败时,它并不会简单的作为异常处理,而是采用特殊的检测和数据写方式时在文件末尾附加数据,数据流和控制流分开。 2.2数据分布式管理技术 当用户需要导人空间数据时,它会被分配到对应的服务器提交请求,有些系统在内存中建立缓存,提高了最近操作过的空间数据读取和修改的效率,并且定期调用把缓存内容写到硬盘中,再标记回去就导入完毕文件;随后就开始读取数据,服务器会先进行缓存,如果缓存里面没有该数据才会去磁盘上寻找直到找出为止,而且在启动的时候检查是否有新的更新写入操作,如果有更新首先会把先把这些更新写入系统的高速缓存里,然后再通过调用把更新数据调用到文件中,最后服务器会把旧文件删除,并开始给用户提供新的访问数据。比如矢量数据管理中,存储格式使用ESRI Shapefile,可以将Shapefile文件看成一张表,表中的行名是几何对象的ID,每一行存储着一个几何对象的要素,表中同时包含着许多的列。这些列中,最主要的是描述属性和几何实体的两个列,一般而言,几何实体通常都是安排在最后一列。还有栅格数据管理等等。 3协同计算机制 3.1协同计算模型分析 协作模型研究是协同计算研究的热点研究之一,其中包含有群成员共同协作完成任务的模型模式,其他的还有会话模式、会议模式、过程模式、活动模式和层次模式等。其中主要有如何进行群体成员间的工作,协作时的交互工作、协作的推进和协作的结束等。从理论的角度,海量数据下的分布式计算又可分为离线计算(针对海量的,对实时性要求不是很高的数据)、实时流计算、列存储、key-value(对半结构化,非结构化数据的实时查找)等。 3.2协同计算的应用分析 在基于协同计算应用系统的设计中,分层管理设计、灵活调度设计和易于扩充设计是系统架构设计的关键目的所在。系统架构设计的实现方式主要有集中式、分散式和混合式三种方法。 1)集中式架构,其实质是一种客户式的服务器系统架构。服务器集中管理负责整个计算机应用系统的控制、管理和调度,以及其他和具体计算应用相关的程序逻辑设计管理和数据管理,客户端服务主要指的是与用户见交互工作的输入输出管理。集中式协同架构实现简单、易维护,但协同应用对服务器依赖性强,容易成为阻碍。 2)分散式架构,其主要是将与系统相关的控制和管理模块分散在系统的各个客户端中,每个节点的在协同控制系统里拥有同等的控制管理地位。但数据的各自处理使得全局一致性难以维护。 3)混合式结构结合了前两种优点,极大减轻了服务器的工作压力,具有较好的灵活性和较短的响应时间。 因此在实际计算机应用管理的任务安排调度中,一般多采用分散式的架构设计,而在数据系统协同管理多采取集中式的架构管理设计,从而实现计算应用系统的混合式架构设计。 3.3海量分布式数据处理协同机制的应用架构 海量分布式数据处理协同机制的应用架构模式主要有应用接口层、执行调度层和数据控制管理层三个层面。 其中,在调度执行层中,任务协同调度的管理常采用集中式的处理方式,根据规则和参数对数据处理的引擎及计算算法组合资源进行调节,实现任务分工、同步参数、数据交互的协同机制。在协同机制的环境下,协同整个数据处理的冗余备份及容错处理的过程,采用分布式的存储方式处理规则数据和业务数据,提供协同的数据给各种数据计算处理系统从而达到数据访问时各项数据之间的负载均衡的目的。分布式的数据处理机制是数据协同管理的核心,采用分布式的数据管理,建立分布式的数据库可以让数据在分布存储的同时进行存储的容错机制,将数据协同管理组件和应用的参数数据通过应用开发的接口和平台传输到分布式的数据库达到保存的目的。 3.4海量分布式数据的协同管理机制的应用 在云计算环境下,海量分布式数据存储和管理与数据集中自治结合可以控制数据机制,分布管理冗余数据和事物处理,这些管理和应用一般是通过分布式数据库进行实际操作,从用户角度来看,对分布式数据库的访问过程是透明,实际上,从用户角度看来是单个的分布式数据库其实质是存储在多台计算机上的一组数据库结合而成。背后的分布式数据库管理系统有着对数据存储、数据查询、数据调度、数据管理等多项应用事务管理。 4小结 本文结合云计算、海量数据存储和管理技术、协同计算机制等几个方面阐述了分布式数据处理的探究过程以及大致原理,从实际的一些案例中可以看出海量分布式数据处理协同机制是可行有效的。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。