网站首页  词典首页

请输入您要查询的论文:

 

标题 Hadoop异构系统下数据安全分配研究
范文

    冯轩+黄刚

    

    

    摘 要: Apache Hadoop是一种广泛使用的分布式系统基础架构,它实现了一个分布式文件系统(HDFS),并假定系统中的数据节点是同构的。当云系统向上扩展时,数据节点很可能变得异构。而绝大多数的研究是为了提高Hadoop在异构环境下的性能,很少注意到数据安全的改进。文章提出的SecHDFS数据分配方案通过秘密共享技术来提高异构Hadoop系统中数据存储的安全性,可在提高安全性的同时保持系统的性能。

    关键词: 数据节点; 分布式文件系统; 异构系统; 数据安全; 秘密共享技术

    中图分类号:TP311.5 文献标志码:A 文章编号:1006-8228(2017)06-08-03

    Research on data security assignment in Hadoop heterogeneous system

    Feng Xuan, Huang Gang

    (School of Computer, Nanjing University of Posts and Telecommunications, Nanjing, Jiangsu 210003, China)

    Abstract: Apache Hadoop is a widely used distributed system infrastructure, which implements a distributed file system (HDFS) and assumes that the data nodes in the system are homogeneous. When the cloud system expands, the data nodes are likely to become heterogeneous. The vast majority of the research is to improve the performance of Hadoop in heterogeneous environment, while little to improve the data security. In this paper, the SecHDFS data allocation scheme is proposed to improve the security of data storage in a heterogeneous Hadoop system by secret sharing technology, which can improve the security while maintaining the system performance.

    Key words: data node; Hadoop distributed file system; heterogeneous systems; data security; secret sharing technology

    0 引言

    Hadoop是一個能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。在所有的系统设计中,分布式框架最容易受到安全性攻击并成为侵入式攻击的目标。在数据安全性方面,HDFS[1],Hadoop的数据存储系统,非常依赖于加密技术来保护数据。通过一个异构环境,当DataNode因为每个节点的加密和安全标准变化被破坏,系统作为一个整体,不会受到影响。但是,HDFS并不考虑异构性。HDFS的主要安全风险之一是数据复制[2]。尽管数据复制提升了可靠性,它也可能因为云处理器的存储片段的增加而带来安全风险[3]。有证据表明,异构特性可用于提高非复制数据的存储安全性。

    我们的工作重点在于通过引入安全Hadoop分布式文件系统(SecHDFS),使用S-FAS分段分配方案并将其应用于Hadoop中的HDFS,来解决Hadoop中的数据复制的安全问题。在将文件提交到Hadoop系统之后, SecHDFS方案将生成一个分组的候选节点的目标列表,这些节点将被传递到Hadoop数据放置策略的修改版本中。Sec HDFS将尝试使用尽可能多的不同类型的数据节点来存储不同的片段,同时在DataNodes中保持同一类型的复制。

    考虑到加密方法需要将分段的加密密钥从NameNode传播到DataNode, 如果一个攻击者能够拦截加密密钥的片段,那么,根据秘密共享理论[4],攻击者将能够在获得部分片段后重建加密密钥和解密截取的文件。 但是,如果两个DataNodes具有不同的漏洞,则对其中一个DataNode的成功攻击不一定可以对另一个DataNode的成功攻击。

    1 背景知识

    1.1 Hadoop的HDFS文件存储

    Hadoop的分布式文件系统HDFS,采用流式数据访问模式,可以用来存储超大文件和海量数据,其具有分布式存储管理、方便部署、高吞吐率的特点[5-6]。集群HDFS拥有两种节点(名称节点NameNode和数据节点DataNode),在内存中名称节点保存着整个文件系统的名字空间和文件数据块映射的映像信息,而数据节点则负责存储和读取数据文件。从数据加密安全性来看,可以分为对数据文件加密和对数据块加密,而由于一个数据文件加密很可能会被破解或泄漏,降低了安全性,所以本文从数据块加密角度出发,阐述利用秘密共享技术的数据块加解密方案。一个简单的HDFS文件系统架构如图1所示。

    [NameNode][DataNode][DataNode][DataNode][DataNode][客户端] [机架1] [read] [数据请求][DataNode][DataNode] [机架2] [备份][客户端] [write] [块信息]

    1.2 秘密共享技术

    秘密共享的思想是将秘密以适当的方式拆分,拆分后的每一个份额由不同的参与者管理,单个参与者无法恢复秘密信息,只有若干个参与者一同协作才能恢复秘密消息。更重要的是,当其中任何相应范围内参与者出问题时,秘密仍可以完整恢复。

    一个秘密共享系统[4]由秘密分发者D,参与者集合P={U1,U2,…,Un},访问结构T,秘密空间S,秘密份额空间K,一个秘密分配算法Divide-Secret和一个秘密重构算法Recover-Secret等构成。秘密共享的人员由参与者集合P给出;哪些参与者可一起恢复秘密由接入结构T指出;秘密空间S给出秘密的取值范围;秘密份额的取值范围由份额空间K指出;秘密产生秘密份额的概率多项式时间算法给出分配算法;恢复算法是确定性的,如何恢复秘密由接入结构中P的子集给出。

    1.3 SecHDFS密钥管理和分发方案

    在Hadoop中实现数据复制以提高可靠性。然而,这增加了数据存储中涉及的安全风险。在提出的SecHDFS方案中,根据异构Hadoop系统中的漏洞特征对DataNode进行分类和分组。理想的数据分配是将一个片段的所有副本存储到同一组的DataNode中。假设我们在每种类型中有足够的DataNode可以选择,我们的SecHDFS就具体使用以下策略来进行数据块的放置。

    ⑴ 基于其安全漏洞,把Hadoop系統中的所有DataNode分为不同的节点类型组。

    ⑵ 当放置数据时,SecHDFS方案将尽可能采取很多不同组的DataNodes,同时保持Hadoop的原始随机数据节点选择。

    ⑶ 相同数据片段的所有副本将存储在同一组的DataNode中。

    ⑷ 将(m,n)秘密共享方案并入SecHDFS分配机制。

    2 安全性分析

    根据秘密共享技术中门限多重秘密共享方案[5],一般的(t,n)门限方案就是一个秘密K被n个参与者共享,至少t个参与者联合可以重构这个秘密;而t-1个或者更少的参与者不能得到这个秘密的任何信息。由于重构n阶多项式f(x)需要知道(n+1)个满足Yi=f(Xi)的点(Xi,Yi)。由于(t-1)个或更少的参与者的合作不能得到这样的(n+1)个点。利用n个或更少的点来重构n阶多项式f(x)的难度等价于成功地攻破了Shamir[6]的(t,n)门限方案,这在计算上是不可行的。因此,(t-1)个或者更少的参与者的合作不能正确地重构n阶多项式f(x),换句话说,就不能恢复出共享的秘密。

    因此,通过对任何DataNode使用一组成功的攻击方法,只会有一个文件的片段会被泄露,整个文件的安全性得以保证。

    3 模型实现和性能分析

    在本节中,我们开发了一个保证模型,以保证定量评估Hadoop异构系统的数据存储。

    在实现该模型的时候采用了以下几个工具:hadoop-0.20.2-core.jar、jdk1.7、MyEclipse、dom4j.jar、bcprov-jdk16-145.jar。其中hadoop-0.20.2-core.jar提供了利用hadoop的API接口函数,我们还搭建了一个装有hadoop的分布式集群环境,用来分布式存储数据文件,bcprov-jdk16-145.jar负责实现对数据的加解密算法。

    其中SecHDFS方案控制数据放置的决策。最后,我们制定了以下保证模型:

    ⑴

    该模型的实现包括以下几个模块:文件存储模块,文件访问控制模块,数据加解密模块,数据文件I/O模块,如图2所示。

    [客户端][文件存储][文件访问控制][数据加解密][数据文件I/O][Hadoop平台]

    这一模型表明,保证受K DataNode类型,Hadoop系统中的N个DataNode和第j组中的Sj DataNode的影响。此外,成功攻击片段的概率受到P(Z)的影响,文件中的阈值m和片段数(与块号相同)r的重复也对系统保证有所影响。

    如果目标Hadoop系统中的所有DataNode,共享同一组安全漏洞,则一个成功的攻击方法将能够重建受损文件。图3表明对于具有同类漏洞的Hadoop系统,阈值m对系统保证没有影响。当涉及具有Hadoop异构系统时,系统保证随着K和阈值m的值的增加而显着增加(参见图3)。这种趋势意味着高度的异构使系统的机密性更好的得以保证。

    在所有四个测试案例中,N设置为120,K设置为1至6,r设置为2;当K为1时,系统是一个同构系统。

    SecHDFS通过将他们安全方法在不同组的应用来识别DataNode。当一些节点做出写入请求时,通过定义放置决策扩展的数据片段的数量,模块将通过参考我们的预处理的DataNode配置信息来生成包含HDFS最佳候选的列表。这个过程是基于我们的SecHDFS方案,并将节点列表导出到HDFS。

    在SecHDFS应用中,所有信息(包括安全漏洞和存储负载)都将存储在节点配置文件中。配置文件将在我们的方案初始化期间加载,并且放置决策扩展将在SecHDFS方案之前预处理信息。此外,在SecHDFS方案确定候选节点列表之后,SecHDFS模块将把该列表发送到我们的定制数据放置策略中。

    4 SecHDFS的性能评估

    我们的实验结果如图4,SecHDFS方案和HDFS默认方案在放置同量数据时花费的时间相似。这两种策略在文件增大时显示相同的趋势。

    系统大小N为16,复制度为1。

    5 结束语

    本文结合秘密共享理论提出了一种SecHDFS的安全数据分配方案和基于HDFS的一种分布式数据安全存储模型,以提高Hadoop异构系统中的数据存储安全性同时保持系统性能。我们讨论了SecHDFS的动机,设计,实施,保证评估模型和性能评估。基于分布式数据安全存储模型的分析和实验结果表明,SecHDFS方案与默认HDFS方案相比,明显提升了数据存储安全性,同时不影响Hadoop系统的性能。采用基于HDFS的分布式数据安全存储模型有以下四点优势:①可移植性;②高效数据存取;③可扩展性;④数据的保密性和完整性。利用秘密共享技术和HDFS,有效解决了对数据安全存储问题。下一步的研究内容包括保证Hadoop中的MapReduce多任务之间调度的安全性和HDFS的I/O效率的优化。

    参考文献(References):

    [1] Azzedin F. Towards a scalable HDFS architecture[C]//

    International Conference on Collaboration Technologies and Systems,2013:155-161

    [2] Islam N S, Rahman M W, Jose J, et al. High performance

    RDMA-based design of HDFS over InfiniBand[C]//International Conference for High PERFORMANCE Computing, Networking, Storage and Analysis. IEEE Computer Society,2012:1-12

    [3] Daoud M I, Kharma N. A high performance algorithm for

    static task scheduling in heterogeneous dist-ributed computing systems[J]. Journal of Parallel & Distributed Computing,2008.68(4):399-409

    [4] Dragan C C, Tiplea F L. Distributive Weighted Threshold

    Secret Sharing Schemes[J]. Information Sciences,2016.339:85-97

    [5] 许春香,肖国镇.门限多重秘密共享方案[J].電子学报,

    2004.32(10):1688-1689

    [6] Ning C, Wu Z H, Liu H Z, et al. Improving downloading

    performance in hadoop distributed file system[J]. Journal of Computer Applications,2010.30(8):2060-2065

    [7] Yang C C, Chang T Y, Hwang M S. A (t, n) multi-secret

    sharing scheme[J].Applied Mathematics & Computation,2004.151(2):483-490

    [8] Wilson R, Tse D, Scholtz R A. Channel Identification:

    Secret Sharing using Reciprocity in Ultrawideband Channels[J]. IEEE Transactions on Information Forensics & Security,2007.2:364-375

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/22 16:56:48