浅析大数据安全与隐私保护技术
裴大容
摘要:随着大数据时代的到来,目前已经成为了社会上各个领域关注的重点问题。大数据在人们的生活和生产中产生了重要的影响,带来积极效应的同时,也带来了一定的风险。大数据在收集、存储和使用的过程中,都面临着一定的安全风险,一旦大数据产生隐私泄露的情况,会对用户的安全性造成严重威胁。本文对大数据安全与隐私保护技术的概念进行阐述,对相应的技术进行了探究。
关键词:大数据;安全;隐私保护
随着社会信息化和网络化的发展,逐渐开始进入大数据时代。在大数据时代下,信息和数据的分析处理都会变得比以前更加繁杂,管理起来也更加麻烦。目前的大数据发展仍旧面临着众多问题,最受大众关注的就是安全与隐私问题。随着互联网的发展,人们的一举一动都会在商家那里进行记录,例如购物习惯、好友联络情况等等。根据相关的调查报告发现,即使泄露的数据是无害的,也会对客户造成一定程度上的损害。因此,如何保护用户的隐私,是大数据在安全方面应当首先注重的问题。
1大数据概念
1.1大数据来源和特征
大数据所指的是具有庞大规模,并且较为复杂,难以使用现有数据管理工具或数据处理技术进行处理的数据集。因此,大数据通常具备大规模、高速性和多样性的特点。根据大数据的来源不同,可以分为人、机、物3类。
人指的是人们在互联网中活动以及使用互联网时所产生的各类数据,数据类型包括文字、图片、视频等;机指的是各类计算机系统所产生的数据,大多数是通过文件、数据库、多媒体等形式存在,还有审计、日志等自动生成的数据;物指的是各类科技设备所收集的数据,例如摄像头的数字信号。
1.2大数据分析目标
根据目前我国的使用情况,大数据已经在科学、医药、商业等各个领域开始广泛应用,在用途方面也各有区别,具体可以分为3类:获得知识与推测趋势、分析掌握个性化特征、辨识真相。
在进行数据分析之前,首先要获得大量的知识,并利用知识进行分析。在大数据中有着大量的原始信息,这些信息具备一定的真实性。通过大数据进行分析,能够避免数据中所产生的误差,挖掘出更深层次的规律,通过这些规律,可以对自然或社会现象进行预测。
个体活动除了能够反映出群体特征之外,还有着鲜明的个性化特征。这些特征各不相同,企业通过长时间、多方面的数据积累,能够对用户的行为进行分析。基于用户的需求,更好的为用户提供个性化的产品和服务。
错误的信息在数据中没有任何意义,甚至会带来负面影响。网络中信息的传播较为便利,所以一旦出现网络虚假信息,则会带来极大的危害。例如在2013年4月24日,美联社的Twitter账号被非法盗取,并发布了总统奥巴马受到恐怖袭击的虚假消息,即使消息在短时间内被控制,但是美国股市仍受到虚假信息的影响,引发了短暂的跳水。大数据的来源渠道较为广泛,信息多样化,通过大数据可以在一定程度上辨别信息的真伪。目前人们已经开始通过大数据对信息的真伪进行分析,确保数据的准确性。
2大数据带来的安全挑战
2.1大数据中的隐私保护
根据调查表明,当大数据处理不当时,会对用户的隐私造成极大的损害。根据所需保护内容的不同,可以分为位置隐私保护、标识符匿名保护、连接关系匿名保护等等。大数据对面临的安全挑战除了个人隐私的泄露之外,还有对人们状态和行为的预测。通过客户的数据记录,能够发现用户的政治观点、消费习惯等等。
很多企业认为通过匿名处理,当去除了用户信息的标识符后,便可以进行信息的公开发布。但即使通过匿名信息,也有一定的规律可循,通过数据中的某些信息,可以精确的定位到个人。目前在用户数据的收集、存储、管理和使用上都没有相应的规范制度,监督制度也不够完善,基本上需要通过企业的自律对大数据进行管理,而用户则难以对自身隐私信息的使用情况进行了解。在商业化应用中,用户应当有权利决定如何处理自己的信息,让用户可以对自身的隐私进行控制保护。
2.2大数据的可信性
在大多数的观点中,都认为大数据可以说明事物的规律,数据本身就是事实。但在实际操作中,如果不对数据进行精确的分析和整理,数据也会有欺骗性。数据可信性的威胁之_是伪造的数据,一旦数据出现错误,则会导致错误的结论。一旦数据的应用场景明确,则有可能会有人根据场景特点刻意制造数据,使分析者得出错误的结论。大部分伪造的信息都掺杂在大量的信息中,导致难以对信息的真伪进行鉴别,从而导致最后的错误结论。由于网络的散播性较强,虚假信息的转播也越来越容易,速度越来越快,会产生严重的后果,而通过信息安全手段对所有的信息进行检验的可行性也较小。
大数据可信性威胁的另一方面是数据在传播的过程中会逐步失真。其中一个原因是进行人工数据采集时,可能会有误差的出现,由于在进行数据收集时产生了失真和偏差,影响到了最后结果的准确性。另一方面,造成数据失真的原因还有可能是版本变更。在数据传播的过程中,实际情况已经有了一定的改变,原本收集到的数据难以表现出实时信息。
基于此,在使用大数据之前首先要保证数据来源的真实性,并对数据的传播过程、加工处理过程进行严格控制,提高数据的可信性,避免因数据错误导致的错误结果。
3大数据安全与隐私保护技术
3.1数据溯源技术
在此之前,数据溯源技术的应用仅仅在数据库的领域之中,随着科学技术的不断发展,在大数据的安全与隐私保护中也开始应用这项技术。数据溯源技术中最基本的就是标记法,其作用主要是对数据的来源和数据的计算方法进行记录。通过对来源数据进行标记,不仅能够对最后的分析结论进行检验,还能够让分析者在最短的时间内对信息的真实程度进行判定。另—方面,在文件的恢复过程中,数据溯源技术也可以得到良好的应用。
3.2数据水印技术
数据水印技术是在既不影响数据使用,也不影响数据内容的情况下,将标识信息通过一些较为隐秘的方式嵌入到数据载体中。这种技术一般都是应用在媒体版权保护上,在文本文件和数据库上也有一定的应用。但是在多媒体载体上和在文本文档以及数据库上的应用有较大区别。在数据水印技术的分类上,可以分为强健水印类和脆弱水印类。强健水印类的应用基本上在数据起源的证明上,能够对创作权等进行有效的保护。而脆弱水印类大多应用于数据真实性的证明。随着目前大数据的发展,数据水印技术还需要不断的进行完善。
3.3身份认证技术
身份认证技术指的是通过用户以及所使用设备的行为数据的收集和分析来获得行为特征,并通过这些特征对用户以及所用的设备进行验证,并确认身份。在身份认证技术的发展上,将大大降低被恶意入侵攻击的可能性。不仅减轻了用户的负担,也统一了多种系统之间的认证机制。
3.4数据发布匿名保护技术
根据结构化数据的分析,数据发布匿名保护技术在数据安全与隐私的保护过程中占有重要地位。根据目前的研究状况,此技术还有待完善,需要不断的进行深入研究。在目前的数据发布匿名保护技术的理论中,大部分的背景环境都是在静态的、一次性的对数据进行发布。但是这样的方式有着一定的局限性,一些特殊的属性难以被检测出来。而且在实际的过程中,数据的发布往往是多次连续的。在如此复杂的大数据环境下,想要将数据发布匿名保护技术进行应用,会面临着一定的困难。在攻击者的角度,可以根据不同的途径和不同的发布点来获取信息,从而窃取到用户的信息。因此在这一方面,相关的研究人员应当投入更多的精力对数据发布匿名保护技术进行研究,提高其安全性。
3.5社交网络匿名保护技术
社交网络所产生出的数据是大数据的重要来源之一,这些数据中包含着用户的大量隐私信息。在社交网络匿名保护技术中,攻击者可能会通过其他的信息对匿名用户的身份进行确定,尤其是对于用户之间是否有联系关系的判断。由于社交网络具备聚集特性,因此会对关系预测造成一定的影响。
4结语
大数据不仅为人们的生产生活带来了便利,另一方面,大数据环境也带来了一定的安全挑战。随着时代的发展,人们越来越意识到隐私信息的重要性,逐渐将信息安全放在首位。但根据目前的发展状况而言,还有很长的道路要走。想要做到真正意义上的数据安全,必须要对大数据环境中的漏洞进行分析,针对性的进行安全与隐私保护技术的发展。通过数据溯源技术、数据水印技术、身份认证技术、数据发布匿名保护技术、社交网络匿名保护技术等进行深入研究。除此之外,还要建立相应的法律法规,对大数据环境进行全面保护。