大数据环境下数字档案馆信息安全研究
秦巧云+周枫+杨智勇
摘要:基于大数据4V特征,指出大数据环境下信息安全具有规模安全、交叉安全、泛在安全、隐性安全四大特征;具有两层含义:保障数据安全、数据用于安全。在此基础上,基于信息生命周期,提出大数据环境下数字档案馆信息威胁主要有:来源安全、传输安全、管理安全、存储安全、传播利用安全等;与此同时,基于大数据技术,数字档案馆可实现档案数据的内容安全防护、存储安全防护和利用安全防护。最后,文章认为,可从法律制度、道德规范、安全设施、技术防护四个角度建立数字档案馆信息安全防范体系。
关键词:大数据数字档案馆信息安全
Abstract:Based on the“4V”characteristics of big data, the paper points out that information securi? ty is characterized by four elements:scale security, cross security, ubiquitous security and hidden securi? ty. Besides, it has two meanings:the guarantee of data security and the use of data security. On the ba? sis of information lifecycle, the paper puts forward that information threats of digital archives under the environment of big data include:source security, transmission security, management security, storage security, usage security, etc. Meanwhile, digital ar? chives can achieve content protection,storage securi? ty,use security for archival data based on big data technology. Finally, the article give us some sugges? tions on how to build the information security system of digital archives from four aspects with legal sys? tem,code of ethics,safety facilities,tech-protection.
Keywords: Big data; Digital archives; Information security
大数据竞相成为各国发展的国家战略,与此同时,大数据时代的信息安全也引起了前所未有的关注。2014年1月,我国成立国家安全委员会,网络及信息安全正式提升为国家战略。2014年5月,中办、国办在《关于加强和改进新形势下档案工作的意见》中提出:“建立档案信息管理系统安全保密防护体系,推进档案信息系统安全等级保护和分级保护工作。”2016年4月,国家档案局印发的《全国档案事业发展“十三五”规划纲要》提到:“把档案安全摆放在档案工作头等重要位置,坚持实体安全与信息安全并重,切实提升安全保障能力,牢牢守住档案安全底线。”2016年5月,国家档案局印发《关于进一步加强档案安全工作的意见》,要求各部门密切跟踪大数据、云计算、互联网+等新技术,不断提高档案安全技术水平。因此,对大数据环境下的数字档案馆信息安全进行研究,既是国家安全战略的客观需要,也是我国档案工作的现实要求。
一、大数据环境下的信息安全特征及内涵分析
(一)大数据环境下的信息安全特征
大数据是指“其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集”,[1]业界一般将大数据的特征归结为“4V”:大量(Volume)、多样(Variety)、速度(Velocity)、价值(Value),这些特征在给人类社会带来诸多驱动、发现、转型与便捷的同时,也带来了前所未有的信息安全威胁与风险,并形成了与传统信息安全不同的新特点。[2]
1.规模安全。海量数据的急剧增长和巨量汇集,增加了信息安全的风险规模和危害程度,并且对知识产权、个人隐私带来了巨大威胁。2015年美国人事管理局披露,2150万个社保账号和其他敏感信息被黑客盗取,其中包括420万名联邦政府工作人员的账号,该事件被称作“史上最大黑客案”,总波及人数占到美国总人口的7%,约2210万人。[3]
2.交叉安全。一是数据来源和承载方式多种多样,如微博、社交媒體、传感器等,数据处于分散状态;二是数据类型多,包括结构化数据、半结构化数据、非结构化数据;三是数据流通领域多,如信息流、资金流、知识流、人才流、技术流的跨域流动。来源多样、类型复杂、跨域流动的数据极大地增加了数据的关联度、协同性和互通性,信息安全管理面临着点面兼顾、事无巨细的新挑战。
3.泛在安全。大数据往往以高速实时数据流的形式动态产生,并且如流水般无处不在、无孔不入。数据生成的实时性导致安防手段的更新升级很难跟上数据的指数级增长,从而带来管理上的漏洞;数据流动的快捷性导致传统的基于单个时间点进行的基于威胁特征的静态风险检测遇到瓶颈,从而带来安全检测的风险。
4.隐性安全。一方面,信息泛滥所产生的大量信息冗余导致有价值的信息淹没在信息的汪洋大海之中,信息的利用效率和利用安全受到影响;另一方面,大数据价值最大化的前提是数据开放和有效传递,在这个过程中数据价值的公共性与用户隐私的个人性之间很难清晰界定。例如美国国家安全部门通过建立“棱镜”等大数据平台,高效率地完成了对多种来源数据的分析,并预测出危险分子的行动趋势,但也因侵犯隐私而引发轩然大波。
(二)大数据环境下的信息安全内涵
基于上述分析,大数据环境下的信息安全应包含两个层面的意义:
1.保障数据安全,即大数据自身的信息安全。保障数据安全,这也是传统信息安全工作的中心议题。大数据时代的到来,将数据安全提升到一个新的高度。“奥巴马把数据定义为未来的石油,是美国综合国力的一部分,是与陆权、海权、空权同等重要的国家核心资产”。[4]因此,从核心价值角度而言,数据代表着国家战略资源和主权象征,保护数据安全就是保护国家安全。
2.数据用于安全,即用大数据维护信息安全。大数据在面临巨大信息安全威胁的同时,也给安全工作带来机遇,而这也是传统信息安全工作所从未经历的。2013年1月,EMC信息安全事业部发布的安全简报断言,“大数据将会是整个安全行业发生重大转变的驱动因素,并将推动智能驱动的信息安全模型”。[5]在大量搜集、过滤、整合数据的基础上,通过分析与挖掘,能感知安全威胁、预测安全态势,极大提高信息安全能力。目前,中国对大数据极为重视,其中一方面也是为了通过大数据来提升维护国家安全和信息网络安全的能力。
二、大数据环境下的数字档案馆信息安全内容
由于大数据环境下信息安全内涵得以拓展,因此大数据环境下数字档案馆信息安全就不仅仅指数字档案馆信息安全威胁,还应包括其利用大数据提升信息安全水平。
(一)大数据环境下的数字档案馆信息安全威胁
“信息是一种具有生命周期的资源,其生命周期由一系列逻辑上相关联的阶段或步骤组成,主要包括需求定义、收集、传递、处理、存储、传播、利用7个阶段组成”。[6]从信息生命周期角度而言,大数据环境下数字档案馆信息安全威胁主要有:
1.数据来源安全。档案数据来源的真实、准确和可靠是数字档案馆信息安全保护的基础。大数据时代,馆藏资源内容多样化、形式多元化成为必然。从体制内资源到体制外资源,从结构化资源到非结构化资源,从线上资源到线下资源,馆藏档案资源来源变得极为广泛,有可能导致来源不可靠、采集不完整、结构不统一、数据重复或冲突等问题。
2.数据传输安全。大数据环境下,无论是逻辑归档还是档案利用,数据更多的是通过网络进行迁移和传输,此时,数据失真甚至丢失就很容易发生。具体原因:一是档案数据采集时,涉及到较多人为因素,人工干预有可能导致误差;二是档案数据传输过程中,安全防护相对较弱,容易遭到重点攻击;三是很多档案数据的系统依赖性极高,系统环境变化容易导致档案数据在迁移过程中丢失或无法读取。
3.数据管理安全。技术的进步往往领先于思维或意识的转变,而意识或思维又往往决定了管理水平和能力。相比于大数据技术的突飞猛进,大数据思维的转变却步履维艰,长期以来以“差不多”观念为代表的文化在大数据时代极大地制约了数据的安全管理。尽管档案工作人员的安全意识一直很强,但是在大数据时代还是需要转变思维方式,从静态管理转向动态管理,并且完善数字档案馆安全管理制度,确保档案信息的管理安全。
4.数据存储安全。“当前档案馆广泛应用的关系型数据库(SQL)技术,经过长期实践与完善,在维护数据安全方面已经设置了严格的访问控制和隐私管理工具,而大数据依托的基础技术是非关系型数据库(NoSQL),在成熟度和可访问性方面都不如传统数据库技术”。[7]随着数字档案馆中非结构化数据的飞速增长,数字档案资源的“物理分散、逻辑集中”越来越突出,大数据安全防护的压力将会越来越大,存储容量、并发访问、权限控制等都极大地考验着数字档案馆的安全。
5.传播利用安全。“大数据时代,我们时刻都暴露在‘第三只眼之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的‘TA,还有我们的社交关系网”。[8]作为一个带有强烈保密性质的机构,档案馆一向重视对档案信息的保护。然而大数据背景下,数字档案馆为了丰富档案服务内容、改善服务方式,势必从不同领域、各类渠道来推进档案信息服务,但其中涉及国家利益、公共安全、商业秘密、个人隐私等档案信息也容易产生泄密风险。
(二)基于大数据的数字档案馆信息安全防护
所谓“威胁”,往往意味着“不确定性”,而“不确定性”往往是因为危机或风险的“不可计算性”。大数据以其强大的计算能力,极大的提升了数字档案馆信息安全防护水平。
1.数据内容安全防护。在大数据背景下,数字档案馆的数据存储和利用将更多地依托于“云”。在“云”这种完全虚拟的环境中,档案数据更容易受到高级持续性威胁(APT),该威胁是黑客以窃取核心数据为目的,针对特定对象,长期、有计划性和组织性地窃取数据,这将导致档案信息泄露或被恶意使用。这就需要通过利用大数据的手段结合现代网络安全技术,如添加大型的通用日志服务、能作实时关联的引擎和基于云计算的细粒度上下文安全和溯源技术,对档案数据的记录、存储进行分析,主动发现异常和潜藏着的威胁,实现威胁与入侵的快速检测、快速发现和及时响应。[9]
2.数据存储安全防护。对数字档案馆以数据为核心进行安全保管和科学利用的综合服务机构来说,容灾备份是保障数据存储安全和抵御灾害的重要手段。借鉴大数据技术并结合档案数据存储的特点,可选择的容灾备份方法有:①采用分布式存储,即分布式文件系统存储非结构化数据;键值存储引擎存储结构松散无模式的半结构化数据;分布式并行数据库系统存储海量结构化数据。[10]②异地容灾,即将数字档案资源、档案数据处理系统及系统环境参数等备份到异地服务器中,在灾难发生后能实现数据恢复,从而提高抵抗各种可能安全因素的容灾能力。③采用实时备份和细粒度恢复技术,提高备份效率和恢复效率,常用的技术如存储快照和持续数据保护技术。[11]
3.数据利用安全防护。大数据环境下的档案工作服务讲求时效性和便捷性,但在利用过程中面临的风险将更大,如数字档案资源知识产权风险、信息篡改风险、个人隐私泄露风险等。这就需要借助大数据和云计算技术,通过使用加密技术来保护档案数据,并且在利用服务过程中应用版权管理服务(Rights Management Servic? es),即一种与应用程序协作来保护数字内容(不论其何去何从)的安全技術。这种技术可以做到无论档案数据是在档案馆内部还是外部,无论是在存储状态还是传输过程亦或是使用中,都始终受到权限的保护,实现端到端持久的信息安全防护。[12]
三、大数据环境下的数字档案馆信息安全防范体系
2016年国家档案局印发的《全国档案事业发展“十三五”规划纲要》中提出:“建立健全人防、物防、技防“三位一体”的档案安全防范体系”。对应到数字档案馆方面,即通过法规制度完善(人防)、安全设施建设(物防)和安全技术保障(技防)等手段,来实现和保证数字档案信息安全。再结合大数据环境,文章认为,可从法律制度、道德规范、安全设施、技术防护四个角度出发,建立安全可信的数字档案馆信息安全防范体系。
(一)法规标准上,构筑科学的数字档案馆信息安全保障体系
在信息安全保障体系中,法规标准的建设是必不可少的一环,甚至是至关重要的一环。2012年,欧盟出台了一项“被遗忘的权利”法案,“民众有权要求相关机构删除他们的个人数据”,[13]同年奥巴马政府也公布了“隐私权利法案”,从个人控制、透明度、情境一致、安全、接入权与准确性、收集控制、问责制等角度对隐私保护作出了明确规定。
一方面,由于数据安全和隐私保护涉及的更多是政策层面的问题,因此国家应加强信息安全防护方面的顶层设计,在现有法律法规基础上,进一步完善个人信息安全相关法律的细则,强化个人信息处理的事前监管,加大对个人信息事后侵权的惩治,将大数据装到制度的笼子里。另一方面,档案部门应结合数字档案馆信息安全防护的具体内容,组织开展大数据环境下档案信息安全保护所需的标准与制度研究,进而形成科学的行业应用规范。
(二)道德规范上,培育信息安全与隐私保护的自律机制
立法程序的冗长繁琐与大数据的迅猛发展之间存在着矛盾,政府管制也始终存在着无法完全克服的制度缺失,因此大数据时代的信息安全防护必须“通过强化自律机制来弥补立法模式与技术手段的不足,发挥行业自律的灵活性与专业化优势”。[14]行业自律机制的建立,可以有效地起到过滤、防范作用,解决问题于萌芽之中。如美国的个人信息保护就多采用行业自律模式,“要求那些被许可在网站上张贴其隐私认证标志的网站必须遵守在线资料收集的行为规则,并且服从多种形式的监督管理”。[15]
应积极借鉴美国、香港的“安全港”模式,将行业自律作为个人信息保护制度中一个不可或缺的环节,与其他保护手段形成良性互动。在自律机制的建设上,可以考虑建立“行为规则是核心、信用制度是载体、组织机构是保障的基本模式”,通过资格审查、行为准则、行业标准、信用制度、职业培训等手段,高效、系统的保护信息安全与个人隐私。现阶段而言,应引导重点单位尤其是涉密单位“推出相应的自律规范和公约,重点加强对可能接触海量个人信息和涉密档案人员的监管和教育”,[16]使其“有所为而又有所不为”,从而有效地应对当前的信息安全挑战。
(三)安全设施上,构筑可控的数字档案馆安全防护屏障
档案信息系统及其网络平台的安全,是构成数字档案馆物防的坚实基础,系统及其网络平台安全就是要保持系统软硬件的稳定性、可靠性、可控性。
档案信息系统集成商应具备相应的保密资质,并严格按照有关安全保密规范要求进行项目设计、系统开发和项目施工。系统开发应当遵循整体性、开放性、稳定性等原则,鼓励软件开发公司应用先进技术手段对“收集、管理、保存、利用”各功能模块或子系统进行专业深度扩展、创新开发。其中,在安全防护方面可以通过身份标识与验证、访问权限控制、审计跟踪和安全管理等措施,来保证系统的稳定、可靠和安全。
网络平台安全防护是要根据不同对象、立足不同网络,综合应用防火墙技术、虚拟专网技术、入侵检测技术、物理隔离网闸技术、安全接入技术、应急响应技术等,保护数字档案馆的局域网、政务网和互聯网等网络平台避免攻击和病毒传染,确保数字档案馆网络平台的安全性、稳定性和可用性。
(四)技术防护上,搭建以数据安全和隐私保护为主要目标的保障环境
大数据时代,信息安全是一个系统工程,数字档案馆应从“身份生命周期”的角度去全方位考虑,力求在数据安全方面得到全面化的管理,而非单一依靠监控软件来防止数据泄露或者仅在某一阶段进行重点控制。身份生命周期管理模型是一套完善的集成化身份控制与访问管理解决方案,包括账户创建、权限分配、身份认证与访问控制、用户行为审计、角色变更和账户管理等多个方面,用于帮助数字档案馆高效安全地解决动态环境下的身份与访问管理问题,从而有效地保护数据安全与用户隐私。其中涉及到的技术防护有以下几个方面:
1.访问过滤。在系统服务器前构架安全网关,在访问服务器之前进行安全检查,防止非安全终端访问服务器窃取机密数据信息。对于进入档案利用系统的用户,则通过名单过滤、关键词过滤、图像过滤、模板过滤、智能过滤等技术,防止用户非法获取机密档案内容。
2.文件加密。数据真实性是档案信息存储和利用的前提,要想保证数据真实不被篡改,给数据加密是最好的办法。目前,国际流行采用对称密钥与非对称密钥相结合的多模加密技术,该技术能提供满足多种使用场景,如特定格式、特定目录、特定用户、外部设备、网络加密、全盘加密,可以适合不同的应用环境,大大提高了数据加密效果。
3.传输加密。数据传输安全也是确保大数据安全的重要环节,在确保数据传输安全时,同样可采取数据加密技术,只是加密对象从数据本身转化为了对端口的加密,同时通过双因子身份认证确保传输双方都是指定对象,防止外人在传输过程中窃取数据并发送假数据给数据传输两端的用户。
4.数据备份。备份与恢复是确保数字档案资源永久存储和安全保管的重要手段之一,云存储以其海量存储、高安全、低成本、便于管理利用、易于扩展等诸多优势,为数字档案资源的存储与备份提供了新的选择。通过将“档案数字资源的关键数据本地保存一份,并在远端数据中心各保存一份,实现本地远程多重数据保护,从而提高存储安全与数据灾备能力”。[17]
*本文为国家社科基金青年项目“智慧城市与数字档案资源建设研究”(项目编号:14CTQ036)的阶段性研究成果之一。
注释及参考文献:
[1]Big data:The next frontier for innovation,competi? tion,andproductivity[R/OL]. [2013-01-11].http://www. mckinsey.com/insights/mgi/research/technology_and_in? novation/big_data_the_next_frontier_for_innovation.
[2]王世伟.论大数据时代信息安全的新特点与新要求[J].图书情报工作,2016(6):6-8.
[3]21.5 million social security numbers stolen,U.S.Of? fice of Personel Management says[EB /OL].[2015-12-15]. http://www.opposingviews.com/i/society/215- millionsocial- security- numbers- stolen- us- office- personnelmanagement-says.
[4]陸绮雯,唐烨.解码“大数据”[N].解放日报,2013-3-10,第009版.
[5]胡坤,刘镝,刘明辉.大数据的安全理解及应对策略研究[J].电信科学,2014(2):115.
[6]索传军.试论信息生命周期的概念及研究内容[J].图书情报工作,2010(7):6.
[7]周枫.大数据时代档案馆的特征及发展策略[J].档案与建设,2013(8):7.
[8](英)维克托.迈尔—舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2013(1):56.
[9][11]王彤.大数据时代下的图书馆跨界服务信息安全技术问题及对策[J].图书馆理论与实践,2015:100.
[10]周美兰.大数据环境下档案信息安全管理的探讨[J].兰台世界,2015(20):103.
[12]孙继银,张宇翔等.网络窃密、监听及防泄密技术[M].西安:西安电子科技大学出版社,2011:241.
[13]邵国松.“被遗忘的权利”:个人信息保护的新问题及对策[J].南京社会科学,2013(2):104.
[14][16]惠志斌.大数据时代个人信息安全保护[N].社会科学报,2013-04-11,第003版.
[15]徐敬宏.美国网络隐私权的行业自律保护及其对我国的启示[J].情报理论与实践,2008(6):956.
[17]陶水龙.档案数字资源云备份策略的分析与研究[J].档案学研究,2012(4):16.