大数据背景下档案工作的机遇、趋势与挑战
王建亚
摘要:从大数据的概念及对信息管理工作的影响出发,分析了大数据为档案工作带来的机遇,包括解决信息化“胀库”、推动普及社会档案观等,提出了档案工作从数字化到数据化、从信息共享到信息价值共享两大发展趋势,并总结其为档案工作带来数据挖掘环节的嵌入、档案信息的安全性、合理的建设投入三个方面的挑战。
关键词:大数据档案工作电子档案社会档案观
一、大数据:概念与应用
大数据,作为一种数据管理的理念和方式,其之所以出现,是云计算和物联网等信息技术的发展,与人类社会所积累的数据高速增长并海量积累相结合的结果。无论是如何定义,从本质上,大数据是信息管理者在当今的信息技术条件下,为解决新的海量信息处理需求,所提出的解决策略。而作为典型的信息管理活动之一的档案事业,势必会受到大数据理念的影响。
大数据并不是一个严谨而完整的学术概念,其所包含的内容相对比较抽象,从字面意义上进行理解,大数据所指的是数据规模的庞大。但从这一意义上来看,显然无法与传统的以往一系列概念进行区别,如“海量数据”(Massive Data)、“超大规模数据”(Very Large Data)。在学术界,对于大数据的定义尚未形成统一的观点,但综合各种说法,主流的思路是从大数据的特征出发,通过归纳的方式,通过对特征的描述进行定义。其中最有代表性的是3V定义[1],即认为大数据需满足3个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。此外在实践层面,普遍认为大数据具有全数据规模、多数据类型、低价值密度、高处理速度的特点。
在数据管理理念层面,大数据的特点在于全数据规模、丰富的数据类型(可能包含半结构化数据)、全数据处理对象、多数据处理工具;在数据处理技术层面,大数据体现为对云计算和新一代数据库的应用;在操作方式层面,大数据体现为对零散信息价值的重视及对数据之间相关而非因果关系的分析。
二、大数据对档案工作带来的机遇
(一)解决信息化背景下档案的“胀库”问题
近年来,随着电子文件的理念逐步得到认可,以及档案的单位管理成本的降低,加之人们对于归档保存的重要性的认识的提升,我国的档案总量步入了一个高速增长的时期[2],但与此同时,信息化背景下的档案数据库胀库问题也随之到来了,其中较为明显的表现为“新增数据失败”等[3],胀库问题带来的,不仅仅对新增档案管理上的难题,同样重要的是,由于胀库现象的出现,档案的服务利用的效率将大打折扣,其原因在于案卷在出现胀库的过程中,无法及时有效地归档并建立索引以提供服务,破坏了档案案卷之间的连续性和关联性,降低了档案中所提供的信息的价值。信息化背景下档案的“胀库”问题,本质上在于存储和计算资源分配的不够合理,传统的数据库架构在处理新的海量数据的过程中,灵活性远远不够。解决这一问题,需要求助于大数据技术框架中的云计算技术[4],利用云计算技术强大的调配计算资源的能力,根据数据处理规模的需要,配置数字化档案管理所需要的存储和计算资源,保证档案的服务利用效率。
(二)有利于推动社会档案观的普及
大数据的核心在于从海量的数据中挖掘价值[5],这为档案价值的进一步发现和提升,提供了一个新的思路。传统的档案服务利用概念中,档案的服务利用对象是特定并且相对单一的,原因在于档案通过卷宗的形式,将一个相对完整的信息“包裹”存留,这部分相对完整的信息最终成为了档案卷宗的主题。而在服务利用的过程中,“主题匹配”成为了最为常见的档案定位方式,而主要来自于政府机关、企事业单位的日常运行信息形成的档案,其主题自然会牢牢地与其形成机关的业务活动相对应,而档案卷宗中所包含的零散的信息价值,相对容易被忽略,如今被公众广泛利用的档案,多数是民生档案[6],而其他类型档案中的零散信息价值,缺乏有效的挖掘服务利用手段,这是社会档案观在普及过程中必须解决的问题之一,即如何帮助公众挖掘他们所关心的分散于海量档案中的信息价值。大数据为档案的服务利用提供了新的价值挖掘工具,使得分散在海量数据中的零散价值成为可能,这就意味借助大数据的信息分析工具,公众将能够从主题上看上去并不相关的众多档案中,发掘其自身所需要的信息,获取相应的信息价值,将推动公众逐渐意识到档案作为当今社会最重要的信息价值载体之一的重要意义,而一旦这样的意识逐步成型,档案社会观将得到普遍的认可。
(三)有利于处理多载体类型的档案
信息技术的发展对于档案管理工作的重要影响之一,就是提供了多样化的信息载体形式,丰富了档案的类型,从最原始的纸质载体的文书档案,发展到如今的音像档案、图片等等。而随着电子文件概念不断获得认可,新的信息载体形式层出不穷,从理论上讲,每当出现一种新的信息载体形式,就会相对应地出现该载体形式的档案。这就意味着未来档案的管理工作必将是基于多载体的,其载体的丰富程度可能会远远超过我们的预期,而为最大程度保证原始证据价值,在技术条件允许的前提下,未来的档案管理工作将会尝试接受半结构化的数据作为档案,以最大程度地保留证据价值[7]。这使得未来的档案载体形式将呈现数量多、增长快的特点,这就要求针对具体档案类型的管理工具,或者抽象为一类特定的数据处理工具,是无法实现“One size fit all”的,即不再存在能够完美处理所有的档案载体类型的管理工具。这一点上与大数据对处理多数据类型过程中所提出的数据工具组合的理念,是相一致的。未来的档案服务利用活动,由于其面向的档案对象的载体是多样的,对其进行利用的工具也将是多样的,甚至为处理一些半结构化的数据的过程中,可能会需要多种数据处理工具的组合。
(四)有利于电子文件的管理
大数据将从真实性、有效性、及时性三个方面提升电子文件的管理水平。首先从真实性角度考虑,由于电子文件惊人的增长速度,其真实性鉴定工作一直是困扰档案工作者的难题之一,传统的“直接鉴定法”在实际操作的过程中所消耗的人力物力成本过于巨大[8],因此鉴定文件的真实性需要求助于大数据技术处理海量数据并分析复杂数据的能力;第二,从有效性角度考虑,电子文件的结构化特征并不明显,大量的电子文件都是半结构化甚至是非结构化的,在这种数据类型情况并不稳定的前提下,处理数据对象单一的传统档案管理数据库结构是难于驾驭的,而大数据技术框架下对于多数据结构的兼容性,能够较好地解决这一问题,提升对电子文件进行管理的有效性;第三,从及时性的角度考虑,电子文件的指数增长,使得及时地对新增档案进行管理成为了档案工作者所面临的一大难题,这样的海量数据的实时处理,是档案管理过程中前所未有的,这需要利用大数据技术框架中通过云计算的方式提升数据处理的及时性,才能保证电子文件管理的及时性。
三、大数据背景下档案工作的发展趋势
(一)从数字化到数据化
为应对信息时代对于档案工作新要求,档案数字化的工作已经进行了多年,并在一定程度上解决了传统档案利用信息技术进行管理及共享的问题[9],收到了相当的成效。但在大数据时代背景下,数字化仅仅是解决了载体形式或者说是信息技术的应用问题,可以理解为档案工作对信息技术的适应性应用,对于深入的数据挖掘与利用是远远不够的。在大数据的时代背景下,信息管理者已经不再满足于更易管理和共享的信息形式,应更为关注信息所能带来的价值,这就要求对于档案的管理工作框架,需要实现从数字化到数据化的转变,即不仅仅能够实现对档案案卷的数字化管理,更能够根据海量数据挖掘利用的需要,对档案的管理深入到数据层面,这将更为适合大数据技术架构下对数据的“流处理”模式。
(二)从信息共享到信息价值共享
随着大数据时代的到来,数据挖掘技术的应用进入了一个全新的阶段,所有的信息管理者都面临着同样一个问题:将简单而直接的信息共享活动转换为更为高级的信息价值的共享,即需要对自身所掌握的信息的价值有清晰的掌握和准确的理解,对应到档案工作者的现状上,即档案工作者仅仅了解自己在管理哪些档案并提供服务利用,已经无法适应大数据时代对档案服务利用的要求了,而需要能够了解自己所掌握的档案能做什么,所提供的档案利用服务所实现的是什么功能,也就是要明确所掌握的档案的价值。这需要对档案利用服务的认识有更加深入的认识,在大数据时代的背景下,由于对信息价值提取效率的提升,对于信息价值的共享将成为所有信息服务利用的主流趋势,这对档案服务利用工作将是全新的挑战,这不仅仅要求能够灵活地运用大数据技术在整合档案数据的基础上挖掘其中蕴含的价值,更加需要档案工作者对于信息价值有着更为敏感的“嗅觉”。
四、大数据对档案工作带来的挑战
(一)如何嵌入数据挖掘环节
传统的档案管理活动,最为通行的说法是包含收集、整理、保管、鉴定、统计和提供利用六个主要环节,这六个环节组成了基本的档案管理活动,并组成了一次完整的信息从收集到提供利用的过程。在大数据的时代背景下,对于档案管理活动提出了新的要求,即主动地挖掘其中的价值并提供利用服务,这就涉及到一个流程嵌入的问题,即数据挖掘环节应该通过什么样的方式嵌入到档案管理活动中来,是作为一个单独的环节嵌入到档案的管理流程之中,还是在传统的档案管理活动的某一环节中实现数据挖掘的功能,直接关系到档案管理活动流程的合理性。数据挖掘的嵌入问题,当档案事业逐步步入电子文件时代之后,必须要解决的问题。
(二)如何保障档案信息的安全性
大数据对于档案信息的共享程度提出了更高的要求,只有在档案资源高度共享的情况下,大数据技术框架下的云计算平台才能发挥作用,真正实现档案信息价值的利用。但随之而来,就是档案信息的安全性问题,如何解决在多类型、多结构、高共享程度状态下的数据安全问题,已经显得十分棘手。工作人员操作失误、设备及网络故障、计算机病毒、网络黑客攻击等对档案信息安全构成威胁的因素,在大数据的技术框架下,所造成的威胁可能会被相应地放大。大数据时代的档案信息的保密工作,其重心很有可能不再是保密体制的设计,而更有可能是信息安全技术的有效应用。
(三)如何合理地进行系统建设投入
任何系统的建设,都遵循了螺旋式上升、波浪式前进的规律[10],这就意味着任何系统的建设都需要考虑投入是否合理,是否符合管理需求和技术发展规律。大数据技术发展到今天,应该说对于“大数据”这一概念的认识,清晰程度还远达到预测其发展趋势的程度,而档案管理系统更为适应大数据的技术框架,无法避免地需要进行升级与开发,这就使得为适应大数据而进行的档案系统建设陷入了一个两难的境地:即不能故步自封,又要避免盲目投入。如何确定自身档案管理工作的定位,谨慎地考虑是否需要提升硬件技术能力以接轨大数据环境下的信息管理需要,而非盲目地追新求变,是档案工作者必须进行系统考虑的问题。
参考文献:
[1]Grobelnik, Marko. Big Data Tutorial [EB/OL].[2013- 11- 29]. http://videolectures.net/eswc2012_gro? belnik_big_data/
[2]陈永生.档案可供利用情况的数据分析——档案充分利用问题研究之一[J].档案学研究, 2007 (3): 17-22.
[3]张健.档案数据库“胀库”问题研究[J].档案学通讯, 2012 (4): 49-51.
[4]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展, 2013, 50(1): 146-169.
[5]李国杰.大数据研究的科学价值[J].中国计算机学会通讯, 2012, 8(9): 8-15.
[6]吴海琰.民生档案管理利用的调查与思考[J].北京档案, 2009 (8): 32-33.
[7]黄志文.电子文件的法律证据价值初探[J].档案学通讯, 2000 (2): 24-27.
[8]冯惠玲.电子文件的双重鉴定:《拥有新记忆———电子文件管理研究》摘要之三[J].档案学通讯, 1998 (3): 32-35.
[9]向立文.档案数字化建设中若干问题的研究[D].湘潭大学, 2004.
[1]0邱世魁,陈玉朕.大数据,企业档案信息系统的技术架构[J].中国档案, 2013(10):69-71.
作者单位:河北大学管理学院