档案大数据定义与内涵解析

    康蠡+金慧

    摘 要:结合大数据和档案工作实际,定义档案大数据是与档案活动密切相关的各种有价值的、难以在可接受时间内分析处理的数据集。档案大数据来源于三个方面,具有4V+1C及时滞性、获取困难等特征,其实质代表了档案领域一种新的数据生成、存在和处理样态。

    关键词:档案大数据;定义;内涵

    随着大数据的影响日益广泛,近几年档案界掀起了研究大数据的热潮。“档案大数据”一词频频出现在人们的视野,但迄今为止却很少有人对其定义和含意展开深入探讨,以至于在对档案大数据的理解中“存在着不同程度的概念泛化、夸大与误读。”[1]当前,大数据在档案领域正由概念论说向尝试应用阶段演进,迫切需要对档案大数据给出一个较为明确、科学的定义。鉴于此,本文在梳理已有论点的基础上,结合大数据的涵义,对档案大数据的定义和内涵进行阐释,希望有助于业界更科学地认识该问题。

    1 档案大数据定义的界定

    受大数据浪潮的冲击,自2012年起,国内就有档案学者开始了对档案大数据的研究。但他们大多是从大数据的角度出发,探讨大数据对档案和档案工作的外围影响及其对策等。对于什么是档案大数据,很多人采取了模糊化处理的做法,只有高茂科和鲁德武两位学者专门厘析了其定义。高茂科采取直接套用大数据定义的做法,着重强调数据的规模。他指出,档案大数据就是档案方面涉及的资料量规模巨大到无法通过目前主流软件工具在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的信息。[2]鲁德武则以档案大数据所属范畴为基点,将档案大数据定义为档案中的大数据,即一定空间与时间范围内所有档案数据的集合。[3]

    以上两位学者采用“属+种差”的方法,分别从不同的侧面揭示了档案大数据的特征,但这两个定义都存在一定的问题。高茂科的定义把信息作为档案大数据的属概念,将档案大数据的外延等同于信息的外延,并且将档案大数据的应用范畴局限于企业经营决策方面,不仅违背了普通逻辑学中“定义项和被定义项的外延必须相同”的规则,而且窄化了档案大数据的内涵。鲁德武的定义以数据在时间和空间上的全面性来界定档案大数据,突出了档案大数据的整体性特征,但他将档案数据的集合等同于档案大数据,显然没有准确地把握档案大数据的本质属性。同时,“全面性”固然是档案大数据的一个重要特征,但其也不能完整地反映档案大数据的全部意涵。因此,还需要对档案大数据进行更周密的分析。

    从词源上来看,档案大数据是由档案和大数据交叉而来的一个概念,它由档案和大数据两方面构成,所以要正确定义档案大数据,关键是要厘清“档案”和“大数据”这两个词在其中的涵义。而从字面上理解,此处的“档案”显然是一个限定词,其基本作用是将后面的“大数据”限定在“与档案直接有关的”这个范畴。

    至于何谓大数据,由于其目前尚处于被认识和应用的初级阶段,人们对大数据的理解还存在较大分歧,并没有就其定义达成一致意见,但通过文献梳理发现,大多数研究者倾向于从数据属性和技术层面来界定大数据。麦肯锡公司认为,数据规模超出传统数据库管理软件的获取、存储、管理以及分析能力的数据集就是大数据。维基百科指出,大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集。研究机构 Gartner 对大数据的定义是:需要新处理模式才能增强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。徐宗本院士则将大数据定义为不能够集中存储、并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集。[4]纵观这些定义,虽然各自对大数据的认知角度和侧重点不大相同,但它们却蕴含着一个共同点,即都认为大数据的核心是一种数据集,与传统的数据及处理技术相比,其具有数据体量大(Volume)、数据类型多(Variety)、价值密度低(Value)、处理速度快(Velocity)和复杂性(Complexity)特征。

    作为数据管理理论和实践的新发展,大数据开启了一次重大的时代转型,对包括政府、教育、经济、科技、医疗等在内的各个领域产生了深远影响。随着大数据技术与档案工作的交汇融合不断加深,来自档案层面及其业务活动的数据在数量、速率与种类上急剧且持续扩大,远远超出了传统数据处理软件和技术的能力范畴,由此导致档案大数据迅速兴起。因此可以认为,档案大数据指的就是将大数据技术和理念应用于档案业务领域产生的大数据。综合前文有关大数据的定义,我们对档案大数据作如下界定:档案大数据乃是在档案业务活动(包括档案产生、管理及利用活动)中形成,跟档案及档案业务活动密切相关的各种有价值的、难以在可接受时间内分析处理的数据集。

    2 档案大数据内涵的阐释

    基于上述定义,可以从以下几方面来认识档案大数据。

    2.1 档案大数据的来源。由于档案大数据是伴随着档案业务活动与大数据技术及理念的融合而产生的,这就意味着其在来源上应该包括:①来自档案本身的数据。该部分数据主要指档案馆(室)收集的电子档案、音视频档案以及传统载体档案数字化成品所记录的内容数据(原始记录)及反映档案形式的电子数据,如档案载体材质、规格的数据、档案管理系统的数据等,以及由档案内容数据加工生成的档案目录、文摘、指南等数据。它们是档案大数据中最具档案特色的部分,也是档案大数据的主干。②档案部门开展业务活动产生的数据。此类数据一部分由档案业务部门自己生成,一部分则由档案业务部门通过各种途径收集而来。主要涵盖档案部门的概况数据、档案政策数据、法律数据、馆藏结构数据、行业动态数据等。③有关档案用户的数据,具体包括用户的个人情况、位置数据、查询浏览数据、需求偏好数据等。上述数据构成了档案大数据的主要来源,但需注意,这并不是说档案大数据就囊括了以上方面的一切数据。档案业务活动过程也会产生大量无意义的噪声数据,只有那些能服务档案工作发展、具备利用价值的数据才能纳入档案大数据范畴。这就需要根据应用目的进行数据过滤与整理,为后期深度挖掘与分析做好准备。[5]

    2.2 档案大数据的特征。与传统的档案数据(主要指海量档案数据、大规模档案数据)相比,得益于信息技术的进步和信息需求的变化,档案大数据在诸多方面都表现出了新的特点。具体来说,在数据规模上,传统的档案数据通常以MB、GB或TB计算,档案大数据的规模则往往达到了PB、EB乃至ZB级。在数据类型上,传统的档案数据绝大部分为事先定义好的结构化数据(档案数据库),档案大数据则既包括了大量的结构化数据,又包括了大量的半结构化数据(如数字化的员工管理数据)和非结构化数据(如视频、音频、照片、电子邮件、网页信息等),并且后两种类型的数据越来越成为主流。在时效方面,传统档案数据收集的来源、对象相对固定,带有明显的阶段性和周期性,档案大数据中的各种数据则是以数据流的形式动态地生成、快速地甄别、实时地存储,数据的采集、处理将具有很强的时效性。[6]同时,受以上因素的叠加催化,档案大数据处理的复杂程度远远超过了传统档案数据的处理要求,需要借助超常规的技术和工具才能完成。

    与教育、金融、互联网等领域的大数据相比,档案大数据的特征则体现为:①时滞性。尽管档案大数据中产自管理部门业务活动的数据及用户数据具有强烈的及时性、动态性,但作为核心数据的档案数据如电子档案、档案数字化文件等数据信息却带有明显的滞后性、静态性,因而决定了档案大数据具有很强的时滞性,并不能像互联网数据那样即时产生效用。②价值密度高。档案数据是对社会实践活动的原始记录,并且档案往往以孤本形式存在,这也就表征相较于其他领域的大数据,档案大数据的真实性更强,其单位数据的价值密度更高。③获取困难。由于档案数据具有保密要求,其只有过了一定的保密期限才能对外开放,从而给档案数据的公开获取带来了很大困难。

    2.3 档案大数据的定位。从起源和归属上看,档案大数据孕育于大数据生态环境,产生于档案生产者、档案管理者和档案消费者构成的生态网络之中。因此档案大数据仅仅是大数据生态整体中的一小部分,它受到大数据生态的影响和制约,又反作用于大数据生态,其与大数据之间的关系也只是反映了部分与整体的关系。而档案大数据之“大”,除了指数据体量、类型、变化之大外,更重要的是指这些数据蕴含的价值之大。因为构成成分的复杂性、特殊性,档案大数据的功能、价值更加丰富、多元:一方面,由于其中的档案内容数据是对社会实践活动的历史记录,该部分数据无论怎样都须起到“提供证据、给予公众解惑”[7]的作用;另一方面,在大数据环境下,随着档案信息化的推进,可利用的档案数据、业务数据和用户数据大量增加,加之档案业务中各种数据“实时采集、实时归档、实时计算”[8](当然这也是档案大数据的必要条件)的逐步实现,人们可以在整合这些数据的基础上,通过对档案与社会活动以及档案与档案、档案与用户、用户与用户之间多维关系的挖掘分析,发现组织、社会及个人历史活动与档案利用活动的客观规律并对其进行预测,从而察觉新的问题,做出新的决策,创造新的知识,让各相关数据在服务社会生产生活、保存历史记忆、提升档案管理利用水平等方面发挥出决策与预测功能,产生更大的价值。就此我们亦可判知,档案大数据的核心并非只是容量非常大的数据的集合,而是要在数据关联的基础上实现对所有数据的动态挖掘和应用。

    2.4 档案大数据的本质。档案大数据更深层的内涵,在于其表征了档案领域一种新的数据生成、存在和处理样态,预示着档案信息化发展的新阶段。档案大数据的根源在于因信息记录和处理技术的飞速进步而引起的档案数据化,其实质是对档案业务活动中多样化数据进行高速采集、实时处理和分析,以从中提取多种价值。[9]档案大数据以整体论为基础,将档案数据、业务数据、用户数据及产生这些数据的人、事、物视为一个有机整体,在彼此的相互关系和相互作用中理解、看待与运用数据;主张通过数字化手段,突破时间、空间和体制障碍,打破档案与档案、档案与用户、用户与档案机构彼此分割的数据分布状态,实现数据的相互开放、相互流通与相互关联,寻求对多元数据整体价值的深度发现,以实现各种数据价值的最大化。

    在理念层面,档案大数据之“大”的根本则是档案业务活动中思维方式的转变。这种转变体现在:首先,要求档案活动的重心应由技术(T)转向信息(I),在档案管理和利用中要以数据为大,让数据说话,使数据成为考究问题、进行决策的依据和价值创造的源泉,而不单单依靠经验和直觉开展工作。其次,在数据的采集分析上,要求我们树立大档案观,不再满足于少量样本或抽样数据,而是要注重数据的全面性,尽可能地收集和利用全部(档案、业务和用户)数据,让每一条有意义的数据及数据关系都能进入档案管理和利用的视野,使其获得生命、焕发光彩。其三,档案管理和利用主体应在坚持数据精确性的同时,容忍和接受大量数据带来的混杂性和不确定性,并从中发现创造发生的无限可能。其四,在档案开发和利用过程中,既不放弃对档案记录及档案业务活动中因果关系的追问,明确其中的原因,又将对档案数据、业务数据和用户数据蕴藏的相关关系的关注放在突出位置,用以把握档案记录及档案业务活动的有关现象是什么,以及档案管理和服务即将发生什么。这就要求档案工作必须由被动走向主动,对档案的利用亦须由以提供档案原始信息为主转向提供档案原始信息与对档案数据的整合、分析、挖掘、呈现并重。

    *本文系海南省哲学社会科学规划课题“生态文明发展中海南生态档案资源体系构建与应用研究”(项目编号:HNSK(QN)15-45)成果之一。