从大数据特征看档案界对于档案大数据认知的误区

2022.09.28

王居一

摘? 要：本文认为档案数据不具备多维度、完整性和实时性，将大量档案数据称之为档案大数据是不准确的，甚至是错误的。大数据时代，档案数据不能缺位，要使档案数据成为真正意义上的大数据，就应改变不能适应时代的固有模式与方法，积极主动融合到社会大数据之中。

关键词：大数据;特征;档案;档案大数据;误区

Abstract： This article believes that archive data does not have multi-dimensionality， completeness and real-time. It is inaccurate or even wrong to call a large amount of archive data as big archive data. In the era of big data， archival data cannot be absent. To make archival data into big data in the true sense， it is necessary to change the inherent patterns and methods that cannot adapt to the times and actively integrate it into social big data.

Keywords： Big data; Characteristics; Archives; Archive big data; Misunderstanding

大数据研究是当今档案界最热门的研究内容之一。自2003年第一篇有关档案大数据论文问世后，据从知网文献数据库中检索统计，至今主题为“档案大数据”的已有2436篇相关研究成果发表，18年间翻了超过11番。对这2436篇文献再使用“档案大数据”在题名中检索得到64篇，仅占2.63%;如果对这2436篇文献使用“档案大数据”在全文中进行检索就有549篇，占22.54%。就是说有1/5以上的作者将档案数据视为大数据。这表明，有相当一部分研究者将档案数据视为大数据，或者等同于大数据。如，郑金月认为：“从大数据的本质分析，档案数据无疑也是大数据”，“档案数据最符合大数据本质的真谛。”[1]秦利认为：“大数据就是档案”[2]而这种认知是不准确的，本文就此作一些探讨。

1 大数据的四个特征

对于大数据，目前并没有统一的定义，而对于大数据的特征，“当前，较为统一的认识是大数据有四个基本特征：数据规模大（Volume），数据种类多（Variety），数据要求处理速度快（Velocity），数据价值密度低（Value），即所谓的四V特性。”[3]对于大数据的这四个特征，档案界应当在数量、维度、完整、实时等四个方面进行理解。

第一，数据量大。至于数据量多大才合适，从置信度的意义上看，数据至少要大到让统计结果具有非常高的置信度。

第二，多维度。多维度至少包括两个方面，一是数据类型多。不仅有通常事先定义好的结构化数据，也有非结构化的数据，而且非结构化的数据量更多。二是数据内容种类多。如政府部门有政务信息数据、业务信息数据、政务媒体（网站、微博、公众号等）信息数据、内部管理信息数据、其他类信息数据等。

第三，完整性。這是对“数据价值密度低”特征的档案话语解读。所谓“数据价值密度低”，是“从大数据整体角度出发，为了保证数据信息的完整性，计算机会将数据的关联内容进行存储，导致很多价值不高的信息被纳入处理范围，直接降低了数据的整体价值，造成数据信息的价值密度降低。”[4]从档案的角度看，只有数据完整，才能反映事物的细枝末节，反映事物的真相。过去，在小数据和数据不易获得的年代，只能采用抽样的办法来获取，根本不可能做到完整，所以只能忽略。但只要是抽样统计，就有小概率事件覆盖不到，如果发生的事情正好落在那被忽略小概率事件上，那些不完整的数据就失去了作用。虽然，大数据的量大带来大量可能没有价值的信息，造成了数据价值密度低，但是，也应当看到，由于数据的完整，也使得不会让任何一条有价值的信息漏掉。

最后，实时性。大数据的价值就在于实时性，“数据不是静止不动的，而是在互联网络中不断流动，且通常这样的数据价值是随着时间推移而迅速降低，如果数据尚未得到有效的处理，就失去了价值，大量的数据就没有意义。”[5]要做到实时性，就必须对数据进行快速处理，这就是“数据要求处理速度快”。“大数据要求数据在线开放，能实现实时动态数据处理，不在线的、不能实时处理的数据不属于大数据。”[6]

2 档案数据特征分析

档案数据是不是大数据呢？对照大数据的四个特征逐条分析一下。

第一，关于数据量大。究竟多大的数据量算是大数据呢？“根据IDC 的定义至少要有超过100TB 的可供分析的数据”[7]才能算是大数据。那么，就某一个档案室或者某一个档案馆保存的档案数据达没有达到这一数据规模呢？据统计，2017年，“全国数字化档案资源达2243万GB”，[8]当年，全国共有各级各类档案馆4210个，[9]另据粗略统计，各省、自治区、直辖市直属机关档案机构95000个左右（2013年为95362个[10]）。这样，平均每个档案馆（室）有数字化档案只有226GB，而100TB=102400GB，即每个档案馆（室）的档案数据量离大数据的最低可供分析的数据量还差400多倍。可以说，从数据量来说，档案数据离大数据还是有相当大的距离。

第二，关于多维度。以环境大数据为例，“从数据种类来看，环境大数据涉及部门政务信息、环境质量数据（大气、水、土壤、辐射、声、气象等）、污染排放数据（污染源基本信息、污染源监测、总量控制等各项环境监管信息）、个人活动信息（个人用水量、用电量、废弃物产生量等）等。各级政府部门、社会公众、媒体、环保NGO 等都是可能的披露主体。它不仅包括关于事物物理、化学、生物等性质和状态的基本测量值，即可用二维表结构进行逻辑表示的结构数据，也包括了随着互联网、移动互联网与传感器飞速发展涌现的各种文档、图片、音频、视频、地理位置信息等半结构化和非结构化数据。”[11]大多数环保机构档案室很难将这些数据收集齐全。就目前，各单位档案室说是综合档案室，其实都很难做到综合。