信息时代档案大数据系统建构研究

2024.04.30

摘要：本文针对如何处理和利用海量数据这一问题，依托以大数据为主的现代技术，提出搭建具有高度自动化、智能化的档案大数据系统，对海量的数据资源进行有效的处理。

关键词：档案大数据档案资源档案管理

大数据技术对信息时代产生的海量数据能够做到有效处理和存储，这一特质使扩展和统一管理档案资源成为可能。随着档案资源的扩展和管理，档案资源的有效利用也必将得到大幅度提升。在这种情况下，建构档案大数据系统成为必然要求。在建构档案大数据系统的过程中，数据结构的科学性、数据的价值密度、共享性和可操作性等诸多因素，是影响档案大数据系统运营效率、安全服务模式和内容变更、提升服务能力的重要因素。特别是如何搭建高智能的基础设施框架和采取科学、合理的方法，对价值密度低、分散、无序、海量的数据资源进行有效采集、清洗、转换和整合，使其结构合理、价值密度高、易于管理和应用，是档案界需要该认真思考的重要课题。

一、信息時代档案大数据系统的提出

维克托·舍恩伯格在《大数据时代》中写道：“半个世纪以来，随着计算机技术、网络技术融入社会生活，信息爆炸已经成为事实。大数据时代的许多学科都会发生巨大甚至是本质上的变化和发展，必将成为新发明和新服务的源泉。”[1]随着档案数字化、信息化进程的加速，社会需求的种类、数量和质量影响着档案数据的同步急速提升，档案大数据成为当今档案界普遍关注的热点问题。笔者参考相关文献，认为档案大数据是指档案数据量巨大到现有软件工具无法在有效时间内实现采集、整合和管理的档案数据的集合，它区别于传统档案数据，是传统档案数据的海量扩展和补充。

目前，档案信息化管理中档案数据基本基于单机管理，无论是结构化数据还是非结构化数据基本上比较零乱、不便管理、不能实现数据共享。加上档案数据量呈几何级增长，原有的档案数据系统已经很难适应时代发展的要求。为了解决上述问题，笔者尝试依托互联网、基于数据库、以Hadoop为框架建构档案大数据系统。档案大数据系统强调智能化理念、决策理念、管理理念及服务理念的先进性，具备前瞻性和创新性特质。它通过系统的人工智能特征及决策支持系统的应用功能，实现档案大数据的有效利用，从而实现档案服务功能的最大化，达到业务价值增值的目的。具体而言，档案大数据系统是研究如何基于大数据的数据分析和数据挖掘技术，从海量数据中发掘出有价值的信息，满足不同档案用户的信息需求，将档案信息资源转化为知识资源，实现电子文件的鉴定、非结构化电子文件的处理，提升档案数据存储与备份的数量与质量，有效管理、组织和利用档案资源。

二、信息时代档案大数据系统的建构

从档案的收集、管理、利用来看：在传统管理方式下，“收”是各部门移交；“管”是手工管理，手工查询；“用”是提供被动地查阅服务。在信息时代，“收”是将数据实时、自动归集；“管”是采用云平台存储、计算、分析；“用”则是分析、发现与预测，为社会、企业创造价值。[2]

根据我国档案信息化建设多年积累的经验，针对系统建设的自动化、智能化目标，依据计算机数据管理规则要求，笔者主要采用了垂直+水平的分布式档案数据库模型，从档案数据的采集、整合、过滤、管理四个层面对档案大数据系统进行建构。如图1所示。

（一）档案数据的采集

传统的纸质档案管理所采集的信息不准确、图像的清晰度及可识别性不高。而档案大数据系统平台的数据表现形式多样化，如网页、图像、音频视频、文档等。为了获得高质量的档案数据信息，不仅可以通过内网获取现有局域网中的元数据、中心数据、引用数据、运行数据、用户数据、服务数据等结构化数据，而且也可以通过外网、RFID射频、B/S移动输入等多种方式实现用户反馈、监视器采集、远程应用系统数据等非结构化数据的获取，并对这些数据进行采集、变更和处理。其中，通过影像识别技术获取的动态数据以及通过扫描、摄影等方式收入电脑的纸质文档，都是由非结构化数据转换为结构化数据的事例。采取这种方式的优势在于便于管理者查询原始数据和利于数据分享、数据检索、数据分析、数据展现。

（二）档案数据的整合

档案大数据系统平台的档案数据整合是对上传档案数据进行质量分析和治理，并对信息的生命周期进行管理。也就是说，在进行数据整合的过程中，主要采用了数据接入技术（包括广域网、局域网、个人网等），将数据采集层（下层）已处理过的数据安全、稳定、快速地输送到上层（即数据过滤层），并通过数据交互功能模块形成档案大数据源共享系统，并使其具备“智能交互”功能。

一般而言，档案数据整合包括控制系统、运行引擎、基础平台管理三个方面。主要通过聚类和相似性分析等手段，对档案数据间的有机联系进行分析和整合。其中，整合控制系统指的是通过调度、转换、功能等手段，对档案数据进行索引和协同搜索，在前期信息整合前提下进一步实现上下协同洞察。整合运行引擎指的是对数据对象、数据访问、工作流的引擎和任务引擎的整合，它是一个分布式的基础架构。一个分布式文件系统的实现，能够做到经济高效地分析PB级的结构化数据、非结构化数据、信息。基础平台管理整合包括日志管理、数据访问及访问策略、信息通知、异常处理、缓存管理，它主要是按照预定规则对档案数据进行存储，并随之进行数据库内的科学分析。

（三）档案数据的过滤

为避免海量数据传输中出现拥挤、堵塞及不必要占用空间等现象的发生，档案数据过滤主要是按照规定的数据清洗与过滤规则，对已采集的大数据源（先期采集和整合过的数据）进行可用性检查及质量分析、对数据进行过滤与清洗，以保证数据整合时的价值密度和可操作性。

档案大数据过滤服务是一种快速、完全托管的TB/PB级数据仓库解决方案，由方法库、知识库和模型库共同组成。它向用户提供完善的数据导入以及多种经典的分布式计算模型，能够更快速地解决用户海量数据过滤问题。基于云计算的分布式系统具有足够的数据存储和传输能力，它的数据清洗、数据过滤和外部数据存储功能，能够实现档案大数据的智能交互，搭建档案大数据的过滤层，并保障数据的安全。

（四）档案数据的管理

管理层面指的是使用和维护系统的接口。管理员通过该层面实现系统的管理、控制、应用和维护，是数据服务的指挥中心。管理层有两个核心功能，一是将加工和过滤后的数据进行可视化处理；二是建立多种应用模块，提供智能服务。也就是说，利用可视化和图像处理技术输出需要分析和预测的数据结果，并通过大数据技术的匹配机制为用户提供智能化应用。该系统中档案数据的管理层面，是通过多维分析、数据挖掘和各种查询三个工具实现人机交互界面的。通过对人机交互、操作逻辑、界面美观的整体设计，实现登录与认证、数据存储、数据操作、数据查询、基本参数设计等功能。需要注意的是，不管采用何种技术，关键是应用。应用需要的数据才是有价值的数据，只有生成多模式、多样性的应用数据，档案大数据的价值才能得以充分体现。

*本文为黑龙江省高校本科科研业务费黑龙江大学专项资金“智慧城市背景下档案信息资源规划研究”（项目编号：HDJDZ201613）的阶段性研究成果；2017年黑龙江大学校级研究生创新科研项目“智慧城市建设中的档案服务工作研究”（项目编号：YJSCX2017-108HLJU）的阶段性成果。

注释及参考文献：

[1]维克托·舍恩伯格.大数据时代[M].杭州：浙江人民出版社，2015：8.

[2]兰祝刚，刘在国.大数据时代档案管理带来的挑战与机遇[N].中国档案报，2013-11-29（2）.

[3]席畅.大数据环境下未来档案馆建设的新构想[J].云南档案，2017（1）：55-57.