档案信息资源共享平台数据处理流程研究

    

    

    

    摘 要:大数据时代档案信息资源的不断增加以及用户的不断拓展,对档案信息资源共享平台的数据处理流程提出了新的要求。文章论述了档案信息资源共享平台数据处理流程总体架构按照确保平台设计的可扩展性、充分重视数据的采集与存储等原则进行设计。在分析平台所要实现的功能需求基础上,采用Hadoop技术,从平台数据处理流程中的数据采集、数据清洗与预处理、数据存储及管理、数据展现等方面对平台数据处理流程的实现进行了论证。

    关键词:大数据;档案信息资源;共享平台;Hadoop;数据处理

    Abstract: With the increasing of archives information resources and the expanding of users, new requirements are put forward for the data processing flow of archives information resources sharing platform in the era of big data. This paper discusses the data processing framework of archives information resource sharing platform, which is designed according to the principles of ensuring the extensibility of the platform design and paying full attention to data acquisition and storage. Based on the analysis of the functional requirements of the platform, the paper demonstrates the implementation of the platform data processing flow from the aspects of data acquisition, data cleaning and pretreatment, data storage and management, data display and so on.

    Keyword: Big Data;Archive information resource;Sharing Platform; Hadoop;Data Processing

    在数据信息高速扩张的时代,随着云计算、物联网、人工智能技术的大规模运用,当前的档案信息资源的数据量正在呈指数形式增长,大数据时代的到来为精准而又快速地利用档案信息资源提供了数据保障。档案信息资源在被利用的同时,如何挖掘档案信息资源数据的价值正成为当前档案信息资源共享平台研究的热点。目前,由于缺乏统一的规划和建设标准,前端使用的技术分辨率支持比较弱,导致各平台浏览器兼容性、设备兼容性和系统兼容性都比较差[1],因此,为用户精准而又快速地提供档案信息是档案信息共享平台数据处理流程中最为关键的地方。在现有技术条件下,拟采用基于Hadoop技术的数据处理,最大限度地挖掘出档案信息资源共享平台中所蕴藏的巨大档案信息使用价值。

    1 平台数据处理流程总体架构设计

    1.1 数据处理流程总体架构设计原则。大数据时代档案信息资源共享平台数据处理流程构建设计中最重要的就是档案信息资源数据的收集、分析与应用,平台设计的目标是能够汇集异构的档案信息资源共享平台的档案数据,形成可以开放的档案信息资源共享中心库。在平台的数据处理流程设计方面,需要遵循两条原则:

    一是档案信息资源数据作为核心资产,充分重视数据的采集与存储。档案信息资源共享平台在大数据时代的应用主要是精准提供有价值的档案信息资源服务,其核心在于海量的档案信息资源的收集、存储与分析。平台需要持续从不同的环境中采集数据,有价值的档案信息资源数据不断进入平台是为用户提供高质量的档案服务的关键。

    二是平台需求在不断变化之中,确保平台设计的可扩展性。平台所使用的技术在不断更新,同时用户的需求也在不断变化。如我国目前档案信息资源共享平台用户使用的网络环境包括电信、移动、联通等网络,如果档案信息资源共享平台仅部署在某个网络环境下,其他网络环境的用户使用平台由于跨运营商的原因访问平台就会比较慢,采用CDN技术来解决相关传输问题[2],能够更加快速有效地传送Web内容。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输得更快、更稳定[3]。

    1.2 数据处理流程总体架构设计。根据平台数据处理流程总体架构设计原则,结合平台的功能要点,形成图1所示的档案信息资源共享平台的大数据服务总体架构。

    档案信息资源共享平台的大数据服务总体架构包含两大平台和三大角色。两大平台,即普通Web管理平台、移动客户端平台;三大角色,即管理员、普通用户、授权用户。平台包含档案信息资源输入模块、用户及权限角色管理模块、档案信息资源检索模块、资源管理模块、日志管理模块、报表模块,数据通过不同的途径进入系统之后,经过平台大数据分析引擎,将会输出有价值的报表汇总与数据分析图表。

    2 平台数据处理流程需求

    在大数据时代,档案信息资源共享平台要达到提高服务效率、整合数据资源、延展信息内容和满足个性化需求的构建目标[4],平台数据处理流程的优化目标实现显得非常重要。档案信息资源共享平台大数据的特点包括:档案信息资源数据量大、平台访问速度要求高、档案信息资源的表现形式多样、档案信息资源的真实与保密性。针对档案信息资源共享平台的数据处理流程主要包括以下几个方面:

    首先是档案信息資源数据采集。搭建数据仓库,数据采集的方式有用户通过自身平台的导入与录入,平台提供的对外接口进行数据的处理并添加到目标平台数据库,通过爬虫程序对通过授权的目标档案数据库进行档案信息资源数据抓取,这一步数据处理流程会出现很多无用的档案信息资源数据进入平台。

    其次是数据清洗/预处理。这一步是要把进入到平台的数据进行简单处理,过滤掉没有价值的档案信息数据。

    最后是对档案信息数据进行加工处理并对档案信息数据进行展现。这一步主要是将数据处理成利于平台理解的数据形式,并通过合适的UI对外进行展示,以便于对档案信息资源更直观地理解。

    平台数据处理的总体流程图如图2所示:

    3 平台数据处理的实现

    档案信息资源共享平台在数据处理流程的实现上主要包括以下几个模块:平台档案信息检索模块、平台日志与分析模块、平台数据存储与分析模块、可视化模块以及对外开放式服务。

    3.1 平台数据采集。档案信息资源数据采集是平台实现的第一个环节。它将通过传统的互联网、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于档案信息数据来源多样,加上平台同时支持移动客户端,平台会产生并发数据访问与操作,因此必须采用专门针对该平台的数据采集方法,主要包括数据库采集、网络数据采集以及日志信息采集。对于数据库采集,目前主流的技术是采用关系型数据库来存储档案信息资源数据;对于网络上的档案信息资源数据采集一般以网络爬虫或网站公开的授权API等方式,从目标档案信息网站上获取档案信息数据,这种方案得到的档案信息数据一般是非结构化的或者半结构化的HTML信息,需要通过正则表达式将其中的有效档案信息数据提取出来并以结构化的方式存储到平台所在的服务器;对于档案日志信息数据的采集,可以采用Flume技术,该技术可以用于高效地收集、聚合和移动大量的日志数据,它具有基于流式数据流的简单灵活的架构。

    档案信息资源共享平台在实际的利用过程中,会产生若干用户行为相关的数据,这些数据对于后期平台的优化至关重要,这就需要一个强大的日志分析功能。设计的架构需要能够满足学习日志的收集与分析功能,针对Web环境中的学习环境服务器提供普适的学习分析数据汇聚接口,采用Hadoop Pig进行大规模日志收集与分析。该模块主要包括数据汇聚、分析和报表三大模块,在数据汇聚模块中应用服务器接收来自不同模块的档案信息资源数据,将接收数据过程中以及档案信息资源利用过程中产生的日志信息发送给代理节点,然后通过代理点将日志发送给Hadoop集群进行分析,并将结果存储到HBase数据库,从而为用户提供日志查询与利用服务。平台日志与分析模块的实现如图3所示:

    3.2 平臺数据预处理。通过档案信息资源共享平台采集流程中采集到的数据是不规则的,甚至有部分档案信息数据是无效的。为了获取高质量的档案信息数据,就必须在数据准备阶段提高档案信息数据的质量。在平台的预处理阶段需要将无规则的档案信息数据转化为系统识别的结构化数据类型,有效的档案信息资源数据是后期数据分析的基础。档案信息资源数据预处理主要包括:数据清理、数据集成及数据转换三个方面[5]。数据清理主要包含干扰数据处理与不一致数据处理,对于数据清理可以采用ETL相关的工具,如Informatica、Datastage、OWB、微软DTS等等;数据集成是将来自于不同平台的数据合并存放到一个一致的数据存储库中,这里需要解决档案信息资源数据冗余与冲突的问题,对于数据集成,可以通过建立源档案信息资源数据的集中库,通过百度自然学习语言模块来分析其中的问题点,不断积累知识库的内容以达到根据学习的知识库自动剔除冗余数据与冲突数据;数据转换主要是将档案信息资源数据名称及格式进行统一,同时需要将收集到的信息组合、分割或计算,以便于保证抽取到的数据的一致性。

    3.3 平台数据存储及管理。档案信息资源共享平台需要建立适合平台大数据的管理的数据库,以便于数据的管理与调用,目前常见的数据存储技术有Hadoop与MPP两种[6],Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序,Hadoop适用于海量数据、离线数据和负责数据[7];MPP(Massively Parallel Processor)即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务[8]。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。

    档案信息资源共享平台数据检索模块由三部分组成,首先是档案信息资源数据的存储与统计分析,这是平台实现检索功能的数据基础,这部分采用Hive技术实现,其次是实际检索信息的统计分析与计算,这部分通过MapReduce来实现,最后是HDFS服务实际的数据存储。具体的检索模块实现如图4所示:

    3.4 平台数据分析及挖掘。档案信息资源数据的分析与挖掘主要目的是把收集到的无规律的档案信息数据进行提炼,以找出潜在有用的信息和所研究对象的内在规律的过程。主要从可视化分析、预测性分析、数据质量管理几个方面进行着重分析。对于档案信息资源可视化分析,主要是借助于图形化手段,让需要表现的信息更加清晰,这里可以借助于第三方图标分析插件,进行数据展示,这样可以让平台的数据信息简单明了、清晰直观。对于档案信息的预测性分析,应该是该平台最有价值的功能,包括档案信息资源统计分析、档案信息资源分析、优化、智能学习,通过平台的预测分析可以为平台提供有价值的建议信息;档案信息资源数据质量管理是指对数据从计划、获取、存储、共享、维护、应用到消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高[9]。

    *本文系2016年度教育部人文社会科学研究规划基金项目《大数据时代档案信息资源共享平台构建的研究》(项目编号:16YJA870001)资助。

    参考文献:

    [1]卞咸杰.大数据时代档案信息资源共享平台前端框架的构建[J].档案与建设,2017(10):11-15.

    [2]卞咸杰.大数据时代档案信息资源共享平台性能优化的研究[J].档案管理,2016(6):17-20.

    [3]HA Alzoubi,S Lee,M Rabinovich,O Spatscheck,VDMJacobus.A Practical Architecture for an Anycast CDN[J].AcmTransactions on the Web.2011, 5(4):2209-2220

    [4]王琦.大数据环境下开放信息资源共享平台构建研究[J].信息与电脑(理论版),2018(10):12-13.

    [5]衣连明.云计算在证券行业应用的关键驱动因素研究——基于A证券公司的案例分析[D].北京邮电大学,2012.

    [6]杨璇.海量旅游统计数据可视化的研究与应用[D].武汉邮电科学研究院,2018.

    [7]王永康.Azure云平台对Twitter推文关键字实时大数据分析[J].电脑编程技巧与维护,2015(12):68-72.

    [8]沈滢,张倩.大数据关键技术专利态势研究[J].电信网技术,2017(3):43-49.

    [9]张凯,潘建宏,徐峰,樊家树.数据资产管理与监测技术的处理及分析[J].科技经济导刊,2018,26(7):39-40.

    (作者单位:盐城师范学院 来稿日期:2018-08-20)