基于Hadoop系统的数字档案资源集成平台构建及实现

    云雅+黄东霞+张泉海

    

    

    摘要:本文针对现有资源平台的不足,结合信息技术的最新发展,引入分布式技术,设计了基于Hadoop系统的数字档案资源整合集成平台模式,并对该模式进行研究。

    关键词:集成平台服务模式分布式技术

    目前,国家正在大力推进档案资源网络化,要求充分利用已有的信息传输网络,实现资源共享。[1]传统的数据管理方式易导致信息分散保存、重复保存、收集困难、检索困难、移交困难和协作脱节等问题,不利于档案资源多领域的共享与利用,在这种情况下,亟需改变落后的数据管理方式,提升效率,实现数据的现代化管理。

    一、我国数字档案资源整合集成模式的现状

    所谓数字档案资源指的是国家数字信息资源的核心资源,包括电子档案、传统载体档案数字化副本、元数据、系统数据以及其他需要长期保存的数字信息等,其具有凭证、记忆、身份认同、社区能力构建等多元价值属性。通过对海量数字档案数据的收集、分析、处理和利用,能够更好地应对社会的发展。既有的档案数字资源如果能够通过某一平台得到整合与集中,那么数字档案资源利用将得到极大的发挥,档案服务民生的作用也将得到进一步体现。可以说,对数字档案资源整合集成模式的研究,就是提升档案资源服务能力的有效手段。

    目前,我国有多种数字档案资源整合集成模式。例如,基于档案网站的数字档案资源整合模式、电子政务环境下的档案资源整合与共享模式。此外,还有交互式数字档案服务模式[1]和云计算环境下的档案信息资源整合与服务模式等。[2]代表性案例是湖北省宜都市档案局的档案资源建设与服务联动模式。[3]近年来,湖北省宜都市档案局以“档案服务民生”为联结点,[4]依托档案馆平台及政府门户网站、档案信息网站和农村党员远程教育网站等平台提供民生档案服务,形成档案资源建设与服务联动模式。在档案管理整合层面上,提出基础设施层、数据整合处理层、業务应用层和公共服务层等四层档案信息资源管理模式,从不同层面上对数字档案管理方式进行整合。在档案资源内容整合层面,通过“支撑云”“业务云”“公共云”三大平台,为云计算平台提供不同层级的档案资源服务。这些模式虽然减少或避免了数字档案资源建设与服务中孤立化、片面化的现象,但是对于海量数据而言,这些模式仍受到一定的制约。

    二、基于Hadoop系统的数字档案资源集成平台的构建及实现

    Hadoop是一种对大规模数据进行分布式处理的系统,该系统建立在网络空间上,能够即时了解用户对档案资源利用的反馈信息,使用户在一个标准的分布式环境里随时使用所有资源和系统,形成良好的双向互动模式。Hadoop系统作为一个适合大数据的分布式存储和计算的平台,不仅能够将不同来源和格式的分布式异构数据集成在一个平台上,而且能够准确地存储档案数据,避免了检索困难、重复存档和无用存档的现象。特别是该系统极大地弥补了数字档案资源整合集成模式的缺陷。在Hadoop出现之前,高性能计算和网格计算一直是处理大数据问题的主要工具,当它需要访问PB级别的数据时,由于储存设备网络宽带的限制,很多集群计算节点处于闲置状态。针对这种数字档案资源整合与服务过程中存在的不足,Hadoop系统能够将该应用分解成许多小的部分,分配给多台计算机进行处理。通过分布式计算,能够使其在节点之间动态地移动数据,并保证各个节点的动态平衡。同时,采用并行执行机制,将一个应用程序分解为许多并行计算指令,极大地提高了数字档案资源的访问速度。

    近年来,Hadoop系统已经应用在科研、教育、天气预报分析、数据库搜索、生物技术、智能交通、水火电力、大地测量、数据资源管理与服务等诸多领域。美国加州大学伯克利分校建立的开放式网络计算平台,就能够将不同的分布式计算项目连接起来,对参与这些项目的计算资源进行统一合理分配,扩展了相关科研、教学、综合档案管理等综合数字资源的有效整合。综上,Hadoop系统在理论和实践领域都已经有相当成熟的应用,完全可以为数字档案资源整合集成提供新的思路。

    (一)基于Hadoop系统的数字档案资源集成平台的构建

    本文利用Hadoop系统[5][6][7]的方法原理,设计出分布式数据库模型,并将部分成果用于笔者所在单位,以便实现数字档案资源的共享。笔者所在单位各职能部门均有不同的数字资源平台,这些独立平台的数字资源各自为政的现象较为严重,严重限制了资源的共享。例如,档案馆的“琼兰系统”平台,虽然能够较为精确地查询到馆内所有纸质文件和实体档案,但是无法满足海量数据的搜索。党政部门的“电子政务”平台虽然方便了校内局域网电子文档的接收,但是由于没有关键词搜索功能而无法即时同步输送文件。教务部门的“青果系统”平台虽然能够安排课程、统算教师学时数以及报送、分析成绩,但是存储授课和成绩方面的数据资源却非常有限。医学教育研究所的“高校研究项目全程管理”平台,也仅仅能够远程申报网络教学科研课题立项,无法与其他数据互通。针对上述情况,笔者利用Hadoop系统的优势,整合集成所在单位不同的数字档案资源,构建一种基于Hadoop系统的集成平台模式,并对其构建与应用进行探索。

    根据Hadoop系统能够存储海量档案数据的特点,依据分布式计算技术,我们采用并行执行机制,设计“垂直分布+水平分布”的分布式档案数据库模型,模拟构建“垂直分布+水平分布”的分布式数据库系统。同时,使用链接服务器和存储过程相结合的方法,将用户提交的全局操作转变为对多个场地的垂直分片表的局部操作。体现在实际操作层面就是笔者所在单位将现有的“青果系统”、电子政务系统、高校研究项目管理平台及“琼兰档案”等独立平台,整合到一个集成平台上。该平台采用传统的客户端-服务端构架,服务端部署于计算项目方的服务器上,客户端部署于用户的计算机中,两者之间通过标准的互联网协议进行通讯。也就是说,该平台并不对各系统的计算项目提供服务器硬件及数据资源更改,具体计算项目的服务器仍是项目方自行提供的。为在实际操作中能够较好地保证数据的一致性,形成统一的存储和服务系统,该平台还将预编译好的SQL语句集存储在服务器上,使用存储过程中将多个场地的垂直分片表的操作放在一个分布事务内。如图1所示。

    (二)基于Hadoop系统的数字档案资源集成平台的实现

    在集成平台初步搭建的基础上,我们对原平台进行优化设计,形成了高校档案数据库平台模型。如图2所示。

    利用笔者所在单位现有各异构平台的数据资源,通过获取、提炼、集成,进行统一的数据采集,完成基本数据源的建设。例如,获取“青果系统”“教师管理信息系统”等各独立平台中有用的基础档案数据。同时,对各类数字化档案、师生档案、科研成果档案进行整合,形成框架式集成平台。然后,通过融合各异构平台的资源数据,利用Hadoop系统对数据进行整合、分析并提供便捷的应用服务。例如,“青果系统”中含有成绩系统、课表编排系统、学生管理系统多个系统的数据参数,通过对数据的生产分析处理,将分散的数据进行信息化和知识化加工,去除冗余数据,保留“青果系统”平台的有用资源。由于集成平台上收集有“教师管理信息系统”,故在使用平台上“青果系统”数据资源的同时,还可以調用和查看“教师管理信息系统”中授课教师的所有相关信息。

    该系统对存储的数据进行整合,形成相互链接关系,并输出到服务应用平台上。分散数据经加工处理整合后输入关键词,系统会自动搜索各异构平台中相关数据,对数字化档案、在线文件、特色档案、师生档案、编研成果经过分布式计算、识别数据、在线报送、接收、储存、查询、利用、统计等步骤,按照时间、类目自动生成图像文件,数据互通后形成,同时将结果输出到集成平台上,即高校档案公共平台和高校档案移动APP,最终实现服务整合,满足用户共享需求。

    *本文为2016年海南省哲学社会科学规划课题“基于分布式系统的档案资源集成平台模式研究”[项目编号:HNSK(ZC)16-47]的成果之一。

    注释及参考文献:

    [1]梁孟华.Web2.0形态下面向用户的交互式数字档案服务研究[J].档案学通讯,2013(6):65-69.

    [2]牛力,韩小汀.云计算环境下的档案信息资源整合与服务模式研究[J].档案学研究,2013(5):26-29.

    [3]周耀林,赵跃.档案资源建设与服务联动模式探析[J].档案学通讯,2015(5):51-57.

    [4]袁作军.宜都现象——湖北省宜都市档案服务民生调查[J].中国档案,2014(3):36-37.

    [5]王平,安亚翔.大数据时代的档案信息平台建设[J].档案与建设,2015(10):8-13.

    [6]Tom Wbite. Hadoop权威指南(第2版)[M].北京:清华大学出版社,2011:1-156.

    [7]蔡斌,陈湘萍.Hadoop技术内幕:深入解析Ha? doop Common和HDFS架构设计与实现原理[M].北京:机械工业出版社,2013:34-121.

相关文章!
  • 新时期合格的企业政工师核心探

    朱建军 涂明霞中图分类号:D641 文献标识:A 文章编号:1674-1145(2019)4-082-01摘 要 在社会经济的不断建设与发展过程中,我国社会主义

  • 真正的领导

    李金鹏山上有很多猴子,很多游客慕名而来,想看看什么叫“猴急屁股红”。游客经常给猴子喂东西吃,如果猴子配合游客,做几个规定动作与自选

  • 英才教育:毕业拿高薪 代理赚大

    正月初六,来自黑龙江、河南、广西等地的读者就赶到了英才教育,考察并签约。春节期间,英才教育一直没有休息,考察签约的投资者、打算为孩子