高校图书馆数据交换平台的设计及应用研究

    盛铨

    

    

    

    摘要:随着高校图书馆智慧化建设加速推进,业务系统不断增加,系统间数据交换需求越来越大。该文从高校图书馆智慧化过程中所出现的问题出发,提出建立一个适合高校图书馆的数据交换平台,并从系统的架构、关键技术以及应用三个方面进行探讨。

    关键词:数据交换平台;高校图书馆;大数据;信息化

    中图分类号:G258.6? ? ? 文献标识码:A

    文章编号:1009-3044(2021)17-0082-03

    开放科学(资源服务)标识码(OSID):

    1 背景

    随着高校信息化建设的不断发展,应用信息化的逐步深入,图书馆各业务部门分期分批建设了不同的业务系统,不同业务系统之中数据标准不统一,数据部门一定程度上存在异构数据,导致各系统的数据流转不够通畅,产生信息孤岛问题[1]。如何能将数据方便高效地开放出去,是学校信息化一直想要解决的难题,也是打造智慧图书馆的基础。

    2 图书馆智慧化过程中所存在的问题。

    当前高校图书馆在建设智慧图书馆的过程中,在引进先进的设备的同时,建立了各类信息化系统。但随着智慧化的不断深入和数据挖掘技术的普及,一些原本容易被忽视的问题逐渐暴露出来,主要表现在:

    数据缺乏共享。当今智慧图书馆建设的大背景下,全面、规范地获取馆内信息数据用于大数据分析,是提供个性化管理及服务的基础。而图书馆内部存在众多的信息管理系统,如图书管理系统、电子资源管理系统、座位预约系统、研讨室预约系统,门禁管理系统等,各系统的数据割据,形成多个信息孤岛,数据不能共享,严重阻碍了图书馆智慧化进程。

    数据安全无法保证[2]。图书馆各系统之间的数据交换对接,一般采取各系统提供厂家之间提供接口或者开放数据库的方式,中间过程图书馆无法管理和监督,一旦发生数据丢失或信息泄露,各厂家之间相互推诿无法溯源,存在相当大的安全隐患。

    数据质量不高。图书馆前期信息系统建设主要以功能建设为主,缺乏数据标准整体规划的意识,随着时间的增长以及信息系统数量的不断增加,问题数据不断沉积,导致报表及统计数据的真实性无法保证,最终影响了决策分析的正确性。

    数据管理缺乏审计,责任不清晰。

    在此背景下,高校图书馆制定统一的数据标准、实现馆内基本业务系统数据、各类智能化机器数据及学校相关信息数据的高度融合,建设统一的数据交换平台势在必行。

    3 数据交换平台的架构设计

    本系统为各个业务系统数据交换提供简单的接入方式,从原来的多头接入改为单线接入,只需与数据交换平台交互即可,无须处理多种数据源的差异性。很大程度上减小业务系统在数据交换服务上的开发压力,并为数据追踪,明确系统亲疏关系,及数据使用情况实施监控成为可能。平台依托于现有的校园网络,通过对馆内和学校各相关业务系统的基础及业务数据的抽取、清洗以及订阅发布以实现各系统之间的数据交换,避免其各自之间的频繁交换,实现信息共享。同时,该平台为所有共享交换的数据保留缓存,为大数据分析提供基础数据。

    本馆数据平台整体架构如图1所示。

    如图1所示,我院图书馆数据交换平台的整体架构由四层平台组成,分别是作为数据来源和目标的信息系统,共享交换中心,中心数据库和数据管理中心。

    3.1 信息系统(数据来源以及目标)

    该层由图书馆以及学校各信息系统构成,既是数据交换的数據源,同时也是数据交换的目标群体。这些系统在实际使用的过程中,积累了与图书馆相关的各种业务数据,如人事系统中的教职工数据、教务系统中的学生数据、图书管理系统中的馆藏数据和借还数据、门禁管理系统中的出入馆数据等。这些系统既是某些其他系统的数据来源,同时本身也是其他系统的数据推送目标。比如,图书管理系统中的读者分别来自人事系统和教务系统中的教职工和学生数据,而教务系统的任课老师信息,则来源于人事系统。

    3.2 共享交换中心

    共享交换中心主要提供数据集成、数据质量监控以及数据共享发布三个服务。

    数据集成包含对数据的接入、清洗加工,能自动采集各数据源的元数据,对元数据进行管理,同时进行可视化的采集调度和监控。

    数据质量监控室在数据从源数据库流向中心数据库的过程中,对数据质量和内容进行监控,确保数据的唯一性和正确性,同时形成数据质量报告和数据质量告警。

    数据共享发布则主要通过数据发布服务和API接口的形式向数据使用者提供数据。

    3.3 中心数据库

    中心数据库分为基础数据库、业务数据库和决策数据库三个部分。基础数据库存放图书馆以及学校各个业务系统的用于交换的共享数据,如图书管理系统的馆藏书目数据,教务系统的学生数据和人事系统的教职工数据等。业务数据库用于存放各个业务系统产生的业务数据,如图书系统的借阅数据,门禁系统进出馆数据,电子资源系统的检索下载数据,教务系统学生上课考试数据等等。决策数据库则根据基础数据、业务数据以及日志数据等,按照具体需求对数据进行挖掘和大数据分析,为领导层提供决策支持。

    3.4 管理中心

    管理中心主要通过数据服务管理和资源目录管理的形式对共享交换中心和中心数据库进行统一的管理。

    4 数据交换平台的关键技术

    4.1 系统的技术架构

    交换平台以J2EE为底层支持,使用高可用性中间件MyCat实现数据库集群,通过dubbo、DataX、QuartZ分别实现了通信、数据交换以及调度服务。系统技术架构图如下图2。

    4.2 数据发布服务

    数据使用者订阅数据,在管理员审批授权后,系统根据订阅信息在共享数据中心提取数据,按订阅格式生成文件并将数据文件放置在安全的SFTP服务器,供订阅人下载。该模式适合于数据量较大且数据实时性要求不太高的情况,采用DataX组件实现。

    DataX作为中间载体连接各种异构数据源[3],用星型同步链路代替了复杂的网状同步链路,当有新的数据源需要和原有数据源做同步的时候,只需要将其接入DataX,便能做到无缝对接。

    4.3 API接口

    共享数据中心为所有的主题库数据提供统一的API接口,管理员可以为申请用户设置访问权限和数据域权限,取得API授权后,数据使用者便可以调用数据接口获取数据服务,同时系统将自动记录接口调用情况,形成接口调用情况分析表。该模式适合于数据量不太大且实时性要求较高的情况,采用Dubbo组件实现。

    本系统API数据服务封装了Alibaba开源的分布式服务框架Dubbo,整体架构如图3。

    近年来随着互联网的飞速发展,垂直应用架构已越来越无法适应呈指数级增长的网站应用,Dubbo作为一个分布式服务框架,提供了高性能、透明化的远程服务调用方案和SOA服务治理方案[4],主要包含以下几个方面的功能:

    1)远程方法调用。通过简单的配置,就能做到如同本地调用般调用远程方法,从而避免了API侵入。

    2)负载均衡:在内网环境下,用软件负载均衡替代硬件负载均衡器,大大降低了使用成本。

    3)服务自动注册,注册中心基于接口名查询服务提供者的IP地址,无须固定写入服务提供方地址。

    4.4 数据库集群MyCat

    MyCat将一个数据库的数据分散到不同的数据库中存储,用来解决关系型数据库海量存储的问题,显著提高查询性能。

    4.5 sftp服务器

    安全 FTP 服务器(sftp服务器),通过 SSH 等安全文件传输协议传输文件,sftp用户只能访问经过访问授权的专属目录实现上传和下载功能。实现了在不安全的网络环境下传输机密文件。

    5 数据交换平台在高校图书馆的应用

    5.1 实现高校图书馆用户数据的实时更新

    高校图书馆与公共图书馆用户数据的生成方式有着本质的不同,公共图书馆的用户信息完全由图书管理系统生成和维护,用户的增加、注销、信息修改等都是第一时间通过该系统完成,确保了图书馆用户数据的实时性和有效性。而高校图书馆的用户数据主要有两个来源:产生教职工数据的人事系统和产生学生数据的教务系统。通常图书管理系统中的数据都是新生入学之后由图书馆工作人员一次手工导入,在教务和人事系统用户信息发生变更时,不能第一时间对读者信息进行更新,甚至从来不更新,久而久之造成大量错误用户数据堆积,影响图书馆数据报表和数据分析的准确性。有的高校图书馆通过系统对接的方式分别从这两个系统同步数据,一定程度上缓解了手工导入的时效性和准确性问题,但出现了稳定性的问题。不同厂家之间数据标准和接口不一致,每个接口都是个性化定制,缺乏统一标准[5],出现问题相互推诿,造成维护成本高,解决问题效率低下。我院图书馆通过数据交换中心将人事系统、教务系统的人员数据交换给图书馆各个信息系统,规范统一了每个系统的人员信息,从根本上解决了用户数据的准确性和实效性问题,极大提高了各系统的数据质量。

    5.2 为图书馆智慧化推荐提供多样化的数据支持

    大数据技术的发展为图书馆的智慧化和信息化带来了新的机遇与挑战,智慧化推荐作为智慧图书馆的重要组成部分,需要全方位多角度的用户行为信息。图书馆的业务范围过小的缺点导致其数据来源相对单一,大部分图书馆的用户画像只能通过历史借阅记录、检索记录等业务数据分析產生,由于数据标准不统一,接口质量参差不齐等问题,电子资源系统、门禁系统所产生的行为日志,往往处于“数据孤岛”的状态。对于很少去图书馆或者很少有借阅或者检索行为的读者,更是因为没有数据或者数据过少而无法对其行为特征进行挖掘。对于高校图书馆而言,读者的行为数据广泛存在于教务系统、人事系统、一卡通系统、公寓管理系统等所有的信息化系统中,如课程安排、考试成绩、生活消费,起居饮食等,涵盖了读者日常行为的方方面面。如何收集整合并利用其产生精准的用户行为画像用于个性化推荐,是高校图书馆亟需解决的问题。以往通过接口的方式对接每一个系统不仅成本高昂稳定性差,效率也极其低下。通过数据库读取的方式又会碰到数据标准不统一,安全责任归属不清的问题。数据交换平台为图书馆提供一个集成的数据中心,它把图书馆以及学校所有重要的业务数据抽取到中心数据库中,清洗转换后推送至大数据分析平台,减少了重复性的数据收集和对接工作,避免了厂商之间直接访问对方数据库所产生的安全隐患和责任归属问题。经过对这些数据的挖掘分析,图书馆便能获得更加精准的用户画像,从而向读者提供更加智慧化、个性化的推荐。

    6 结束语

    本文从高校图书馆的数据交换需求出发,以建设智慧图书馆为目的,设计并建设了一套适合高校图书馆的数据交换平台,详细介绍了系统的整体架构以及所使用的关键技术,极大改善了在图书馆智慧化信息化过程中出现的数据分散、集成困难等问题,为实现智慧图书馆提供了可行的方案。但是,高校智慧图书馆建设是一个需要不断学习、积累的过程,目前仍在积极探索阶段,还需要后续不断研究与实践。

    参考文献:

    [1] 贺志强,宋衍,高越.教育资源元数据规范标准及支撑平台的设计研究[J].现代教育技术,2010,20(2):109-111.

    [2] 刁宇.基于数字化校园的数据交换平台的研究与实现[D].长春:东北师范大学.

    [3] 梁丽琴,郑少明,郑汉军,等.利用大数据技术进行海量数据治理[J].网络安全技术与应用,2018(11):51,56.

    [4] 周永圣,孙雯,侯峰裕,等.车险中介云平台的费用管理系统的设计与实现[J].微型电脑应用,2020,36(2):86-89.

    [5] 张晓慧.大数据时代教育数据治理探索[J].绍兴文理学院学报(自然科学),2021,41(1):56-60.

    【通联编辑:谢媛媛】