网站首页  词典首页

请输入您要查询的论文:

 

标题 高校数据共享中心现状与分析
范文

    钱喆敏 应鑫迪 高焕江 丁浩然

    

    

    

    摘? 要: 数据共享中心是系统间实现数据共享和交换的核心平台。为了提高数据共享中心的效能和稳定性,针对数据共享中心目前的现状与不足,提出以数据交换层、共享数据库、共享数据仓库为模块的数据共享中心架构。分别从任务周期管理、数据质量监控、数据规范建设、数据源头管理、增量同步交换、数据资源目录等六个角度来提升数据交换管理的水平和质量。通过建设一个稳定、高效的数据共享中心,高校内的数据价值将能得到充分的发挥。

    关键词: 数据共享中心; 数据交换层; 共享数据库; 数据仓库; 数据交换管理

    中图分类号:TP311.5? ? ? ? ? 文献标识码:A? ? ? 文章编号:1006-8228(2021)05-130-04

    Analysis of data sharing center in colleges and universities

    Qian Zhemin, Ying Xindi, Gao Huanjiang, Ding Haoran

    (Information Technology Center of Zhejiang University, Hangzhou, Zhejiang 310012, China)

    Abstract: Data sharing center is the core platform for data sharing and exchange between systems. In order to improve the efficiency and stability of data sharing center, aiming at the current situation and shortcomings of data sharing center, a data sharing center architecture with data exchange layer, shared database and shared data warehouse as modules is proposed. The level and quality of data exchange management is promoted by improving the task lifecycle management, data quality monitoring, data standard construction, data source management, incremental synchronous exchange and data resource directory etc. By building a stable and highly efficient data sharing center, the value of data in colleges and universities will be brought into full play.

    Key words: data sharing center; data exchange layer; shared database; data warehouse; data exchange management

    0 引言

    近年来,随着校园信息化的逐步深入,数据在高校中的作用越来越明显。更多全校性数据以基础性查询服务的形式提供出来,在很大程度上提升了高校教学、科研和行政效率。同时,基于海量数据的智慧型应用也在不断推广实践到校园治理中。如何管理和利用好校园数据已经成为高校信息化建设中无法忽视的重要课题。

    在早期数字化发展过程中,各部门大多建立了自己的应用系统,如教务系统、财务系统、人事系统等。这些应用系统很好地满足了当时职能部门对业务开展的迫切需求。但是由于早期缺乏对学校信息化的顶层规划和整体设计,各应用系统独立的垂直型“烟囱式”框架导致了数据只能在系统内流转而无法实现系统间的常态化互通与共享[1]。而信息化不断发展,系统间业务的相互依赖性不断增强,数据交互的场景与需求也越来越多。

    以此为背景,数据共享中心[2]作为媒介平台,其在高校信息化中的作用被凸显出来。数据共享中心以实现高效、稳定和可靠的数据交换与共享为核心,一方面保证了数据在各业务系统间常态化流转与查询,解决高校内“信息孤岛”[3]问题,另一方面也为智慧型数据应用提供了支撑作用。

    1 数据共享中心现状与不足

    在数据共享中心出现前,系统间发生业务交互时,数据只能通过点对点方式来进行通信。这种交互方式在业务系统数量不断增加后,会造成各系统间的耦合度逐渐变大,同时也给开发和运维带来很大负担。

    通过引入数据共享中心作为第三方平台,所有的业务数据全部基于明确的数据标准和接口规范在该平台中进行采集和推送。如图1所示,该模式有效地降低了异构业务系统间数据交互的复杂度。此外,数据共享中心可以通过统一的安全管理策略来避免因各系统间松散且无标准的点对点交互所产生的数据安全隐患问题。

    以此为背景,数据共享中心在高校范围内被广泛应用。然而,该平台在应用过程中依然暴露出一些问题。

    ⑴ 数据交换任务不稳定。采集和推送任務因为资源不足或数据异常发生中断,出现数据缺失或不同步问题。

    ⑵ 数据质量问题不达标。数据源头常出现不满足规范的问题数据,造成数据质量的低下从而严重限制了平台对外进行数据服务的水平。

    ⑶ 数据标准执行不规范。问题主要包括两方面:①数据标准制定后未被严格执行;②数据标准变更后在业务系统和数据共享中心间未及时同步。

    ⑷ 数据源头管理不到位。单源头数据选取不合理造成共享库数据不权威、多源头数据采集混乱造成共享库数据发生震荡等现象的根本原因都是由该问题造成。

    ⑸ 数据同步方式单一化。目前,数据同步任务以全量同步来为主。该交换方式实现简单,但任务耗时过长且占用大量平台和网络资源。

    ⑹ 数据资源目录缺失化。数据资源目录的缺失造成了平台内资源管理松散,同时也使得平台对外暴露资源的能力不足。

    2 数据共享中心架构

    本章首先阐述了数据共享中心在高校信息化建设框架中的位置与角色,然后对该平台内的数据交换层、共享数据库和数据仓库[4]等模块进行自下而上的介绍。

    2.1 高校信息化建设框架

    图2展示了业务系统、数据共享中心、数据应用在高校信息化架构中的相对位置。从中可以发现,数据共享中心在全校性数据流转和服务中起核心作用。

    向下,数据共享中心承接了与各业务系统数据对接的功能。业务系统即高校各职能部门自建的应用系统,包括教务系统、财务系统、科研系统、人事系统、设备系统、校园卡系统、网络系统等。业务系统是数据共享中心的数据来源,同样也是其数据交换的主要服务对象。数据共享中心对各系统内数据进行采集,并将其经过标准化处理后向上推送。

    向上,数据共享中心为数据应用提供支撑作用。数据应用主要包括数据基础服务和数据分析挖掘两大类。数据基础服务,依赖于平台内标准化数据,向全校师生提供综合服务,包括统一身份认证[5]、个人数字档案[6]、信息综合查询、业务协同办公等;数据分析挖掘应用如校情分析决策、群体行为分析、流量分析预测、师生个性化服务等,则基于平台内海量相关性数据进行数据挖掘。数据应用依赖的关联性數据往往来源于多个维度、多个领域。传统单一业务系统中的数据无法支持该类应用。而数据共享中心通过对多业务系统数据的采集和聚合可以很好地解决数据应用对多维度、多领域的数据需求。

    2.2 数据共享中心建设方案

    数据共享中心由数据交换层、共享数据库和共享数据仓库等三大模块组成,如图3所示。

    数据交换层 该模块作为共享数据库与业务系统间数据双向互通的桥梁,在数据流方向上主要分为数据上行流程与数据下行流程。

    数据上行流程指源数据从业务系统中通过数据抽取[7]、数据清洗[8]、数据转换、数据入库等流程最后存储至共享数据库的过程。数据抽取是指数据通过定时请求同步或变更消息监听等方式被采集至数据中间库的过程。定时请求同步可通过基于XML和Web-service[9]技术来实现对数据的周期性采集。变更消息监听则利用了消息队列服务对数据变更消息进行实时监听并写入数据中间库。数据中间库的存在使得数据抽取过程与数据清洗和转换完全解耦,降低ETL过程复杂性。数据清洗将数据中间库中数据先后通过空值校验、正确性和重复性验证、格式匹配等规则进行过滤。数据转换根据数据标准(包括国标、行标和校标)将来源于不同系统、基于不同标准的数据进行转换。在完成数据清洗和转换后,数据最终加载到共享数据库中。

    数据下行流程指数据从共享数据库下发至业务系统的过程。一般地,数据可通过数据访问接口或订阅消息推送等方式进行下发。数据访问接口由业务系统主动发起远程过程调用。该方式实现简单,但当共享库中数据发生变更时,业务系统无法及时感知而造成数据时效性低下。而订阅消息推送利用消息中间件服务将数据变更消息推送至业务系统。该方式可使得数据同步时效性更强,但相应的复杂度也更高。

    此外,数据交换层还包括了平台系统管理与数据交换管理。平台系统管理从系统运维管理、平台安全管理、角色权限管理、消息队列管理等方面提升系统平台的安全性与稳定性。

    数据交换管理包括数据标准管理、数据源头管理、数据质量监控、作业状态监控、作业调度管理、数据资源目录、数据访问管理、接口状态监控等,致力于提高数据交换任务的稳定,保障数据采集质量,提升数据服务水平。

    共享数据库 该模块面向事务设计,以操作性数据库为基础,承载来自各业务系统的核心数据,遵循统一的数据标准,结合元数据管理手段实现数据的高效管理。该库以业务类型进行数据划分,包括教务库、财务库、科研库等。区别于数据的简单集中,该库忽略原业务系统中非必要和边缘化数据,只筛选存储了需要实现共享的核心数据,且对数据完成标准化处理。各业务系统在请求跨系统数据时均通过数据交换层中的数据访问接口或订阅消息推送进程实现对共享数据库的数据读取,因此共享数据库在数据管理上具有权威性和唯一性。

    共享数据仓库 该模块是面向主题设计的。区别于共享数据库,数据以主题库形式在共享数据仓库中通过数据建模完成分类聚集。同一主题内数据具有强相关性和高聚合度,着重提升平台数据分析能力。数据根据相关性被构建到同一个业务主题中,以此形成对同一对象的多维度数据描述。以“学生主题”为例的人员主题库将所有与学生学号相关联的核心数据聚合集中到同一个库中,如学生基本信息、课程信息、成绩信息、消费信息等。这样的聚合数据一方面可以快速实现学生综合信息查询,另一方面可以实现多维度的学生个体分析。共享数据仓库的建立,将有效提高全校性数据综合查询水平,并可为数据分析挖掘服务提供支撑作用。

    3 数据交换管理优化

    数据交换是数据共享中心中的核心功能。因此,本章提出针对数据交换层中数据交换管理的优化措施,来解决数据共享中心中存在的问题。

    ⑴ 加强数据交换任务生命周期管理,提升任务稳定性。通过作业调度管理加强对交换任务的调度编排管理,包括在任务优先级、任务执行周期、任务关系依赖等方面实现可配置化管理。同时实现对任务全周期的作业状态监控。对任务当前流程节点和作业状态的监控可以在异常发生时实现对问题的快速定位与管控。

    ⑵ 以数据质量监控为手段形成闭环的数据维护模式。依据数据质量监控手段将数据清洗和转换过程中过滤出的问题数据以线上流程的方式反馈至数据源头部门进行人工处理(修订或删除)后再提交,实现在业务系统和数据共享中心之间形成闭环且常态化的数据维护模式,有效解决数据质量问题。

    ⑶ 以数据规范为基础,结合技术手段加强数据标准的严格执行。通过制定和发布权威的数据标准规范,建立数据“谁生产谁负责”的原则,由业务部门负责维护和更新系统内数据编码规则以及与数据标准间的转换映射关系。结合技术手段建立全校性统一的数据规范维护更新入口,保证数据负责人对数据规范的维护和更新实现流程化、常态化、简单化。

    ⑷ 严格控制数据共享中心中数据源头的单一来源,以保证数据的权威性和正确性。以学校人事基本数据为例,人员基础信息普遍存在于各职能部门的系统数据之中,而将人事处数据作为该类数据的唯一权威数据来源可以有效避免同业务类型数据从不同业务系统中被采集到数据共享中心后产生潜在的歧义性。

    ⑸ 实现数据增量同步,提升平台内交换任务的执行效率。改造业务系统数据库,增加时间戳字段记录数据变更时间是实现增量同步的有效手段。此外利用消息中间件技术来监听数据变更情况也可以实现快速的增量同步。增量数据同步方式提升数据交换效率的同时,也對业务系统和数据共享中心间的系统协同性提出了更高要求。

    ⑹ 建设数据资源目录,以目录化方式管理和展现全校性数据资源。通过数据资源目录的建设可以使得松散化的数据资源具有更好的条理性和组织性,一方面有利于提升管理员对数据资源的管理能力和效率,另一方面将数据资源以目录化形式对外展现,可以进一步推广和应用全校性共享数据。

    4 结束语

    数据共享中心是高校信息化中的核心工程,能够起到消除高校信息化孤岛、实现系统间数据共享的重要作用,同时也有助于实现校园智慧型数据应用的快速发展。本文分析了数据共享中心的现状与不足,描述了该平台在高校信息化业务架构中的位置与角色,并从数据交换层、共享数据库、共享数据仓库等三个模块介绍了数据共享中心的建设方案。提出了数据共享中心中数据交换管理的优化措施和建设方案,旨在提升数据共享中心的稳定性、可靠性和高效性。

    参考文献(References):

    [1] 刘宝妹,陈美玲,白兴瑞.智慧校园共享数据中心建设研究[J].中国教育信息化,2020.7:70-73

    [2] 许鑫,苏新宁,吴乃冈.高校共享数据中心平台的设计与实现[J].现代图书情报技术,2005.6:48-53

    [3] 李希明,土丽艳,金科.从信息孤岛的形成谈数字资源整合的作用[J].图书馆论坛,2003.6:121-122,61

    [4] 胡侃,夏绍玮.基于大型数据仓库的数据采掘:研究综述[J].软件学报,1998.1:3-5

    [5] 常潘,沈富可.基于LDAP的校园网统一身份认证的实现[J].计算机工程,2007.5:281-282,285

    [6] 周耀林,赵跃.基于个人云存储服务的数字存档策略研究[J].图书馆建设,2014.6:21-24,30

    [7] 徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011.38(4):15-20

    [8] 郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002.11:2076-2082

    [9] 尹兆冰,王加阳.Web Service及其关键技术研究综述[J].软件导刊,2010.9(2):121-123

    [10] 李艳春,李新,焦文彬.分布式信息系统中数据交换平台设计与实现[J].计算机工程与设计,2012.33(7):2640-2645

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/15 8:51:53