大数据背景下高职院校数据治理体系的构建与实践

    姜大庆 陈莉莉 史海雄

    

    摘要:高職院校信息化建设积累了大量的数据资产,但数据质量也成为高职院校信息化发展的瓶颈,需要建立面向全校的数据治理体系以有效地提升数据质量。本文在分析DAMA数据治理框架、桑尼尔·索雷斯大数据治理框架和我国制定的《数据治理白皮书》国际标准研究报告的基础上,结合高职院校的特点,从数据治理的管理和技术两大核心要素出发,提出了一种基于大数据的高职院校数据治理框架体系,并对该体系主要内容及实施方法进行了详细阐述,希望能为高职院校数据治理的实践提供思路。

    关键词:高职院校;大数据;数据治理;数据治理体系

    中图分类号:G647? 文献标识码:A? 论文编号:1674-2117(2020)02-0108-05

    ● 引言

    经过十多年的信息化建设,很多高职院校积累了大量的与人才培养活动相关的数据,在移动互联网和云计算等信息技术飞速发展和广泛应用的当下,这些数据也表现出明显的大数据特征。但是,由于高职院校办学规模小,人员缺乏,技术力量相对薄弱[1],管理规范性不强,许多高职院校存在数据采集困难,数据错误、缺失、重复、不规范、审核困难、共享难度大等诸多问题,这些问题对高职院校开展教学诊断与改进、质量评估、绩效考核等工作影响很大。因此,笔者认为,有必要通过数据治理活动保证数据的准确性、一致性、可访问性和合规性,为学校师生提供更好的数据服务。

    国内外院校及学者在数据治理领域开展了许多研究与实践。美国麻省理工学院1991年提出了全面数据质量管理计划,包括数据质量的定义、分析和提升三大模块,其目标是向用户提供高质量的信息产品[2];美国圣母大学提出的数据治理模型对数据治理的目的、技术和原则进行了描述[3];李林[4]等根据高等学校的特点提出数据治理的模型、实施方法和步骤;彭雪涛[5]提出美国高校数据治理的成功实践基于数据治理保障机制和数据治理技术工具两个核心要素;赵安新[6]从数据融合的视角探讨了高校数据融合的路径及其治理框架。可以看出,国内外学者从不同层面和不同角度,结合技术实践和管理创新提出了高校范围内的数据治理思路,但针对高职院校信息化建设过程中数据治理体系建设的研究很少。因此,本文在分析研究国内外数据治理框架和模型的基础上,结合高职院校的特点,提出大数据背景下高职院校数据治理框架体系,以期为高职院校数据治理的研究和实践提供参考。

    ● 数据治理框架体系研究现状

    国内外的研究机构和个人提出了一些数据治理框架。比较有名的是国际数据管理协会(DAMA)提出的DAMA数据治理框架,该框架包括环境要素子框架和功能子框架两部分,它阐明了数据管理过程中的7个环境要素与10个功能之间的对应关系,但该框架所提出的数据管理10个功能尚不能全面概括数据管理功能[7],特别是当前大数据技术的发展和应用所要求的大数据管理功能等。

    我国于2015年在《数据治理白皮书》国际标准研究报告中提出了数据治理模型和框架。该模型由范围子框架、原则子框架、实施和评估子框架三个方面组成,分别描述了数据治理的治理域、治理准则和实施方法。范围子框架定义了数据治理的范围和任务,包括主数据、大数据等九个关键域;原则子框架阐明了数据治理应遵守的规则,包括战略一致等三个方面;实施和评估子框架阐述了数据治理的实施方法,包括实施生命周期等四个方面。[8]该数据治理模型和框架对高职院校数据治理框架体系的建立具有很强的指导意义。

    在大数据治理领域,桑尼尔·索雷斯提出的大数据治理框架具有较强的借鉴意义[9],该框架面向各类不同的大数据使用场景,从产业场景、大数据类型和信息治理准则等三个方面提出大数据治理内容。[10]对于高职院校来说,与此框架相对应的产业功能场景为公共事业,大数据类别覆盖全部,即大体量的一卡通消费数据,宿舍管理、班级考勤等M2M数据,在线学习网站上的学习行为数据以及课程、成绩等人工生成的数据;信息治理包括组织、元数据、数据质量等内容。因此,该理论体系对高职院校数据治理体系研究工作具有借鉴和参考价值。

    上述数据治理的通用框架为高职院校建立各自的数据治理框架提供了思路,高职院校可以根据自身信息化建设的规模、阶段、需求等,制订个性化的治理框架体系,更好地把控数据质量,提升数据的应用价值。

    ● 高职院校数据治理体系的构建与实践

    1.高职院校数据管理方面存在的问题

    根据对高职院校信息化建设现状的调查,目前许多高职院校在数据管理方面存在以下问题。

    ①信息系统由各业务部门牵头分散建设,缺乏统一的数据规划和数据标准。例如,学生数据、人事数据、科研数据、资产数据等,被分散存储在不同的信息系统中,数据关联性弱,导致出现数据不一致、重复、不规范、无法共享等问题。

    ②数据管理职责不健全,权责不明确。高职院校信息系统管理职能往往分散在各部门,而各部门关注数据的角度不一样,信息技术部门关注对信息系统的运行管理和维护,而业务部门则只关注业务管理范围内的数据,跨部门的数据质量沟通机制尚不完善,缺少一个部门或机构从全校的视角对数据的质量进行监督和控制。

    ③学校主数据质量不高。由于学校信息化和管理业务没有充分融合,核心的实体数据(如学生、教师、资产、设备等)不是通过统一的业务管理流程在系统间维护,无法保障主数据在整个业务范围内保持一致、完整和共享使用。

    ④数据全生命周期管理缺失。多数高职院校对数据生命周期管理流程不完善、不规范,缺乏对数据全生命周期进行管理的机制和技术支撑。

    ⑤大数据没有得到深度的开发和应用。多数高职院校内部没有专门对学生消费数据、学生在线教学平台上的学习行为数据进行采集、整理和分析,挖掘出有用的信息,从而支撑学校的决策。

    2.高职院校数据治理体系的构建及实施方法

    数据治理是管理与技术的有机结合。[11]根据上述国内外常见的数据治理框架和模型的研究,结合对高职院校数据管理方面存在的问题分析,本文提出大数据背景下“金字塔”型高职院校数据治理框架体系,包括目标域子框架、机制域子框架和关键域子框架三部分(如下页图1)。

    在该数据治理框架体系中,目标域子框架位于金字塔的塔尖,描述了学校业务发展目标、IT治理规划以及数据治理相关的发展规划;机制域子框架位于金字塔中层,起到承上启下的作用,描述了推进数据治理工作实现治理目标的保障机制,包括组织机构等四个方面;关键域子框架位于金字塔底层,描述了高职院校数据治理应重点关注的领域,是高职院校数据治理的具体对象、技术与行动方向,包括主数据、大数据等八个既有机结合又相互支撑的内容,分为基础层(业务流程整合、数据生命周期)、支撑层(元数据、数据质量)和应用层(主数据、大数据)三个层次,而对数据安全和数据标准的管理对三个层次均产生影响。本文重点介绍该治理体系中的组织机构及主数据、大数据等五个主要治理对象的内涵及实施方法。

    (1)组织机构及职责划分

    通过建立组织机构,明确成员的角色和权限,保障数据治理工作的有效开展。笔者借鉴美国高校的经验[12],结合大多数高职院校的工作实际,从决策、统筹和执行三层设计高职院校数据治理权责体系。决策层为学校网络安全与信息化领导小组/数据治理委员会,由学校高层领导组成,总负责人一般为学校分管信息化的校领导或学校首席信息官;统筹层为数据治理工作组,由业务部门和信息中心负责人组成;执行层由各业务部门数据责任人、信息中心数据管理员和数据集成开发人员组成。

    (2)主数据管理与业务流程梳理

    主数据是指具有共享性的基础数据。高职院校各业务系统存储了大量的人员、课程、设备、科研项目等实体数据,这些数据相对稳定,往往要跨部门、跨系统、跨业务流程共享使用,笔者将其称之为主数据。主数据管理的目标是从学校的多个业务系统中抽取主数据并进行整合、治理,然后以提供服务的方式把主数据分发给其他业务系统使用。[13]

    主数据管理的关键步骤是进行業务流程梳理。业务流程的梳理通常包括数据建模、数据分类和数据实体属性梳理三个步骤。[14]数据建模是根据业务流程识别数据实体,按照数据实体的联系进行数据的分析,建立数据模型;数据分类则进一步对业务流程上的各阶段的数据进行分类、归并,以创建可靠、唯一的数据来源,保障今后数据规范化的开发和应用;将每个流程上的环节相应的业务活动所产生的信息形成数据表,表中的每个信息项就是数据实体属性。经过上述三个步骤,业务流程和数据就得到较为全面的梳理。笔者以某高职院校学生主数据管理的业务流程为参考,设计了如上页图2所示的流程图。基于此流程图可把学生主数据从源系统中抽取成为权威数据源,并保证在持续使用和维护这些数据的应用中的唯一性。

    (3)数据质量管理

    戴明质量环[15]为数据质量管理提供了一种通用方法,即用于解决问题的“计划—实施—检查—行动”模型。有鉴于此,高职院校的数据质量管理可分计划、实施、监控、行动四个阶段进行。计划阶段,数据治理工作组定义数据质量的业务需求、识别数据质量关键维度以及定义保障高水平数据质量的关键业务规则,这里的数据质量关键维度的定义可参考数据质量评估框架DQAF(Data Quality Assessment Framework),该框架从数据质量的完备性、及时性、有效性、一致性和完整性五个维度来进行数据质量评估和提升[16];实施阶段,剖析和检查数据,对数据缺失、重复、不一致等数据质量问题进行确认,进行业务流程的校正;监控阶段,持续度量和监控数据质量水平,如果数据质量下降到可接受的范围以外,就要求数据管理员采取行动;行动阶段,执行数据质量问题管理的解决方案,清洗和校正数据质量缺陷,提升数据质量,满足业务预期。

    上述四个阶段是数据质量管理的一个周期。当出现了新的数据集或对已有数据集提出新的数据质量需求时,就进入一个新的数据质量管理周期。

    (4)数据生命周期管理

    数据是有生命周期的,如高职院校学生基础数据的生命周期一般为三年,而数据中心的容量是有限的,不可能保存所有的基础数据,因此就存在数据生命周期管理的问题。根据数据生命周期POSMAD理论,数据生命周期包括数据规划、数据获取、数据存储与共享、数据维护、数据应用和数据报废这六个反复迭代的阶段。[17]

    高职院校在数据生命管理周期的数据规划阶段应做好数据概念及逻辑模型规划、数据标准的制订以及数据库设计等数据资源的准备工作。数据获取阶段应采取措施保证数据的准确性和完整性,对于手工流程中产生的数据,如学生成绩、教师课务数据等,应通过复查、抽检等手段保证其正确性。数据存储阶段,除了关注保密性和完整性之外,更要关注数据的可用性,对诸如校园一卡通消费数据、学生信息、教师档案等敏感数据进行分级存储,定期测试存储备份的数据,确保其可访问且数据完整。数据维护阶段对数据进行更新、解析、清洗、转换、合并等维护操作。数据应用阶段包括对数据的查询、处理和输出等,该阶段要防止对数据的各种操作和传输对数据库中的数据造成损坏。数据报废阶段应合理摒弃基于规制和业务需求考量不再需要的数据,要明确数据删除的流程,采用必要的工具,同时还应有完整的记录。

    (5)大数据管理

    高职院校大数据治理包括大数据分析平台的构建、业务流程的重组、元数据与主数据的管理,以及大数据的挖掘应用等诸多方面。高职院校数据治理委员会应吸纳专门从事大数据研究的人员,并明确角色和职责。大数据管理的关键环节是识别大数据相关的核心业务流程,然后针对业务流程中的关键步骤,制订大数据治理策略和业务规则,将大数据与主数据管理进行整合;对于学校的敏感数据要进行分级存储,并使用合理的策略和工具进行保护。此外,大数据治理还需要对数据备份政策、工具进行平衡,以降低大数据存储成本,提高应用绩效。

    大数据治理功能强调发挥数据的应用价值,因而更关注将业务目标映射到数据分析,包括数据分类和数据建模。高职院校应基于大数据技术标准体系,通过对各种类型的结构化、半结构化、非结构化数据信息的采集、预处理、分析处理以及存储等相关操作,将原来分散于不同应用系统中的数据与业务流程整合起来,构建一个统一、规范、全面的公共数据库或大数据中心,在此基础上建立“校园大数据分析平台”来实现统一的业务规划,消除信息孤岛,满足学校基于大数据的科学决策、精准管理、智慧服务,提升学校的综合治理能力。

    ● 结论与展望

    在大数据背景下,高职院校数据治理的目的是既要保证数据的准确性、一致性、可访问性和合规性,同时要在规范业务流程、优化教学策略、提升教学质量、辅助科学决策等方面充分发挥数据的应用价值。基于数据治理管理和技术两大核心要素所构建的高职院校数据治理体系,可以帮助高职院校规划大数据背景下的数据治理策略,明确数据治理权责体系,利用信息技术保障高职院校数据治理工作,提升数据资产的管理和应用水平。

    数据治理是一个长期的、持续推进的过程,需要结合高职院校的实际业务以及数据治理进程的不同时期适时调整和更新数据治理策略。随着高职院校大数据的发展和应用,未来的高职院校数据治理标准必将融合大数据治理的需求,借助先进的大数据分析平台和工具,以大数据的深度挖掘、可视化和应用推进高职院校的数据治理工作,真正发挥大数据在高职院校管理决策和教学诊断与改进中的巨大价值。

    参考文献:

    [1]喻民权,刘颖,赵研.数据治理對高职院校信息化建设的影响力探究[J].北京经济管理职业学院学报,2018,33(02):46-50+80.

    [2]ZHU H W,MADNICK S E,LEE Y W,et,al.Data and information quality research:its evolution and future[DB/OL].[2016-10-24].http://mitiq.mit.edu/Documents/Publications/Papers/2012/Madnick_2012_Data%20and%20Information%20Qualiyt.pdf.

    [3]CHAPPLE M.Speaking the same language:building a data governance program for institutional impact[EB/OL].[2016-10-24].http://er.educause.edu/articles/2013/12/speaking-the-same-language-building-a-data-governance-program-for-institutional-impact.

    [4][13][16]李林.高校信息化数据治理探讨[J].中国教育信息化,2017(09):66-68.

    [5][11][12]彭雪涛.美国高校数据治理及其借鉴[J].教育信息化,2017(06):76-80.

    [6]赵安新.高校数据融合路径及其治理框架的探讨[J].中国教育信息化,2016(23):75-77.

    [7]刘桂锋,钱锦琳,卢章平.国内外数据治理研究进展:内涵、要素、模型与框架[J].图书情报工作,2017,61(21):137-144.

    [8]张明英,潘蓉.《数据治理白皮书》国际标准研究报告要点解读[J].信息技术与标准化,2015(06):54-57.

    [9]曾凯.大数据治理框架体系研究[J].信息化建设,2016(11):1-2.

    [10][14][17]刘洁丽.H电力公司大数据治理体系构建及实施研究[D].成都.电子科技大学,2017.

    [15]DAMA International.DAMA数据管理知识体系指南[M].马欢,等.译.北京:清华大学出版社,2012:214-215.

    第一作者简介:姜大庆(1969.9—),男,江苏如皋人,教授,工学硕士,主要研究方向为计算机网络、数据挖掘、教育信息化。

    基金项目:2018年江苏省教育信息化研究资助课题“大数据背景下高职院校数据治理体系构建与实践研究”(20180003)。

相关文章!
  • 小学语文课堂教学中的激励性评

    摘 要:激励性评价作为小学常用的教学方式,在教师日常教学中具有重要作用,在各小学学科中都有应用。在小学语文课堂上,语文教师需要与学

  • 高等教育人工智能应用研究综述

    奥拉夫·扎瓦克奇-里克特 维多利亚·艾琳·马林【摘要】多种国际报告显示教育人工智能是当前教育技术新兴领域之一。虽然教育人工智能已有约

  • 生活引路,作文随行

    周海波【摘 要】“写作教学应贴近学生实际,让学生易于动笔,乐于表达,应引导学生关注现实,热爱生活,表达真情实感。”教师如何让学生更加贴