大数据在学科评估中的应用研究
高亮++胡庆亮
摘要:大数据技术有效解决了学科评估中采集数据的困难,通过建立业务指标和评估指标的对应关系保证了评估指标的兼容性和扩展性,使评估指标体系更容易落地,OLAP技术的应用提高了学科评估工作效率。大数据相关技术在学科评估中的运用改变了以往的工作模式,具有创新意义,实践证明该技术方案使学科评估实施更加快速、有效。
关键词:大数据;学科评估;多维分析
中图分类号:G40-058.1
文献标志码:A
文章编号:1673-8454(2015)07-0013-04
一、现状及问题
学科建设是高等学校发展的核心工作,是衡量一所高校办学水平的重要评价标准。如何科学、客观、准确地评价学科状态,从而更好地规划资源配置促进各学科均衡发展是多年来各高校及研究机构的重点研究课题。学科评估的两个关键因素是评估指标体系和基础数据,到目前为止,学科评估重点研究了评估指标体系及评估方法,并已取得了显著成果,研究人员提出了多种比较成熟、完善的评估指标体系。但是,目前不论使用哪一套评估指标体系开展学科评估工作时都会遇到许多问题,使看起来完美的评估指标体系并不能顺利实施。以下是三个典型的问题:
(1)无法准确、全面、及时地获取各类业务数据,导致评估结果不够全面、不够客观、不够准确。
(2)评估指标是对高校业务的抽象描述,无法与具体业务数据直接对应,导致无法直接得到与评估指标对应的评估结果,需要将评估指标转换为业务标准才能与业务数据准确对应。
(3)目前学科评估主要靠人工收集数据、计算评估结果,基于一套比较复杂的评估指标体系采用人工方法去生成评估结果是一件非常困难的事情,如果要同时生成多套不同评估指标体系的评估报告更是一件不太现实的事情。
本文介绍使用大数据技术充分收集高校业务中与学科相关的结构化、半结构化和非结构化数据,并将半结构化和非结构化数据转化为更容易分析使用的结构化数据,同时确定数据实体及其间的关系,最终将经过清洗的数据按照统一标准进行存储。基于标准化的业务数据,充分发挥OLAP技术优势对学科进行多维分析并生成学科评估报表。
二、大数据解决方案
1.系统架构
基于大数据的学科评估系统框架(见图1)主要包括:数据源层、数据处理层、数据存储层和数据分析层。
(1)数据源层
数据源层是学科评估基础数据的来源,主要包括分布于各业务系统的结构化数据,系统外的半结构化数据和非结构化数据,如TXT、XML等格式的文本文件。
(2)数据处理层
学科评估基础数据分布于不同的业务系统,而且数据量大,同时还有系统外的半结构化和非结构化数据,传统的ETL技术已经无法完成处理任务。Hadoop技术能够对海量数据进行分布式处理,尤其是处理半结构化和非结构化数据具有先天优势。数据处理层借助大数据技术对原始数据进行抽取、清洗、转换,完成数据集成,按照存储层数据模型重新组织数据,形成能够支持学科评估的标准化数据。
(3)数据存储层
数据存储层是学科评估数据的核心,主要包括业务数据库、业务指标库和评估指标库。业务数据是与学科相关的基础业务数据,业务指标是指描述基础数据的维度,评估指标是指不同评估体系中的各类指标。数据存储层采用数据仓库维度模型存储业务数据,这样更有利于应用层的统计分析。数据存储层会进行数据的标准化,建立统一的编码规则,去除冗余和不一致。
(4)数据分析层
数据分析层是学科评估应用的核心。通过联机分析平台(OLAP)可以快速生成评估报表并进行多维分析,节省人工计算工作量,并以打印输出、文件输出、Email输出、Web发布等多种方式展现。
2.业务数据模型
业务数据采用星型模型进行数据建模,建模的重点是识别业务实体与学科评估相关的最细粒度属性,作为业务指标维度,它们将构成业务指标库,这些指标可以综合反映业务实体属于哪一个学科评估指标,其他对学科评估不产生影响的实体属性可选择性地保留在模型中,方便进行多维分析。
图2是以科研论文和科研项目为示例的科研业务数据模型。学科维度来标识论文和项目属于哪一个学科,论文类型、刊物类型、刊物分区、第一作者类型维度是评估科研论文的业务指标,项目经费、负责人类型、项目类别、项目级别、项目子级别是评估科研项目的业务指标。
3.评估指标模型
由于目前还没有统一的、标准化的学科评估指标体系,各高校内部以及各权威机构的评估指标体系都不完全相同,而且经常会有变动,如果每次开展学科评估都将基础数据与评估指标重新对应,然后计算评估结果是一件非常困难的事情。
鉴于高校内部描述业务实体的属性相对固定,提取这些属性作为基础业务指标,将业务指标与学科评估指标作匹配,这样业务实体就能对应到具体的评估指标。图3是以科研论文和科研项目为例设计的评估指标模型,设计说明如下:
(1)同一类业务数据用于学科评估的属性可能不完全相同,如纵向项目用项目级别和项目子级别属性来表示评估得分,横向项目是用项目经费来表示评估得分,所以业务指标库要最细粒度,保证能唯一标识所有类别的业务数据。
(2)最细粒度的业务指标可以使评估指标粒度更小、更加科学,从而提高评估结果的科学性和准确性,同时可以满足不同评估指标与业务数据的对应关系,保证了评估指标体系的兼容性和扩展性。如科研论文评估指标和科研项目评估指标都是基于科研论文和科研项目最细粒度业务指标生成。
(3)评估指标类型标识该评估指标是评估哪一业务,如科研论文、师资队伍、人才培养等。评估指标体系标识该评估指标对应的是哪一种评估标准,如校内评估指标体系、国内某权威机构评估指标体系、国外某权威机构评估指标体系等。
(4)评估指标中的开始年份和结束年份用来标识该指标的适用范围,支持生成历史年份的评估报表,可以比较不同年份的评估结果。
(5)评估得分是对评估指标的量化表示,并不是每一个评估指标都有评估得分,有些统计实体数量的就没有评估得分,如统计教师数量、学生数量等。
4.学科评估
学科评估的核心工作是按评估指标去汇总各类业务数据、计算评估得分,然后通过不同的维度去分析评估结果。业务系统通过数据共享方式将各类业务指标提供给学科评估系统,学科评估系统管理员根据业务指标灵活设置评估指标、得分、指标对应时间段,业务数据根据业务指标就可以关联查询到对应的评估指标,进而可以得到评估得分,最终可以自动汇总数据得到评估报表。以科研项目学科评估为例,计算过程伪代码如下:
SELECT EXTRACT (YEAR FROM Tl.立项日期)AS评估年份
,T4.评估指标体系名称AS评估指标体系名称
,T5.评估指标类型名称AS评估指标类型名称
,T3.评估指标名称
AS评估指标名称
.T2.二级学科名称
AS二级学科名称
,T2.一级学科名称
AS一级学科名称
,T2.学科门类名称
AS学科门类名称
,COUNT(T1.项目编号)AS项目数量
,SUM (T3.评估指标得分)AS评估得分
FROM 科研项目Tl
LEFT JOIN学科T2
ON
Tl.学科=T2.学科编号
LEFT JOIN科研项目评估指标T3
ON
Tl.负责人类型=T3.作者类型编号
AND Tl.项目类别=T3.项目类别编号
AND Tl.项目级别=T3.项目级别编号
AND Tl.项目子级别=T3.项目子级别编号
AND EXTRACT(YEAR FROM Tl.立项日期)BE-TWEEN T3.开始年份AND T3.结束年份
LEFT JOIN评估指标体系T4
ON T3.评估指标体系=T4.评估指标体系编号
LEFT JOIN评估指标类型T5
ON T3.评估指标类型=T5.评估指标类型编号
GROUP BY EXTRACT(YEAR FROM Tl.立项日期)
T4.评估指标体系名称
T5.评估指标类型名称
T3.评估指标名称
T2.二级学科名称
T2.一级学科名称
T2.学科门类名称
该学科评估系统具有如下特点:
(1)快速部署、灵活维护评估指标。只要建立评估指标与业务指标的对应关系,就可以完成业务数据与和评估指标的关联,从而可以快速生成学科评估报表。
(2)支持多评估指标体系,可以同时生成基于不同评估指标体系的评估报表,比较不同评估指标体系下的评估结果。
(3)评估指标中的时间属性满足在不同时间段使用不同的评估指标,达到保留历史评估结果的目的。
(4)通过联机分析(OLAP)功能可以快速计算评估得分并进行多维分析。如可以快速生成基于二级学科、一级学科和学科门类的评估报表。
三、应用实例和应用效果
1.应用实例
本文选取上海财经大学校内评估指标体系中纵向科研项目评估为例,介绍具体应用情况。表1是根据纵向项目业务指标设置的评估指标,每一个纵向项目能找到对应的评估指标。
图4是使用数据可视化工具Tableau开发的纵向项目学科评估报表,通过筛选器可以查看不同年份、不同评估指标对应的评估结果,通过钻取功能可以得到学科门类、一级学科、二级学科的评估结果,达到多维分析的目的。如果有多种评估指标体系,可以同时展现在评估报表内,方便横向比较评估结果。
2.应用效果
传统方法做学科评估需要从各个业务部门采集数据,然后分类、设置评估指标、赋值、计算,需要花费大量时间,生成的评估报表会有数据不准确、滞后性、一次性使用等问题。借助大数据技术保证了采集数据的全面性、准确性和及时性,充分发挥大数据技术分布式处理数据的优势,减少人工采集、整理数据需要的巨大工作量。O—LAP技术可以快速生成学科评估报表,完成多维分析,大大提高了学科评估的工作效率和评估结果的准确性。通过该系统校领导、院系领导、业务部门管理人员可以了解每一学科的评估结果,比较不同学科间的评估差异,观察同一学科评估结果随时间的变化趋势,从而为管理决策提供科学依据。使用该系统我校已经完成了校内2013年学科评估报表,同时支持教育部学科评估上报材料。
四、结束语
借助大数据技术可以很好地解决目前学科评估中采集基础数据存在的困难;通过提取最细粒度业务指标,并将业务指标作为建立评估指标与基础数据之间关系的桥梁,可以快速部署不同的评估指标,同时满足评估指标的扩展性。借助OLAP技术可以快速、灵活生成学科评估报表,并实现多维分析。总之,将大数据、数据仓库和OLAP技术相结合在学科评估中使用具有创新意义,不仅解决了目前学科评估实施中存在的困难,而且可以使学科评估工作快速、有效实施,对高校开展学科评估具有积极推动作用。
摘要:大数据技术有效解决了学科评估中采集数据的困难,通过建立业务指标和评估指标的对应关系保证了评估指标的兼容性和扩展性,使评估指标体系更容易落地,OLAP技术的应用提高了学科评估工作效率。大数据相关技术在学科评估中的运用改变了以往的工作模式,具有创新意义,实践证明该技术方案使学科评估实施更加快速、有效。
关键词:大数据;学科评估;多维分析
中图分类号:G40-058.1
文献标志码:A
文章编号:1673-8454(2015)07-0013-04
一、现状及问题
学科建设是高等学校发展的核心工作,是衡量一所高校办学水平的重要评价标准。如何科学、客观、准确地评价学科状态,从而更好地规划资源配置促进各学科均衡发展是多年来各高校及研究机构的重点研究课题。学科评估的两个关键因素是评估指标体系和基础数据,到目前为止,学科评估重点研究了评估指标体系及评估方法,并已取得了显著成果,研究人员提出了多种比较成熟、完善的评估指标体系。但是,目前不论使用哪一套评估指标体系开展学科评估工作时都会遇到许多问题,使看起来完美的评估指标体系并不能顺利实施。以下是三个典型的问题:
(1)无法准确、全面、及时地获取各类业务数据,导致评估结果不够全面、不够客观、不够准确。
(2)评估指标是对高校业务的抽象描述,无法与具体业务数据直接对应,导致无法直接得到与评估指标对应的评估结果,需要将评估指标转换为业务标准才能与业务数据准确对应。
(3)目前学科评估主要靠人工收集数据、计算评估结果,基于一套比较复杂的评估指标体系采用人工方法去生成评估结果是一件非常困难的事情,如果要同时生成多套不同评估指标体系的评估报告更是一件不太现实的事情。
本文介绍使用大数据技术充分收集高校业务中与学科相关的结构化、半结构化和非结构化数据,并将半结构化和非结构化数据转化为更容易分析使用的结构化数据,同时确定数据实体及其间的关系,最终将经过清洗的数据按照统一标准进行存储。基于标准化的业务数据,充分发挥OLAP技术优势对学科进行多维分析并生成学科评估报表。
二、大数据解决方案
1.系统架构
基于大数据的学科评估系统框架(见图1)主要包括:数据源层、数据处理层、数据存储层和数据分析层。
(1)数据源层
数据源层是学科评估基础数据的来源,主要包括分布于各业务系统的结构化数据,系统外的半结构化数据和非结构化数据,如TXT、XML等格式的文本文件。
(2)数据处理层
学科评估基础数据分布于不同的业务系统,而且数据量大,同时还有系统外的半结构化和非结构化数据,传统的ETL技术已经无法完成处理任务。Hadoop技术能够对海量数据进行分布式处理,尤其是处理半结构化和非结构化数据具有先天优势。数据处理层借助大数据技术对原始数据进行抽取、清洗、转换,完成数据集成,按照存储层数据模型重新组织数据,形成能够支持学科评估的标准化数据。
(3)数据存储层
数据存储层是学科评估数据的核心,主要包括业务数据库、业务指标库和评估指标库。业务数据是与学科相关的基础业务数据,业务指标是指描述基础数据的维度,评估指标是指不同评估体系中的各类指标。数据存储层采用数据仓库维度模型存储业务数据,这样更有利于应用层的统计分析。数据存储层会进行数据的标准化,建立统一的编码规则,去除冗余和不一致。
(4)数据分析层
数据分析层是学科评估应用的核心。通过联机分析平台(OLAP)可以快速生成评估报表并进行多维分析,节省人工计算工作量,并以打印输出、文件输出、Email输出、Web发布等多种方式展现。
2.业务数据模型
业务数据采用星型模型进行数据建模,建模的重点是识别业务实体与学科评估相关的最细粒度属性,作为业务指标维度,它们将构成业务指标库,这些指标可以综合反映业务实体属于哪一个学科评估指标,其他对学科评估不产生影响的实体属性可选择性地保留在模型中,方便进行多维分析。
图2是以科研论文和科研项目为示例的科研业务数据模型。学科维度来标识论文和项目属于哪一个学科,论文类型、刊物类型、刊物分区、第一作者类型维度是评估科研论文的业务指标,项目经费、负责人类型、项目类别、项目级别、项目子级别是评估科研项目的业务指标。
3.评估指标模型
由于目前还没有统一的、标准化的学科评估指标体系,各高校内部以及各权威机构的评估指标体系都不完全相同,而且经常会有变动,如果每次开展学科评估都将基础数据与评估指标重新对应,然后计算评估结果是一件非常困难的事情。
鉴于高校内部描述业务实体的属性相对固定,提取这些属性作为基础业务指标,将业务指标与学科评估指标作匹配,这样业务实体就能对应到具体的评估指标。图3是以科研论文和科研项目为例设计的评估指标模型,设计说明如下:
(1)同一类业务数据用于学科评估的属性可能不完全相同,如纵向项目用项目级别和项目子级别属性来表示评估得分,横向项目是用项目经费来表示评估得分,所以业务指标库要最细粒度,保证能唯一标识所有类别的业务数据。
(2)最细粒度的业务指标可以使评估指标粒度更小、更加科学,从而提高评估结果的科学性和准确性,同时可以满足不同评估指标与业务数据的对应关系,保证了评估指标体系的兼容性和扩展性。如科研论文评估指标和科研项目评估指标都是基于科研论文和科研项目最细粒度业务指标生成。
(3)评估指标类型标识该评估指标是评估哪一业务,如科研论文、师资队伍、人才培养等。评估指标体系标识该评估指标对应的是哪一种评估标准,如校内评估指标体系、国内某权威机构评估指标体系、国外某权威机构评估指标体系等。
(4)评估指标中的开始年份和结束年份用来标识该指标的适用范围,支持生成历史年份的评估报表,可以比较不同年份的评估结果。
(5)评估得分是对评估指标的量化表示,并不是每一个评估指标都有评估得分,有些统计实体数量的就没有评估得分,如统计教师数量、学生数量等。
4.学科评估
学科评估的核心工作是按评估指标去汇总各类业务数据、计算评估得分,然后通过不同的维度去分析评估结果。业务系统通过数据共享方式将各类业务指标提供给学科评估系统,学科评估系统管理员根据业务指标灵活设置评估指标、得分、指标对应时间段,业务数据根据业务指标就可以关联查询到对应的评估指标,进而可以得到评估得分,最终可以自动汇总数据得到评估报表。以科研项目学科评估为例,计算过程伪代码如下:
SELECT EXTRACT (YEAR FROM Tl.立项日期)AS评估年份
,T4.评估指标体系名称AS评估指标体系名称
,T5.评估指标类型名称AS评估指标类型名称
,T3.评估指标名称
AS评估指标名称
.T2.二级学科名称
AS二级学科名称
,T2.一级学科名称
AS一级学科名称
,T2.学科门类名称
AS学科门类名称
,COUNT(T1.项目编号)AS项目数量
,SUM (T3.评估指标得分)AS评估得分
FROM 科研项目Tl
LEFT JOIN学科T2
ON
Tl.学科=T2.学科编号
LEFT JOIN科研项目评估指标T3
ON
Tl.负责人类型=T3.作者类型编号
AND Tl.项目类别=T3.项目类别编号
AND Tl.项目级别=T3.项目级别编号
AND Tl.项目子级别=T3.项目子级别编号
AND EXTRACT(YEAR FROM Tl.立项日期)BE-TWEEN T3.开始年份AND T3.结束年份
LEFT JOIN评估指标体系T4
ON T3.评估指标体系=T4.评估指标体系编号
LEFT JOIN评估指标类型T5
ON T3.评估指标类型=T5.评估指标类型编号
GROUP BY EXTRACT(YEAR FROM Tl.立项日期)
T4.评估指标体系名称
T5.评估指标类型名称
T3.评估指标名称
T2.二级学科名称
T2.一级学科名称
T2.学科门类名称
该学科评估系统具有如下特点:
(1)快速部署、灵活维护评估指标。只要建立评估指标与业务指标的对应关系,就可以完成业务数据与和评估指标的关联,从而可以快速生成学科评估报表。
(2)支持多评估指标体系,可以同时生成基于不同评估指标体系的评估报表,比较不同评估指标体系下的评估结果。
(3)评估指标中的时间属性满足在不同时间段使用不同的评估指标,达到保留历史评估结果的目的。
(4)通过联机分析(OLAP)功能可以快速计算评估得分并进行多维分析。如可以快速生成基于二级学科、一级学科和学科门类的评估报表。
三、应用实例和应用效果
1.应用实例
本文选取上海财经大学校内评估指标体系中纵向科研项目评估为例,介绍具体应用情况。表1是根据纵向项目业务指标设置的评估指标,每一个纵向项目能找到对应的评估指标。
图4是使用数据可视化工具Tableau开发的纵向项目学科评估报表,通过筛选器可以查看不同年份、不同评估指标对应的评估结果,通过钻取功能可以得到学科门类、一级学科、二级学科的评估结果,达到多维分析的目的。如果有多种评估指标体系,可以同时展现在评估报表内,方便横向比较评估结果。
2.应用效果
传统方法做学科评估需要从各个业务部门采集数据,然后分类、设置评估指标、赋值、计算,需要花费大量时间,生成的评估报表会有数据不准确、滞后性、一次性使用等问题。借助大数据技术保证了采集数据的全面性、准确性和及时性,充分发挥大数据技术分布式处理数据的优势,减少人工采集、整理数据需要的巨大工作量。O—LAP技术可以快速生成学科评估报表,完成多维分析,大大提高了学科评估的工作效率和评估结果的准确性。通过该系统校领导、院系领导、业务部门管理人员可以了解每一学科的评估结果,比较不同学科间的评估差异,观察同一学科评估结果随时间的变化趋势,从而为管理决策提供科学依据。使用该系统我校已经完成了校内2013年学科评估报表,同时支持教育部学科评估上报材料。
四、结束语
借助大数据技术可以很好地解决目前学科评估中采集基础数据存在的困难;通过提取最细粒度业务指标,并将业务指标作为建立评估指标与基础数据之间关系的桥梁,可以快速部署不同的评估指标,同时满足评估指标的扩展性。借助OLAP技术可以快速、灵活生成学科评估报表,并实现多维分析。总之,将大数据、数据仓库和OLAP技术相结合在学科评估中使用具有创新意义,不仅解决了目前学科评估实施中存在的困难,而且可以使学科评估工作快速、有效实施,对高校开展学科评估具有积极推动作用。