网站首页  词典首页

请输入您要查询的论文:

 

标题 数据仓库技术在高校大类招生专业选择分析中的应用
范文

    谷淑娟 徐 翊

    [摘 要]本文研究数据仓库技术在高校大类招生环境下,学生自主选择专业行为特征分析中的应用,为高校大类招生相关政策的制定提供理论支持及技术手段。首先介绍了数据仓库星形模型分析方法,结合专业选择分析相关需求描述数据仓库建立的一般步骤。随后以北京科技大学经济管理学院2005级学生基本信息及学科成绩为例,重点阐述学生专业选择数据仓库逻辑模型设计。通过确立学生基本影响因素分析和学生成绩分析两大主题,充分分析学生基本属性、学生成绩等对学生选择专业的影响,并给出OLAP分析结论。

    [关键词]数据仓库;OLAP分析;大类招生;专业选择;成绩分析

    doi:10.3969/j.issn.1673-0194.2009.15.004

    [中图分类号]TP392[文献标识码]A[文章编号]1673-0194(2009)15-0013-03

    1 引 言

    为降低学生高考填报志愿的盲目性,加强其专业选择的自主性,顺应学科发展综合化、人才需求多元化的发展趋势,各大高校陆续推出大类招生计划,即高校不再按专业或专业方向,而是按学科(也可按系或学院)制订招生计划并进行招生录取[1]。

    这种教学模式是普通高校招生制度改革的新尝试,如何分析高校学生在基础教育期满后进行自主专业选择的行为特点,以更好地指导其选择专业已成为教育模式改革的新课题。数据仓库技术的出现和发展为分析该问题提供了强有力的工具和手段。运用数据仓库技术可以将多个数据库的信息进行集成,从高校学生进行自主专业选择的历史和发展的角度组织和存储数据,充分分析影响学生进行专业选择的相关因素,发现其隐含的内在规律,为高校大类招生相关政策制定提供理论支持和技术手段。

    本文以北京科技大学经济管理学院2005级学生基本信息及学科成绩信息为基础,建立数据仓库,确定专业选择相关主题,主要针对经济管理学院学生自主选择专业以下方面问题展开研究:

    (1)学生基本影响因素分析。确定经济管理学院大类招生环境下学生自主选择专业的基本影响因素,包括性别、籍贯、文理分科等,并在此基础上分析各因素对学生专业选择结果的影响程度。

    (2)学生成绩分析。成绩分析是分析学生专业选择相关特性的重要方面。各专业学生在各种科目成绩分布情况,隐含着学生知识构成方面的特点,是学生专业选择特性分析中的重要内容。

    本文首先简要介绍数据仓库相关技术,随后系统阐述用于学生专业选择分析的数据仓库建立全过程,利用联机分析处理技术(OLAP,On Line Analytical Processing)[2]对所建立的数据仓库进行主题分析,并阐述分析结果。

    2 数据仓库星形模型分析方法

    2.1 数据仓库体系结构及建模方法

    数据仓库是一种专门的数据存储,用于支持分析型数据处理,其技术体系结构包括前台和后台两部分[8]。

    后台负责分析型应用的数据准备工作,完成从数据源向数据仓库主题数据的数据变换。包含3个步骤:对数据源进行数据抽取、向主题数据转换和主题数据装载。

    前台面向数据仓库的最终用户,需要安装分析型应用工具,例如报表生成器、OLAP[2]工具、数据挖掘工具等,最终提供分析报告、报表、图形等可视化的分析结果。

    人们从不同的角度对数据仓库的建模方案进行了研究。从方法论的角度,Golfarelli和Rizzi提出了数据仓库建模的概念模型DFM(Dimensional Fact Model)及数据仓库建模的一般方法框架[3]。从应用的角度,文献[4]给出了许多实际应用数据仓库设计的解决方案。文献[5]基于企业业务模型给出了数据仓库的设计方法。文献[6]提出了基于业务分析需求建立数据仓库数据存储的逻辑模型,本文采用该方法确定数据仓库逻辑模型。

    2.2数据仓库建立步骤

    数据仓库的建立通常包括以下步骤:

    (1)业务过程建模及需求分析。明确需求相关数据,最大程度利用现有系统中的数据。利用学生相关数据,查看大类招生环境下学生专业选择现状,将这些数据进行预处理并装载入数据仓库,为进一步的分析奠定数据基础。

    (2)选取主题。根据需求分析结果确定系统中存在的主题,根据学生专业选择现状,确定学生基本影响因素分析及成绩分析两个主题,划分主题边界,确定物理表。

    (3)逻辑模型设计。根据主题域,确定数据的粒度层次,进行维表和事实表的设计等。在此,最小粒度为每个专业每个学生每学期每门课的相关情况。

    (4)物理设计。确定数据的存储结构,索引策略及数据仓库的物理模型。在选定数据库管理系统(本文为Microsoft SQL Server 2005)中建立数据库和表结构。

    (5)数据采集、转换和集成。具体步骤为:

    ① 数据抽取:从原有操作型数据库中抽取与主题相关的数据到数据仓库。本文考虑到各个领域专业的差异性较大,只考察经济管理学院的学生情况。

    ② 数据转换:数据转换用于处理数据中存在的命名格式、字段长度等不一致问题。

    ③ 数据净化:处理多种可能存在的错误类型,如数据源中丢失数据、有误数据和冲突数据等。

    ④ 数据聚集:源数据库中的细节数据进入数据仓库后,还需在各种层次结构上进行汇总。

    (6)装载校验数据。装载一个主题数据进行数据校验以评估数据质量,确保数据可靠性。

    (7)管理元数据。定义元数据,即表示、定义数据的意义及系统各组成部件之间的关系。在建立数据仓库过程中,无需特别关注元数据,它自动存储在元数据表中。

    (8)联机分析处理(OLAP)型设计和应用。按照不同的维、层次分析比较数据,实现分析决策的目的。通过Microsoft SQL Server Analysis Services 2005,完成数据仓库的构造和联机分析处理技术在学生相关数据上的应用。

    2.3 联机分析处理(OLAP)

    联机分析处理(OLAP)[2]是基于数据仓库进行数据分析的主要方式,它将数据以立方体的形式进行组织。立方体包含多个维级别,实现对事实的多角度分析和查看。

    OLAP多维数据分析是指对多维数据采取切片、切块、钻取、旋转等各种操作,使用户能从多角度观察数据,从而深入了解其中的信息内涵。例如,可以通过上钻操作查看不同地区不同学年不同系的学生选课分布情况。

    3 建立高校学生专业选择数据仓库

    3.1 数据源及数据预处理

    本文抽取北京科技大学经济管理学院2005级本科生的基本信息和成绩信息作为建立数据仓库的数据源,存储格式为Microsoft Excel,具体信息包括:

    (1)5个专业:分别为信息管理与信息系统、国际贸易、工商管理、会计学和金融工程。

    (2)324名学生的基本信息:包括学号、专业、性别、民族、出生年份、考区、户口类型、文理分科等信息。

    (3)学生针对38门课程的成绩信息:包括课程类别和每名学生所选课程的成绩。

    数据预处理包括:

    (1)剔除奇异数据:删除各表中因为留级和退学未参加按大类招生划分专业的学生信息,剩余275名学生。

    (2)缺失数据填补:共发现学生各科成绩表中空值30处,对于空值的处理分为两种情况:

    ① 若确定该空值为缺失数据,则填充该科平均成绩;

    ② 若确定该空值为学生故意缺考,则计为零分。

    (3)形成代理码:为操作方便和节省空间,将相关表中的属性名称用代理码代替,如专业、课程等。为后阶段将维表和事实表的代理码进行匹配做好数据准备。

    3.2 确定分析主题

    对相关部门进行需求调研并充分分析现有数据,确定两个分析主题:学生基本影响因素分析和学生科目类别及成绩分析。每个主题均从时间、学生、专业和课程等4个维度进行查询和分析。

    (1)学生基本影响因素分析。

    学生基本信息客观描述了学生的基本特性,其中隐含了学生自主选择专业的大量行为特征。为该主题建立星形模型所示,具体包括4个维表:时间、学生、专业和课程,以及一个事实表,其中包含各维表的主键。该事实表比较特殊,不包含其他数值型数据,主要用于计数分析。Microsoft SQL Server 2005 Integration Services中的查找控件可以实现维表代理码和事实表主码的匹配。

    (2)学生成绩分析。

    维表设计与“学生基本影响因素分析”主题相同,事实表中除包含各维表的主键外,还包含学生成绩字段,用于不同维度与粒度的汇总查询,如图1所示。

    主题确立之后,将源数据进行转换,载入到数据仓库中,继而进行OLAP分析。SQL Server 2005 Analysis Services项目可创建数据分析中的维度和多维数据集,并由客户端分析程序提供OLAP多维数据查询和分析服务。

    

    3.3 OLAP分析结果

    基于两个主题建立起数据仓库后,可以对其进行各种维度、各种聚集度的OLAP分析。部分分析结果如下:

    (1)学生基本影响因素分析。

    考察学生性别、户口类型、考生地域、文理分科等学生基本属性对于专业选择结果的影响,现以前两者为例:

    ① 考生性别对学生分专业结果的影响。

    学生性别不同,选择专业的情况差异很大,如图2所示。女生选择会计学专业的人数最多,高于选择该专业男生人数的两倍,而男生选择信息管理与信息系统专业的人数最多。转专业学生为从外学院转入经管学院的学生,不参与大类招生,他们更偏好于会计学和金融工程专业。

    

    ② 户口所在地类型对学生分专业结果的影响。户口所在地类型对专业选择结果影响明显,如图3所示。城市学生中,约3/5选择金融工程专业,无人选择国际贸易专业;农村学生中,选择金融工程的人数非常少;城镇学生则居中,各个专业人数分布较均衡。

    

    (2)学生成绩分析。

    选择各专业学生在分专业前的年级排名分布情况差异较大,以信息管理与信息系统与金融工程为例,选择金融专业的学生排名集中在50~100名之间,前100名的学生占选择金融专业学生的2/3;而选择信息管理与信息系统专业的学生专业排名集中在150~250名之间。

    

    4 结 论

    本文利用数据仓库技术对高校大类招生环境下学生自主选择专业进行了多维分析。首先介绍了数据仓库星形模型分析方法,随后重点阐述高校学生专业选择数据仓库的建立过程,并围绕学生基本影响因素分析和学生成绩分析两大主题对学生选择专业的行为特性进行OLAP分析。分析中发现,学生对于金融工程、国际贸易等传统热门专业的选择受户口类型影响较大,而对于信息管理与信息系统和会计学专业的选择则受学生性别影响严重。专业排名在100名以内的学生更愿意选择金融工程,排名中间的学生多数选择信息管理与信息系统,这主要是受国家近年来对金融人才需求量增加影响。

    高校大类招生有利于培养基础理论知识扎实、科研能力较强的基础型人才和复合型人才。这种教育模式的应用和各种政策的制定还处于探索阶段,数据仓库技术为探索工作提供了必要的理论支持和技术手段,其在该领域进一步的应用是未来研究的重点。

    主要参考文献

    [1] 赵海平.再谈按大类专业招生主动适应经济建设需要[J].吉林教育科学:高教研究, 1994(5) .

    [2] George H John, Ron Kohavi, and Karl Pfleger. Irrelevant Features and the Subset Selection Problem[C]//Proceedings of the Eleventh International Machine Learning Conference, New Jersy, USA 1994: 121-129

    [3] 何晓群. 现代统计分析方法与应用[M].北京: 中国人民大学出版社, 1998.

    [4] 张文彤, 阎洁. SPSS统计分析高级教程[M]. 北京: 高等教育出版社, 2004.

    [5] D Barbara, W DuMouchel, et al. The New Jersey Data Reduction Report[J]. Bulletin of the IEEE Computer Society Technial Committee on Data Engineering, 1997,20(4): 3-45.

    [6] 张建同, 孙昌言. 以Excel和SPSS为工具的管理统计[M].北京: 清华大学出版社, 2005.

    The Application of Data Warehouse in Major Selection Analysis for

    College Students Admitted Without Major Classification

    GU Shu-juan,XU Yi

    (School of Economics and Management, University of Science and Technology Beijing,

    Beijing 100083, P.R.China)

    Abstract: This paper focuses on the behavioral characteristics analysis in major selection for college students admitted without major classification, using Data Warehouse (DW) technology, which provides theoretic and applied support for decision making for college recruitment without major classification. DW star schema analysis is firstly introduced, and general construction steps are shown combined with the major selection application. Then, we emphasis on the logic model design of DW for major selection analysis, based on the information of students in grade 2005, who come from school of economics and management, University of Science and Technology. OLAP (On Line Analytical Processing) is carried out based on the theme of basic factor analysis and grade analysis, and the OLAP analysis conclusion is given.

    Key words: Data Warehouse; OLAP Analysis; Recruitment without Major Classification; Major Selection; Grade Analysis

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/11 8:07:10