基于数据挖掘决策树技术的学生成绩分析
张贵元
摘 要 在目前深化产教融合,推进职业教育的形势下,职业化专业人才可持续培养已经成为趋势,传统的成绩分析有一定的局限性。本文介绍了决策树技术算法的原理,针对学生成绩数据进行预处理和集成转化,基于Microsoft SQL Server BI平台运用决策树算法对学生成绩数据进行挖据分析。通过试验结果分析,打破原有成绩分析得局限,使现有数据体现更好的价值,从而辅助教学管理者做出相应决策,更好的提高教学质量。
关键词 数据挖掘 Microsoft决策树算法 成绩分析
中图分类号:TP311.13 文献标识码:A
0引言
在目前深化产教融合,推进职业教育的形势下,职业化专业人才可持续培养已经成为趋势,特别是2018年广东省教育厅关于中职毕业生考取本科的政策,在此新政下中职学校的学生参加高职高考继续深造学习是以后新的方向,新政下的深化教学改革,拓宽学生升学途径,推动新的人才培养体系,健全学生需求导向的课程调整,统筹职业教育与升学的合理布局,是每个学校面临的问题。而高职高考的必备条件是等级证书+文化基础课程,那么提高等级证书的通过率是迫在眉睫。目前利用数据挖掘研究中职学校等级考证的较少,学校教务系统也没有对学生各课程成绩和技能证书通过时间以及通过率进行深层次分析。因此通过数据挖掘决策树技术,研究英语等级考证通过率和其他因素之间的潜在关系,提高等级考试通过率,保证高职高考上线率,就显得尤为重要。
1 Microsoft SQL Server BI 数据挖掘功能
本文应用决策树技术对成绩的分析是在Microsoft SQL Server BI平台上完成。Microsoft SQL Server BI 平台具有很强大的功能,涵盖了常用的数据挖掘技术。它将数据挖掘技术以集成化,模块化,系统化、界面化的方式简洁的呈现出来,即使不具备很深的专业知识,也能够很容易上手,简单的操作,让它具备更广泛的应用市场。适合数据研究分析实验,可以得到有效的数据研究结果。该智能平台中包括了很多数据挖掘的算法,其中常用的决策树、聚类分析、关联规则、神经网络等都可以选择,并且在实验过程中可以设置不同的参数来对比实验结果。Microsoft SQL Server BI平台除了内置的算法,还可以根据实际需求将设计好的算法程序以插件的形式导入 Microsoft SQL Server BI 平台以满足实验的需求。
2 Microsoft 决策树算法
在构建决策树模型之前先阐述一下Microsoft 决策树算法的基本理论基础,Microsoft 决策树算法它是集结了各种创建树在一起的综合性的算法。通过在树中创建一系列拆分来生成数据挖掘模型。Microsoft 决策树算法提供了三种信息获取计分公式,第一种是信息量的均Shannon,第二种是使用K2先验的Bayesian网络,第三种是使用先验统一Dirichlet分布的 Bayesian网络。这三种都是经过论证,并且使用在数据挖掘领域的方法。在使用的过程中,我们可以设置不同的参数进行数据分析,对分析结果进行观察求证,得到最优化的实验结果。
Microsoft决策树算法经过实践,是一种速度快而且效率高的算法,并且兼容度高。这样的优势在于多个处理器可以协同处理数据,共同生成一个一致的模型。基于这些优点和特征,Microsoft决策树分类器就是我们试验中较为具有优势的工具。并且在实验的过程中我们通过设置COMPLEXITY_PENALTY 参数,增大它的值可以限制树的增长。限制关联模型中的项数以限制生成的树的数量。增大MINIMUM_SUPPORT 参数的值可以避免过度拟合。
在Microsoft決策树算法中树的形状和深度是由选择的计分方法和参数的设定来决定的,参数的值不同引起节点拆分的位置也不同。因此,我们在试验中要掌握各个参数属性,通过设定不同的数值,去控制树的增长、树的形状以及输入和输出属性。
主要的参数如下:
2.1 Complexity_Penalty
Complexity_Penalty 该参数是一个浮点类型的参数,它的取值范围是[0,1]之间。在实验中,当设定的值接近0的时候,生成的树会比较大,因为这样的值对树的增长限制比较小,反之,当设定的值接近1的时候,数据所创建的树会比较小。
2.2 Minimum_Support
Minimum_Support 该参数是规定生成树中最小节点的个数,参数默认值一般为10,根据实验数据训练集的数量来确定该参数值,训练数据集中的事例越多该参数值越大,这样设置实验数据比较科学。
2.3 Score_Method
Score_Method 该参数是决定决策树增长使用的方法。根据参数值的不同选择不同的方法。当它的值为1的时候,使用信息熵来控制树的增长;当它的值为3的时候,使用Bayesian with K2 Prior方法;当它的值为4的时候,使用 Bayesian Dirichlet Equivalent with Uniform prior(BDEU)方法。该参数的默认值是4,我们在试验中可以通过设置不同参数来对比试验数据结果的精确性。
3决策树技术在学生成绩分析中的应用
3.1数据预处理和集成
本文研究的是英语一级考试成绩和学生其他成绩之间的关联关系。因此,把英语一级成绩当成研究指标,为了达到实验的完整性以及准确性,试验数据采集,涵盖了五个专业层次不同的学生三年在校的各科成绩,通过分类手段选择了200个左右的学生成绩信息来当作数据挖掘的主要分析对象,经过预处理保留有效信息1354条。针对预处理后的1354条学生原始成绩数据,结合试验需求,需要对成绩数据进行集成和转化,由于本文分析学生英语一级成绩和公共基础课程、专业课程、专业类别、通过的时间等之间的关联关系。因此,将学生的各科成绩集成转化为专业课平均成绩、公共课平均成绩、英语平均成绩、英语一级成绩、英语一级考试学期、专业类别等试验所用的数据信息。
3.2构建和使用决策树分类模型
创建决策树模型,利用 Microsoft Visual Studio 打开“挖
掘模型”的界面,右键单击“Microsoft_Decision_Trees”命令,打开“算法参数”选项窗口,在该窗口中设置算法参数,经过不同参数设置对比实验结果,该实验使用模型默认的参数得到的数据分析结果较准确。
使用微软的程序开发工具集(Business Intelligence Development Studio, BI Dev Studio)按照界面的操作提示,能够快速有效的完成实验数据的数据挖掘分析。本文使用 BI Dev Studio部署SQL Server Analysis(SSAS)数据挖掘项目,使用该向导能快速地创建和使用决策树模型进行数据挖掘,具体步骤如下:
(1)创新建数据源。创建新数据源的时候,要新建一个项目为 “Analysis Services 项目”,然后我们进入数据源向导窗口,在提供的选项中选择“使用服务账号”。
(2)创建数据源视图。在“数据源视图向导”窗口中选择提前预处理过的实验数据源,生成数据源的视图。
(3)创建数据挖掘结构。创建数据挖掘结构的方法很简单,只单击“解决方案资源管理器”命令,在菜单选择 “挖掘结构”命令,然后选择“新建数据挖掘结构”命令完成操作,在“创带有挖掘模型的挖掘结构”选项中根据实验要求选择算法,在这里我们选择“Microsoft决策树”。点击“下一步”后在窗口中指定定型数据,最后完成数据挖掘结构的创建。
4决策树算法挖掘学生成绩结果分析
通过SQL Server 2008 BI利用算法对数据进行挖掘,得到实验决策树的模型图和属性关系的拓扑图,如图1所示。结合决策树节点属性数据,根据模型图和关系拓扑图得出英语一级成绩和其它属性之间的内在关联关系。
4.1产生分类规则
Microsoft 的决策树模型图中从根节点到叶子节点代表了一条数据挖掘规则,通过分析模型而得出部分有效的规则,如下所示:
(1)通过学期>3.333 and专业不等于汽修,通过一级,概率=10%
(2)通过学期>3.333 and专业=汽修,通过一级,概率=11%
(3)通过学期<3.333 and专业=软件与信息服务,一级不合格,概率=37%
(4)通过学期<3.333 and专业不等于软件与信息服务 and专业不等于会计,通过一级,概率=21%
(5)通过学期<3.333 and专业=会计,通过一级,概率=42%
通过规则得知,通过学期对一级通过率有直接影响,专业属性的不同一级通过率有很大差异性,结合节点“挖掘图例”中的属性详情,找出一级成绩和其他成绩属性的关联,分析如下:
(1)在第二、三学期参加英语一级考试通过率是56%,而在第四学期以后参加英语一级考试通过率仅有10%左右。
(2)在第二、三学期软件与信息服务专业的通过率较高为63%,会计专业为42%,其余专业总的通过率21%。
(3)在第二、三学期通过英语一级的学生入学成绩、专业课程、英语平均成绩都属于中等水平以上。而不能通过的学生这几个成绩属于合格或者以下。
(4)在第四学期以后参加英语一级通过的学生入学成绩、公共课程成绩、英语平均成绩、专业课程成绩属于合格至中等水平。
4.2结果分析
在本文中把英语一级分数当作目标对象,分析其他方面对分数的作用。在对分数产生影响的各种条件里,学生最开始进入学校时取得的成绩和英语平均成绩的作用是最明显的。这主要是由于进入学校时成绩不错的同学,各方面学习能力较强,可以自觉的进行学习,考试的分数也很高。而入学考试分数低的学生,由于分数较低就到了中等的职业学校,之前的学习不是很好,尤其是在英语以及数学方面比较明显,所以英语考级达到标准的几率也不是很高。公共课的分数又比专业性课程明显,主要是因为在中职学校,特别是汽修数控专业,同学们都将专业课当作重点,对公共课程的要求不是很高,但是英语就属于公共课的一种。由于我们学校专业的差异性以及“三二分段”中高职连贯培养的特殊性,进入二年级之后就要准备“三二分段”考试了,这些方面的考试考察的重要是同学们的专业能力以及技能。所以,在第四以及第四学期以后就不会进行更深入的英语学习,因此,这部分同学们在四学期以后,缺乏英语上的提升,考试达标的概率就会更低。汽修专业、数控专业、媒体传播专業的同学在录取分数不是很高,学习基础较弱,第二、三学期考试通过率不高。计算机专业的同学合格率是最高的,计算机专业和东莞职业技术学院进行合作办学,“软件信息与服务”专业是中高职连贯培养,学生招生分数线较高,部分学生成绩比高中的分数线还要高,学生综合素质较高。会计专业女生多,招生成绩也较好,因此在第二、三学期的考试中通过率也不错,除了软件与信息服务专业,其它几个专业成绩都比较好。
4.3数据挖掘结论和意见
因为我们学校的教学任务方向和专业属性有很大程度上的关联性,一些专业是“3+2”类型的,并且这种类型的学生占有很大比率,而其余专业进行高职考试的也很多,而参加高职高考的班级对于英语一级证书的需求迫切度更高,在对英语一级考试有影响的相关因素进行分析后,对课程进行合理稳定的调整操作。打破常规的统一模式,进行有差别,有针对的去安排。
(1)安排“三二分段”中高职连贯培养班级的课程时,因为学生的入学考试分数很高,基础较好,因此,英语方面的教学依据学校的正常教学安排来完成,根据我们学校实际排课情况,即在前两个学期正常进度进行英语教学,学生的英语考级都会被安排到第二第三学期,确保英语考级的分数能够达标。
(2)非“三二分段”中高职连贯培养班级这些学生基础稍弱,通过对这些同学在英语考级方面的要求以及教务管理系统对课程调整进行细致分析之后,可以根据专业实际需求在第一、二学期适当减少专业课程,增加英语课程课时(由于专业特征和学生的需求都不同,学校课程安排计划是第1、2、5、6学期安排英语课程),保证这些专业的学生尽量在第二三学期通过英语一级考试,提升英语一级通过率。
(3)针对专业差异性,数控、汽修男生多,他们对实践操作容易产生兴趣,但是他们对英语这种基础课程的学习兴趣却不是很浓厚。所以,在对性别、入学考试的分数等各方面因素进行了分析之后,主要针对汽修、数控等专业的学生,学校能够为其分配教学水平以及专业水平较高的教师来帮助他们。并且,在日常教学里,还能够在一二三学期里增加英语教学的频率,平衡英语课和其他课程的差别,提升通过英语考级的人数比例。
5结束语
本文通过 Microsoft SQL Server BI 智能平台的决策树算法分析学生英语一级成绩和其他成绩以及通过学期之间的关系,挖掘出有用的规则,通过该算法对学生成绩数据的分析,能够精准的对成绩做出正确有效的评估,为提高英语一级的通过率做出有效的决策支持。
参考文献
[1] 邓蓓蓓.基于信息增益的量化算法及其在决策树中应用的研究[D].广州:广东工业大学,2016.
[2] 瞿花斌.数据挖掘的决策树技术在高校毕业生管理中的应用[D].济南:山东大学,2014.
[3] 李宣冬.C4.5 决策树算法在素质教育学分成绩分析与评价中的应用[J].中小企业管理与科技,2015.
[4] 李杰.数据挖掘技术在学生成绩分析中的应用研究[D].西安:西安石油大学,2010.