决策树算法在学生选课系统中的应用
张悦 杨学全
摘 要:决策树算法是一种直观的、易于理解和实现的科学算法,将决策树算法积极运用于学生选课系统中能够获得诸多良好的效果。本文在分析决策树以及决策树分类算法中最常使用的C4.5算法的基础上,重点研究了决策树算法在学生选课系统中的应用。
关键词:决策树算法;学生选课系统;C4.5算法;应用
如何提高学校网络选课系统的使用效率和质量,有效发挥选课系统的功能与作用,是各大教育机构最为关切的重点课题。决策树算法是一种直观的、易于理解和实现的科学算法,将决策树算法积极运用于学生选课系统中能够获益良多,对于提高学生选课系统利用率具有极大帮助。
1 决策树
决策树是一种直观的图解法、预测模型,其建立在概率分析基础之上,人们在把握研究对象各种已知情况发生概率前提下运用决策分支画来分析各种情况的映射关系,最终构成一个类似于二叉树结构的空间架构图,因图形很像一棵散开的树而用术语称为决策树。决策树主要由3个层次构成:①最顶层为根节点,由根节点向下分支不同的小节点;②中间层为叶子节点,相当于属性的展示,利用每个分支的测试属性功能可以测试出节点的属性;③最终层为叶节点,该层主要负责规划类别,当开始由树根向下逐层测试时,根据节点属性系统会自动规划节点类别。通过构造决策树模型,我们可以利用模型的数据生成、预测2大功能来得出某些规律或进行预测,模型中树的根节点相当于一个空间的集合,叶子节点与叶节点是空间集合的分裂子集,通过属性测试可可生成多个数据集合,最终形成叶节点的集合数据,可获得规律集合便于分析和研究。
2 决策树分类算法--C4.5算法
在决策树分类算法当中,C4.5是一种最常使用的算法,其是基于ID3算法而延伸的一种更具效率性、准确性的算法。C4.5算法被广泛应用于多个研究领域,主要由3大步骤组成:①算法:由决策树提供给定的训练数据,Generate Decision Tre;②输入:samples(训练样本)、Attribute list(备选属性集合);③随后输出:一棵决策树。具体如下:
(1)生成根节点N;(2)IF T都属于D的同类,返回叶节点N后可标记为D;(3)IF attribuetlist 为空或T中所剩余的样本数,若样本数低于给定值则可返回叶节点N,其中标记N为T类中出现最多次数的类;(4)For each attribuetlist 代表中属性,其计算信息的增幅率为inf ormation gain ratio;(5)N的测试属性为test attribute= attribuetlist,因而attribuetlist具有最高级增幅率属性;(6)IF的属性测试具有连续性,找到IF属性即为该属性的分割阀值;(7)For each 的节点N为一种始发的叶节点(IF的叶节点和样本子集T相对应,为空时改分裂节点可生成始发节点,从而标记为T中出现最多的类。)
3 决策树算法在学生选课系统中的应用
学生选课系统的规划和设计复杂而繁琐,需要涉及许多计算机方面的知识,同时选课系统是否合理、科学直接关系到教育者对相关信息的收集、整理和分析,进而最终影响整个选课教学质量以及学生对选修课的积极性。其中,目标数据挖掘、课程设计决策树分类法结果是决策树算法与技术在学生选课系统中的应用。
3.1 目标数据挖掘
笔者从学校官网中随机抽取了一些不同类学生的基本信息,运用决策树算法和技术对这些学生信息进行统一分类,综合分析学生的爱好及需求,以实现目标数据挖掘,如表1是对学生信息进行处理的方法。最后,以所得的目标属性、目标数据来设置选修课程,以确保选修课程能够得到学生的认可与接受,数据挖掘后最终生成决策树,如图1所示。
(其中1、0分别代表女生、男生;0、1、2分别代表一、二、三年级;0、1分别代表文科、理科;0、1、2分别代表文学课、艺术课和专业课)
3.2 课程设计决策树分类法结果
根据学生的爱好、需求以及期望值,运用决策树算法得出的结果显示:对专业选修课有兴趣爱好的多为二、三年级学生,男女比例相当,这是由于二、三年级学生开始为其今后毕业做准备,以提高自身的专业知识与技能为根本学习目标。而对文学选修课有兴趣爱好的多为一、二年级学生,男女比例相当,这是由于一年级学生需要学习较多的专业课程,自身学习任务与压力较大,因而在选修课程上偏向于简单、轻松的课程,主要以开拓眼界与知识面为目标。对于艺术选修课有兴趣爱好的学生很少,一般是一年级女生偏向选择该课程。由此数据分类结果得看得出一个结论:决定不同年级学生选课类型与方向的主要因素是兴趣爱好、就业两大因素,其中低年级选择选修课程大多由自身爱好决定,而高年级学生在选择选修课程时更多考虑的是求职就业。
参考文献:
[1]朱娟,杨丰华.改进的决策树算法在教务管理数据挖掘系统中的应用[J].教育技术导刊,2010(4).