标题 | C4.5分类决策树在高校排课管理中的应用研究 |
范文 | 郭巧驰 杨洪 摘要:排课管理是高校教学管理中的一项重要任务。在厘清C4.5算法及其决策树构建方法基础上,对排课管理信息进行数据预处理,以“是否高职”作为目标属性研究高级职称老师的授课情况,构建C4.5算法决策树,从而得到高职授课规律并提出合理排课建议。该方法对优化师资力量配置,提高教学效果具有重要意义。 关键词:排课管理;C4.5算法;决策树;裁剪优化 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)02-0249-03 Research on the Application of C4.5 Classification Decision Tree in University Course Arrangement Management GUO Qiao-chi,YANG Hong (Ordnance Sergeant School, Army University of Engineering, Wuhan 430000, China) Abstract: Course arrangement management is an important task in the teaching management of colleges and universities. On the basis of clarifying the C4.5 algorithm and decision tree building methods, after data preprocessing of course arrangement management information, we toke the Taking " Senior Professional Title Teachers" as the target attribute to construct the decision tree on C4.5 algorithm, resulting in higher vocational teaching law and put forward reasonable suggestions timetable. This method is of great significance to optimize the allocation of teachers and improve the teaching effect. Key words: Course arrangement management; C4.5 algorithm; decision tree; cutting optimization 排課管理是高校教学管理中的一项重要任务,构建科学合理的课程安排计划,发现课程安排中的潜在问题并提供科学化建议,对提高教务工作效率,优化师资配置,提升教学质量具有重要意义。 为了厘清高级职称老师的授课情况,利用数据挖掘中的决策树分类算法对课程信息进行挖掘,重点研究高职和非高职老师的授课安排配备情况,发现其中规律并为排课提供合理化建议。 1 C4.5算法 针对数据挖掘分类的问题,决策树是经典的解决方案,像一棵树的组成,决策树分类器分为决策节点、分支、叶子。决策树算法最早是由机器学习研究者Quinlan提出,称作ID3,并且在此基础上,又进一步提出了后继算法C4.5[1,2]。 决策树分类器就是对决策树遍历的过程,而决策树分类器在本质上来说是依次利用被分类对象的几个属性来进行分类的方法。决策树只有一个根节点,即只有一个起始位置,这个根节点就是决策树分类器的开始,决策树的决策节点就是决策过程中的一个决策,通过这个决策对经过此节点的数据流进行分类。在进行决策树遍历的过程中,每个节点的改变都有可能导致结果翻天覆地的变化,也就是说,一个决策节点的变化都可能导致叶子的变化。 分类算法一般都是可以分成两步的过程[3],第一步是模型的建立,也称为训练阶段,目的是把数据类或概念集的分类器进行描述和预先定义。第二步是对分类器进行评估,评估的主要方面是预测是否准确等等。如果评估结果显示准确性是可以被接受的,则此分类算法的模型就可以被接受,否则就需要重新选择分类算法的模型,重新进行上述两个步骤。 决策树方法是利用树型结构表示分类或决策集合,利用分类器算法对某一目标变量进行预测,其优点是可以用直观的规则来描述与变量相关的因素,除此之外,对这些因素影响程度进行比较分析,可以得到主要影响等[4]。 评价一般从分类器的预测结果准确性、建立和使用模型所用时间、处理原始噪声数据的能力、处理大规模数据的能力等等方面来衡量,而在这其中,检测结果中被正确或错误得分类和预测的所占比例是中最重要的度量结果。 2 决策树的构建 如何进行属性选择便成为决策树效率是否高甚至决策树是否成功的关键。首先,根据信息论我们可以明确,对于期望越小的信息,它的增益也就越大,分类后的信息的有效性越大,所以,我们需要找到这个“期望”,然后根据这个属性分类进行决策树的构造[5]。 假设D为用上述进行的划分的依据,则根据D的熵可以表示为: [info(D)=-i=1mpilog2pi] (1) 熵的实际意义是表示D中的分类标号所需要的平均信息量,其中pi表示第i个类别在整个过程中出现的概率,可以用属于次类别元素的数量除以元素总量进行计算。 假设将D按照属性S进行划分,则S对D划分的期望信息为: [infos(D)=j=1kDjDinfoDj] (2) 信息增益在分类前后造成的信息量差值为: [GainR=Info(D)-Infos(D)] (3) 由于info(D)相同,即减数相同,所以欲得到最大的Gain(R),只需找到最小的Infos(D)。即将属性S作为划分节点进行构建决策树。 3 C4.5决策树在排课管理中的应用 以某高校的课程管理信息作为数据集,使用C4.5决策树进行数据挖掘,重点分析高职老师的任课情况。 3.1 应用背景 选取了某高校2016学年的课程管理信息作为应用数据集,该数据集涵括了30余万条样本数据,包括了基本属性集合为{开课单位、课程性质、合班人数、学时学分},目标属性为{职称}。 对样本数据进行数据预处理后,属性集合数据均调整为标称属性[6],其中各属性在全体样本数据集D上离散取值为: 开课单位={基础部,电子学院,动力机械学院,电力电气学院,直属单位} 课程性质={必修,选修} 合班人数={多,中,少} 学时学分={高,中,低} 职称={高职,非高职} 3.2 C4.5决策树运用 按照C4.5决策树构建方法对所有数据集的各属性求望值信息info,结果见表1: 分析上述数据,最大的熵值是开课单位,所以决策树第一层按照开课单位进行划分,并计算各单位的Gain(R)得到一层决策树如图1。 对不同开课单位的课程性质、合班人数、学时学分3个属性进行期望值计算,其中电力电气学院的课程数据低于484条,进行决策树剪裁,其子决策树直接为两个叶子顶点{高职和非高职}。其他单位结果见表2: 分析上述数据,“基础部”最大的熵值是合班人数,所以决策树下一层按照合班人数进行划分,而其课程性质支持度太小,做裁剪处理,合班人数的下一层选择学时学分,形成“理学院”的完整决策树如图2;“电子学院”最大的熵值是合班人数,所以决策树下一层按照合班人数进行划分;“动力机械学院”最大的熵值是合班人数,所以决策树下一层按照合班人数进行划分,而其课程性质支持度太小,做裁剪处理,合班人数的下一层选择学时学分,形成“动力机械学院”的完整决策树;“直属系”最大的熵值是学时学分,所以决策树下一层按照学时学分进行划分。 同理可以得到各开课单位的决策树,并按照样本数据低于5%的原则进行裁剪优化[7];对于叶子节点,我们设定阀值为0.7,即认为具有显著特征属于某一类目标属性,对图2分析各节点高职所占比例,并进行裁剪划分,用Y和N标识叶子节点的归类,可以得到图3。 经上分析,对各个开课单位按照同样方法完整构建2016学年课表数据的决策树构建,总的决策树见图4。 根据图4可以初步以下结论: 1) 职称为高职的教员更倾向于选择{小班}和{学时数少或中等}的课程。 2) 动力机械学院、电子学院的大班高学分课程由高职教员授课较多。 3) 直属系所开设的学时少并且小班的课程中有86.1%是由高职教员授课。 根据上述结论,向教务课程管理人员提出以下决策建议: 1) 增加职称为高职的教员教授属性为{大班}和{学分学时数高}的课程。 2) 对不同的开课单位应当进行分类指导,其中动力机械学院、电子学院高职授课情况较好,电力电气学院授课情况应当单独研究。 4 结束语 在排课管理信息中经过数据预处理,以“是否高职”作为目标属性研究高级职称老师的授课情况,使用典型的C4.5决策树算法,通过实际样本数据构建决策树,得到高职授课规律并提出合理排课建议。 该方法是数据挖掘技术在实际教学管理业务中的具体应用,对优化师资力量配置,提高教学效果具有重要意义。 参考文献: [1] Quinlan J R.Induction of decision tree[J].Machine learning,1986(1):81-86. [2] Quinlan J R.C4.5:Programs for machine learning[M].San Mateo:Morgan Kaufmann Publishers Inc,1993:17-42. [3] 孔玉婷.数据挖掘中的分类算法研究與应用[D]. 鞍山:辽宁科技大学, 2015. [4] Xingdong Wu,Vipin Kumar.The Top ten algorithms in data mining[M].Taylor&Francis CRC press,2009. [5] 王元茂,杨松涛. 信息熵及其在中医“证症”关联中的应用研究[J]. 电脑知识与技术,2016,12(27):229-231. [6] 李玉霞,刘丽. 基于标称变量向量化处理的网络入侵检测算法[J]. 科技通报,2014,30(2):99-101. [7] 张晓龙,骆名剑. 基于IF-THEN规则的决策树裁剪算法[J]. 计算机应用,2005,25(9):1986-1988. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。