标题 | 基于决策树技术在高考成绩的分析研究 |
范文 | 倪婧文 沈良忠 摘要:以某高中高考二模成绩为例,基于Weka平台运用决策树分类技术对高考文科生考试的六个科目数据进行更深层次的有效分析处理,从中发现各科成绩对总成绩的影响,提取出由决策树生成的分类规则,对高中教育具有一定的指导意义和实践价值。 关键词:决策树;数据挖掘;ID3;高考成绩;Weka 中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)22-0004-03 1概述 自从1977年我国恢复高考制度以后,高考作为高等教育专业人才的选拔手段,自然而然地成为每年度的关注热点。随着大数据时代的到来,运用数据挖掘的相关技术,分析高考成绩中各科目与高考总分之间内在关系,显得尤为重要。万雅奇使用关联规则算法计算高考科目成绩中等和较差情况下,不同科目之间关联性强弱的规律。周琦基于改进后的决策树算法利用信息增益率参数对属性重要性进行评估,找出影响学生高考成绩的潜在因素,实现对高考成绩的预测。杨娟基于学生的三次模拟考试成绩数据,挖掘出模拟考试成绩与高考考试成绩之间的关联,并从高考分数、高考等第和高考选修三个方面进行决策树建模来预测学生高考考试成绩。数据挖掘技术也同时被用于分析其他类型的考试成绩,如李海峰分析了平时英语成绩对学生英语四级考试影响,并大胆预测学生英语四级考试通过情况。刘静利用决策树技术对CET 4的考试成绩进行多元化的分析,分析得到CET-4考试中听力理解、阅读理解、综合和写作四个部分对CET-4成绩影响的程度。 由此可见,数据挖掘技术在高校的成绩管理中已经得到了较为广泛的研究和应用,但是对于中学教育阶段的成绩管理目前仍然停留在简单的数据查询、统计阶段和简单的排名分析阶段,学校对学生的成绩也只是停留在最高分、平均分、及格率、优秀率分析的层面上,而缺少深入的详细的数据分析。因此,本文主要针对学生高考的二模成绩,分析学生各高考科目之间的相互关系,并根据各科成绩预测高考成绩的情况。学生可以根据研究结果及时调整自己的学习方向,让复习更有针对性,同时也帮助教师及时调整教学策略,提高教学质量。 2决策树算法 2.1数据获取 本文以2016年温州某高校学生二模成绩作为研究对象,数据直接从学校教务系统导出,具有高完整性和可信度。數据删除了姓名、身份证号等冗余字段,主要保留各科成绩等信息;同时针对部分考生成绩缺失所导致的总分异常情况进行了记录删除,最终保留数据记录315条。具体的数据如表1所示: 2.2数据处理 由于决策树的ID3算法只能处理离散化的数据,所以要对成绩数据进行离散化的处理。高考考试的试卷总分数是750分,通常人们认为高考的本科线为各科及格分数的总和,因此根据总分是否大于450分进行设置,将“总分”字段按照大于等于450分的为“PASS”,否则为“NOPASS”。 语文、数学和英语满分为150分,按照110、90划分为三个层次,分别记为“A”、“B”、“c”三个等级。历史、政治、地理满分为100分,按照80、60划分为三个层次,分别记为“A”、“B”、“C”三个等级。经过数据处理之后,最终得到的数据如表2所示: 2.3决策树构建 决策树模型是最常用的一种数据挖掘方法。它可以直接表现数据的特点,有利于理解,具有良好的分类预测能力,并能促进提取决策规则。ID3算法属于一种自顶向下、分而治之的递归构造决策树的贪心算法。其优点是在测试属性的选择上,利用了信息增益的概念,描述简单,构造的决策树平均深度较小,分类速度快,学习能力强,适合于大规模的数据处理。 ID3算法在决策树构建的过程中,最重要的就是根结点的选择。ID3算法首先找出具有最大信息增益的属性作为当前的分裂结点。然后把当前样本分成多个子集,每个子集又选择最大信息增益的属性划分,一直进行到所有子集仅包含同一类型的数据为止。具体操作过程如下: 1)计算分类属性的期望信息 考生二模成绩中,有115条是“PASS”,另外200条是“NO-PASS”,因此分类属性的期望信息为: 2)计算出各科属性的信息量 ①首先计算“语文”信息量,“语文”属性取值分别为“A”、“B”、“c”。其中,33个“A”样本中“PASS'的有28个,“NO-PASS”的有5个;218个“B”样本中“PASS”有84个,“NOPASS”有134个;64个值为“C”样本中“PASS”有3个,“NOPASS”有61个。通过以下公式计算得到“语文”的信息增益。 ②同理,按照各科的样本分类计算各科的信息量,得到的本栏目责任编辑:王力结果如表3所示: 用信息增益来选择度量测试属性,这个度量是一个很好的度量属性,我们将当前节点的属性规定为具有最高信息增益的属性。因此,比较以上6个属性字段的信息增益量,找出信息增益量最大的Math字段,把“数学”字段当做决策树的根节点,然后再针对“数学”的每个分支进行类似的操作即可生成决策树。 3基于决策树的的成绩分析 本文利用Weka软件中决策树ID3算法进行决策树分析,比较各个测试属性的信息增益率,选择数值最大的“数学”作为根结点,并根据它的几个属性形成新的训练集得到决策树。部分决策树如图1所示。 根据以上决策树模型可知,高考六个科目中数学成绩起到决定性的作用,然后是英语成绩,接下来是语文成绩,依次是政治、历史、地理。由决策树模型,进而帮助同学们调整自己的学习方法、提高学习效率,从而进一步提高考试成绩。从决策树模型中,根据学生的语文、数学、英语、政治、历史、地理成绩提取学生总成绩的通过情况的分类规则。根据分类结果为“PASS”或“NOPASS”提取分类规则。提取的部分代表性分类规则如表4所示: 根据表4的规则,可以得到如下结论: 结论1:由决策树提取的分类规则对高中生高考复习有着重要的指导作用,同学们可以根据自己实际学习情况,参考决策树挖掘结果,找出自己的学习薄弱环节,进行针对性的学习训练,对可以通过考试的几种情况有所了解,为自己制定学习计划和学习目标提供参考。从上面的规则我们可以看出在高考中总成绩的优秀和各科成绩息息相关,六门科目中一旦有任意一门成绩有取得高分及为A,则总成绩通过的概率会加大;反言而之,当六门科目中出现多门考试不及格,则总成绩也不会太理想。 结论2:在高考中,数学成绩对高考总分的影响是最为重要的,其次是英语部分和语文部分。历史、政治、地理三门成绩的是否优秀对总成绩的通过率影响较小。因此,同学们在准备考试的时候可以将数学部分作为重点来进行强化训练,有些同学误以为把时政地三门非主科训练好就能顺利通过考试的想法是不科学的。语文数学英语仍然是高考中最为重要的科目,这些考生要提前调整自己的学习计划、完善自己的学习方法、科学的提高学习成绩。 结论3:另一方面,各高中教师也可以根据决策树的几种规则,在日常的教学工作中,合理制定教学计划,适时调整教学方法。学校可以在复习阶段重点安排数学课,老师加强数学方面的复习计划,经常提醒同学们重视数学成绩练习,对数学存在困难的同学,提醒他们多做题,看错题,了解自己数学成绩不佳的原因。根据数据挖掘分析结果教师对同学们学习进行科学的指导,帮助学生进一步提高学习效率。 4小结 数据挖掘是当今最为前沿的综合性学科之一,为时下的许多重要领域提供了数据分析业务解决方案。高考作为人生中最为重要的一大考试,考试信息的分析和信息化管理将极大地促进教育信息化的建设。本文针对某高中高考二模成绩数据,利用数据挖掘技术去分析高考二模成绩数据,这是一种非常有意义的尝试,而且得到了有价值的结论,可以将其运用到实际的教学研究中的,从而为学校的教育教学提供了决策的支持。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。