标题 | 数据挖掘技术在计算机等级考试中的研究应用 |
范文 | 黄嘉城 沈良忠 摘要:随着教育信息化建设的不断推进,教务系统中积累了越来越多的数据,如何对这些数据进行有效的利用,是当前教育数据挖掘领域一个重要的研究内容。该文针对教务系统中计算机等级考试成绩数据,利用Apriori算法探究学生的计算机类课程考试成绩与计算机等级考试成绩的关系。 关键词:数据挖掘;Apriori算法;关联规则;计算机等级考试 中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)22-0021-02 随着科技和信息的高速发展,我们正在进入一个新的大数据时代。全球知名咨询公司麦肯锡曾说过,数据已经渗透到了每一个行业和业务职能领域,已经成为当今时代重要的生产因素。随着教育信息化进程的不断推进,各高校基本都实现了相关教学管理系统的建设,最常使用的教务管理系统中已经积累了大量的数据。随着大数据时代的到来,教学管理人员也充分意识到这些海量数据的背后可能隐藏着未知的知识,通过对以上数据的挖掘就可能发现潜在的规律,相关的挖掘结果或许可用于支持教学相关决策。2013年,李春秋等通过针对学生所上的课程,通过关联规则挖掘出其中课程之间的关联,提出了学生预警系统的模型,并且通过将教师输入的成绩与关联规则进行比较以实现基本的预警作用。2014年,王华等同样针对教务系统的学生成绩数据,运用改进后的Apriori算法发现课程之间的关联,结果显示某门课程成绩的好坏有可能影响后续好几门课程的学习。2016年,郭敏通过关联规则分析民族高校学生成绩,发现汉族学生的成绩普遍要好,少数民族学生则需要学校更多的关注。2016年,刘钟情在体育院校计算机等级考试成绩分析中,发现了计算基础二级笔试通过率低,可以直接根据平时的成绩来预测学生的机考能否通过。2017年,陈甲华以某大学信管专业学生成绩数据为例,运用改进后的Apriori建立了大学成绩关联规则分析模型。由此可见,通过对教学相关信息的挖掘是可以发现这些教学数据背后一些隐藏的信息。因此,本文主要针对学生计算机类课程考试成绩数据,探索其与计算机等级考试的关系,为参加计算机等级考试的学生提供参考。 1学生成绩数据 1.1数据获取 针对计算机等级考试的要求,选择了信息工程学院的2014级信息管理与信息系统专业的学生的成绩为例,该专业在招生时是文理科兼招,文理生均衡而且男女比例接近,避免由于数据的不平衡导致影响结果的可靠性。 首先,从教务管理系统中导出该专业的所有学生的课程成绩,并删除了与计算机无关的一些课程;然后把计算机等级考试的成绩也融入到该表中,通过Excel的筛选功能去除部分学生补考的成绩保留首考成绩。根据学校的培养计划,计算机等级考试通常安排在大二的时候进行。为了探究在计算机等级考试之前的课程对计算机等级考试的影响和在计算机等级考试之后,后续几门课程的与计算机等级考试的关联,通过查阅该专业的人才培养方案,将二级等级考试的成绩放在了表格的第3列,而第1和第2列分别为大学计算机,C语言程序设计表示这两门课通常在等级考试之前学习,第4列开始为后续的一些其他计算机类课程,相应的数据如表1所示。 1.2数据处理 由于Apriori算法只能针对离散数据进行处理,本文对连续型的学生成绩数据进行离散化操作。按照陈苗等在学生成绩预警分析中的数据离散化处理方法,将成绩分为五个类别,主要规则如下:①成绩大于或等于90的为A;②成绩大于等于80且小于90的为B;③成绩大于等于70且小于80的为c;④成绩大于等于60的且小于70的为D;⑤最后成绩小于60的为E。此外,计算机等级考试成绩大于60视为通过记为1,小于60的为不通过记为0。在课程的选择上面,仅选择与计算机有关的8门课程,如表2所示。 2Apdod算法 2.1Apriori算法简介 Apriori算法寻找强关联规则的步骤主要通过以下两个步骤完成:①根据设定的最小支持度,找到频繁项集;②根据设定的最小置信度,找到强关联规则。 Apriori算法在步骤1中使用逐层搜索迭代的方法来寻找频繁项集,首先将所有可能成为频繁1项集的集合记为候选1项集C1,然后通过扫描数据库找到频繁1项集,记为L1;由L1再生成候选2项集,然后通过扫描数据库找到频繁2项集L2;依次重复直到不再有新的频繁项集生成。例如针对表2中的“COM”、“CYY”和“Grade”三列6行数据,可以将其数据转换为如表3所示: 设最小支持度为0.5,则候选1项集CI={{COM=A},{COM=B},{COM=C},{CYY=C},{CYY=B},{Grade=0},{Grade=1}},通过扫描数据库发现项集{COM=A},{COM=C},{Grade=0}少于最小支持数0.5*6=3,因此频繁1项集为u={{COM=B},{CYY=B},{CYY=C},{Grade=1}};由频繁1项集生成候选2项集C2={{{COM=B},{CYY=B}},{{COM=B},{CYY=C}},{{COM=B},{Grade=1}},{{CYY=B},{Grade=1}},{{CYY=C},{Grade=1}}},通过扫描数据库发现项集{{CYY=C},{Grade=1}}仅出现1次,因此频繁2项集为L2={{{COM=B},{CYY=B}},{{COM=B},{Grade=1}},{{CYY=B},{Grade=1}}},然后生成候选3项集为{{{COM=B},{CYY=B},{Grade=1}},通过数据库扫描发现该项集出现3次,属于频繁3项集,由此算法找到了最大频繁项集。 Apriori算法在步骤2中通过最小置信度来生成强关联规则,假设此处设置最小置信度为0.5,则频繁3项集川COM=B},{CYY=B},{Grade=1}}生成的部分关联规则如“{{COM=B},{CYY=B}}→{Grade=1}”的置信度为1.0,因此该规则为强关联规则,其余规则的生成类似。 2.2关联规则分析 在此,选择Weka数据挖掘工具进行关联规则的运行,设置最小支持度为0.2,最小置信度为0.5,生成规则数为100,运行软件,得到相应的规则,通过筛选挑选出部分与等级考试及其课程相关的规则,具体如表4和表5所示。表4显示了计算机等级考试之前的课程对等级考试成绩的影响;表5显示了计算机等级考试成绩对后续计算机类课程的影响。 从表4中我们可以很明显地看出C语言程序设计课程达到C的同学可以通过二级考试,而C语言程序设计这门课只拿到D的同学无法通过二级考试;大学计算机拿到B的同学能够通过二级考试,但是大学计算机成绩为C的同学无法通过二级考试。从置信度和提升度的值来看,C语言程序设计这门课的成绩好坏在影响通过二级等级考试时所占的比重还是比较高的,当然大学计算机这门课程也同样不容忽视。 从表4中的关联规则可以发现,通过二级考试的同学在JavaS-cript程序设计這门课上可以拿到B;通过二级考试且JavaScript程序设计拿到B的同学在计算机网络基础这门课可以拿到B;通过二级考试的同学在.NET网站开发技术,数据库原理与应用,静态网页开发技术也都能拿到B的成绩。通过置信度和提升度的值我们可以知道,在通过二级考试后,对JavaScript程序设计这门课的成绩影响程度最深,而对计算机网络基础、.NET网站开发技术、数据库原理这几门课程的影响都相差不多,静态网页开发技术这门课影响就相对较小。 3结束语 本文通过从学校教务系统所提供的计算机等级考试数据中,基于Weka软件应用Apriofi算法对以上数据进行关联规则。从得到的规则中可以得出,在还没有进行二级考试之前,C语言程序设计课程应该引起同学们和老师们的重视,特别是对那些想要通过计算机考试的同学来说,要加强C语言程序设计这门课的学习强度,同时老师应该更注重教学的细节,在大学计算机中可以适当加入一些关于等级考试如Office等的教学内容,来提高学生的通过率。在二级考试通过之后,该考试成绩对后续的几门计算机类课程成绩的提高可以说起到了很重要的作用,校方应该更加重视计算机等级考试,针对性地增加一些通过该考试的课程内容。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。