标题 | 基于Apriori算法的学生成绩关联规则挖掘 |
范文 | 马天昊 夏静 杨婧雅 唐铭 [摘 ? ? ? ? ? 要] ?“数学成绩好的学生一般物理成绩也好”的论断可信吗?如果可信,那可信度有多高呢?为了回答该疑问,以某中学2016级698名学生某学期的成绩为样本数据,使用经典的Apriori算法,对各科目成绩间潜在的关联关系进行挖掘,得到了一系列的关联规则,如数学、物理、生物成绩都为A等级的学生,其化学成绩有70%左右的可能性也為A等级。基于这些结论可对学生如何提高学习成绩给出针对性的建议。 [关 ? ?键 ? 词] ?数据挖掘;Apriori算法;关联规则;成绩分析;科目推荐 [中图分类号] ?D920.4 ? ? ? ? ? ?[文献标志码] ?A ? ? ? ? ? ?[文章编号] ?2096-0603(2019)27-0092-03 学生成绩作为学生学业水平的直接体现,备受学生、家长、老师及学校的关注。然而学生的成绩各有差异,如何结合学生自身的成绩分布特点,基于现有成绩有效提高整体成绩,一直是大家关心的问题。 近年来,数据挖掘技术应用广泛,不仅可用于对学生成绩的分析研究[1],也可进行学生综合素质的评估[2]。当前,全国各省市正面临高考改革,如江苏、浙江等地都将采用高考等级赋分制度[3],而本文的关联规则挖掘正与成绩等级紧密相关。在实际生活中,各学校对学生成绩的利用仅限于最普通的描述统计,如平均分、最高分、增长率等较为粗浅的层次,并没有很好地利用成绩数据进行更深层次的分析和挖掘,很少思考和研究诸如“各科目成绩间是否存在某种潜在关联关系”等问题。 本文旨在利用数据挖掘中的Apriori算法[4],从大量的历史成绩中发现学生成绩的发展规律,找到学生各科成绩间的关联规则,该方法易实现,且结论易于理解。教育工作者可据此向学生提供有针对性的学习建议,进而达到快速有效提升学生成绩的目的。 一、数据来源与管理 (一)数据来源与处理 数据的质量在数据挖掘中起着决定性作用,一份准确、标准的数据是进行数据挖掘工作的基础。本文采用的数据来源于高考改革省份浙江省某市2016级学生的成绩分数。删除部分对成绩数据挖掘没有用处的信息,随后进行类型转换、缺失数据删除、四舍五入等数据预处理操作,最终得到685条完整的成绩信息,并将其作为挖掘过程中的数据集。 (二)等级赋分 由于每次考试难度不同,单纯用分数高低难以进行成绩好坏的衡量。事实上,在中、高考等升学考试的录取过程中,也并不是依据分数的高低来进行录取,而是关注其相对排名。基于此,依照浙江省高考改革方案中对成绩分级的方案[5],本文采用如下方法将排名后的成绩划分为5个等级:取各科目成绩排名前15%的成绩为A等级;排名为15%到45%的成绩为B等级;排名为45%到75%成绩为C等级;排名为75%到95%的成绩为D等级;排名在最后5%的成绩为E等级。以某次考试成绩为例,其各科目各等级对应分数范围如表1所示。 然后,对本次考试中每位学生的各科目成绩依照表1的标准进行等级赋分。表2展示了部分样本的原始成绩数据及其对应等级。 ? 如,对样本1,表示某学生在本次考试中,语文得分82分,其位于85至93之间,故根据表1,该学生的语文成绩被划分为C等级。同理,对其他样本数据进行类似的等级赋分。 二、基于Apriori算法的关联规则挖掘 关联规则最早出现在购物篮问题的研究中[4],如经典的“啤酒与尿布”案例。关联规则挖掘旨在快速有效地发现隐藏于大型事务或关系数据集中的有趣模式,在各个领域尤其是互联网领域备受关注。经典的关联规则挖掘算法有很多,本文采用经典的Apriori算法对等级赋分后的样本数据进行关联规则挖掘[4],旨在寻找各科目成绩间的潜在关联关系。 (一)Apriori算法 Apriori算法是一种最为常用的通过频繁项集挖掘关联规则的算法,它能够发现事物数据库中频繁出现的数据集,从而构造数据与数据之间的联系,这些联系构成的规则可帮助用户找出某些行为特征,以便进行决策。它主要由频繁项集挖掘和确定强关联规则两个子任务组成。 (二)通过Apriori算法挖掘关联规则 以Apriori算法为基础寻找关联规则的方法主要有以下几个步骤组成: Step 1设定最小支持度和最小置信度; Step 2扫描成绩数据表,进行各科目等级计数; Step 3寻找满足最小支持度的项,构成频繁1-项集,以此类推,找到频繁2-项集,频繁3-项集,直到无频繁k-项集为止; Step 4根据最小置信度找到符合条件的强关联规则; Step 5强关联规则输出。 三、结果与分析 设定最小支持度为10%,最小置信度为50%,运用Apriori算法寻找得到21条符合条件的关联规则,部分关联规则及其对应的支持度与置信度如表3所示。 根据关联规则的定义对成绩间的关联规则作如下理解:当某科或某几科成绩达到一定等级时,有另一科目的成绩以与置信度相等的可能性取得某个确定等级。即通过找到的关联关系,可以判断出某一科目的成绩等级受其他科目成绩的影响程度。 本文以表3陈列的(4)(7)两条关联规则为例进行说明: (4)化学、地理成绩均取得A等级的学生,生物成绩有70.1%左右的可能性为A等级; (7)语文、政治、历史成绩分别取得B、B、C等级的同学,地理成绩有50%左右的可能性为C等级。 四、结论与讨论 本文以某校2016级学生成绩数据样本进行了科目成绩间关联规则的挖掘,举例说明了关联规则在成绩数据分析中的实际意义。从685条数据中,挖掘出了以下关联规则:{mathlevel=mathA}=>{phylevel=phyA},支持度为0.114827,置信度为0.691754。此条关联规则为“数学好的同学一般物理也好”这一说法提供了很好的理论依据,置信度这一标准为其中的“一般”二字给出了充足的量化参考。 根据Apriori算法挖掘出的关联规则,可以有针对性地对不同学习情况的学生就提升成绩提供建议。以表3中第(7)条关联规则为例,若某位学生语文、政治、历史成绩分别取得B、B、C等级,但地理为D等级,并未达到推荐的C等级,则可向该位同学提出将学习重心向地理学科倾斜的建议。 众所周知,高考模式改革势在必行,高一学生如何进行恰当的科目选择是一大头疼问题所在。此时,考虑基于高考分数等级划分进行关联规则挖掘,以避免考试难度而引起的分数差异,进而可对学生各科成绩进行准确有效的分析,为学生提供实际且有效的帮助。 参考文献: [1]赵辉.数据挖掘技术在学生成绩分析中的研究及应用[D].大连:大连海事大学,2007. [2]林国全,梁月汝,徐英虎.关联规则挖掘在大学毕业生综合素质评估中的应用[J].巢湖学院学报,2009,11(6):33-36. [3]谭小莉,彭文波,李祚山.新一轮高考综合改革背景下选考科目分数转换与合成方法初探[J].中国考试,2018(11):30-40. [4]徐华.数据挖掘:方法与应用:应用案例[M].北京:清华大学出版社,2018. 编辑 张 慧 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。