序列模式挖掘在教学管理上的运用
刘昆
摘要:序列模式挖掘表示在序列数据库汇总找出频繁子序列使之成为模式的一项知识发现的过程。在教学管理中应用序列模式挖掘,根据一定的序列数据模式将学生成绩样本实行建模以及信息挖掘,获得三条高于65%置信度的时序关联规律。经过实验可知,在教学管理中运用序列模式挖掘,挖掘学生教学成绩具有一定的可行性,得出的时序关联规律可以促进教学管理,促进学生学业成绩的提升。
关键词:序列模式;数据挖掘;教学管理;运用
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)13-0189-02
序列模式挖掘是属于数据挖掘范畴内的一个常用的分支,该模式未来的应用前景非常广阔,该模式能够根据时间序列数据库发掘先后事件之间存在的关联规律,序列模式发掘在教师管理中充分应用,能够发掘学习者在学习成绩方面具有前导后续的时序关系规律,同时可以得出这一关联规律在教学管理应用可以帮助进行科学的决策有利于教师做出指导性的建议。
1序列模式挖掘模型
I代表的是项目全集,这一全集指的是论域内相关的独立数据项构成的非空数集I={i1,i2,…,Im}(k=1,2,…,m)代表的是单独的数据项。
项集sj=(1,2,…,2m-1),指的是一个全集 I 若干项目构成的集合,可以得出sj?I且 s 存在的数量2m-1。增加时间属性之后集合T为:
T = { 2 学生成绩序列模式建模 2.1数据抽取 从某一教学管理数据库中抽取一定的学生成绩当做初识的数据信息,在数据库中仅仅读取和成绩相关的数据字段,涉及学年学期、课程名称、学号等。 2.2 隐私保护 抽取的成绩样本属于学生的隐私范畴的内容,因此对所抽取的样本信息实施隐私保护[1]。为了保护信息,可以歪曲处理相关初始的一些信息,关联规律发掘的对象是集聚信息的数据集并非单独的数据项目,所以存在足够数据信息的状况下,可以对具体的数据进行歪曲处理,数据集设计统计和聚集信息能够得到准确的储存,对处理之后的信息发掘关联规律,一方面可以有效保护隐私,另一方面可以发掘数据集内部存在的关联性[2]。面对获得的样本数据,在数据信息统一的基础之上,使用随机的方法替换学号,隐蔽实际的学号,这是隐私保护的主要手段 2.3 过滤 获得成绩信息中总评成绩字段涉及部分意义不大字段信息,比如,旷考、缓考等信息,对于这部分信息需要过滤掉[3]。与此同时,为了确保数据自身的完善性,假如过滤掉部分信息,那么这一实体需要删除全部信息。 2.4 离散化 总评成绩字段最初信息可以在0 ~100进行随意取值,为方便进行分类处理,最为简便的方式是设置一个合格界限60,离散为是否合格两种取值形式。 2.5 建立序列数据模型 在教学数据库中,最初的成绩保存形式是一条记录储存一项成绩,这属于时序数据库基础上的事务模式: M={Tid,Cid,Time,Item_set} 差别非常大,因此必须转变课程信息并建立模型。 1)时间段划分 通常来说,学习成绩可以根据学期将成绩获取时间化为8个时间段,也就是四个学年,每个学年存在2个学期。但是也可能存在别的状况,比如,一个学年存在三个学期,如果是这种情况的话,需要按照实际的状况划分具体的时间段。 2)代换 为方便对数据进行处理,应当对课程名称以及经过离散获得成绩利用符号的形式进行转换。比如,我们单纯关注不合格成绩,这样对后续的课程出现的不及格成绩是否会造成影响,可以将各个几个成绩信息过滤后,使用字母符号针对某一课程涉及的不及格数据进行表示。 3)归并 在相同的时间段内获得相同学生的成绩应当划分到一条事务之中,可以保障数据同序列数据事务模式M相符,继而便于后学的序列模式发掘。假定初始成绩如同表1所示,对其进行离散、按照时间段进行划分、进行一系列的替换以及归并之后得出的序列数据库事务(如表2所示)。 3 GSP 算法 GSP 算法数据最具代表性的Apriori 类型的方法,当然也有很多需要进行扫描的数据库同时具有一定的缺陷比如候选集量太大,但是因为本次研究需要进行处理的样本信息数量相对小,因此使用GSP 算法具有一定的可行性[4]。GSP 算法描述如下: 4 序列模式挖掘实验及结果 学生成绩样本经过一定的过滤获得共计50000多条信息,在进行离散、划分、替换以及归并等操作之后,获得序列模式数据库D,进而使用GSP 算法发掘序列模式,将最后的发掘情况进行关联规律的转变,高于65%的置信度的存在三条: 1)Confidence( 高数 1 不合格→高数 2 不及格)= 66% ; 2)Confidence( 英语1 不合格∩英语2 不及格→英语 3 不合格) =73%; 3)Confidence( 信息技术 1 不合格→信息技术 2不合格) =87%。 其置信度越高就表示假如规律涉及的条件具备的情况下,这样规则情况出现的几率也就会更高。规律3具有87%的置信度,通过一系列的分析,产生这一情况的原因是只有极少数人的信息技术1不合格,但是大多数人的信息技术2 是不合格的,也就是说信息技术1没有过关的这部分人中,大部分的人他们的信息技术2是不合格的。这表明各项功课不合格几率的差异会在一定程度上影响发掘的最终结果。此外,站在规律推广立场上讲,假如需要采用序列模式发掘获得 鼓励对后续工程不合格的概率进行预测,本质上还不存在确切的可以进行表述的约束条件,样本成绩以及需要进行预测的成绩不合格率应当基本相当,不然的话获得的规律缺乏较高的有效性。上述获得三条管理可以指导学校的教学管理活动,也可以指导学生的学习进展。具有较高置信度的关联规则,假如其条件具备,则规则中涉及的情况出现几率就会增加,假如不想出现规则结果,可以实施一定的措施进行补救。比如,一个学生的英语1、2均不合格,必须提醒他英语3很可能还会不合格,不合格风险高达75%,要求该学生充分重视,学习更加努力,另外对其进行针对性的辅导,加快成绩的提升。 5 结束语 文章中在教学管理中运用序列模式挖掘,充分发掘学生成绩样本数据,获得三项较高置信度的时序关联规则,所得出的规律可以有效指导教学管理工作,教师可以针对具体规律中涉及的情况进行合理的分析,对于问题采取积极的措施进行规避,对于不足进行改善,促进教学质量和水平的提升,对于学生的具体的情况,制定特定的教育方案,提升学生的学业成绩。 参考文献: [1] 侯锟.数据挖掘技术在高校教育教学中的应用[J].吉林省教育学院学报:下旬,2012(28):51-52. [2] 王智钢,王池社,顾云锋,等.序列模式挖掘在教学管理上的应用[J].计算机与现代化,2012(11):22-25. [3] 刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J]. 计算机工程与设计,2010(31): 1130-1133. [4] 刘雨露.数据挖掘在高校学生管理决策中的应用模式分析[J].成都信息工程学院学报,2015(3):373-377.