标题 | 关联规则在课程相关性分析中的应用 |
范文 | 摘要:关联规则是数据挖掘的一个研究方向,它可以通过对大量数据中数据项相关性的分析,挖掘各数据项之间的内在联系。高校各个专业课程既相互独立,又存在一定的先后顺序,课程的学习彼此之间也会有一定的影响。一门课程的学习情况可能会影响其他相关课程的学习。运用关联规则技术对学生专业课程成绩进行分析,揭示各专业课程之间的内在联系,为学生专业课程的选择和学习提供指导意见,为人才培养方案的制定及课程的合理设置提供有价值的参考依据。 关键词:数据挖掘;关联规则;课程相关性;分析 中图分类号:TP301.6 文献标识码:A 文章编号:1009-3044(2019)35-0253-03 近年来随着高等教育的不断发展与普及,为确保教学质量,很多高等院校完善和加强教学管理,在具体的教学管理过程中,聚集了海量的原始教学信息,但是目前对这些原始教学信息的使用,仅仅停留在简单的查询和统计阶段,没有更深层次地挖掘其内在的更有价值的信息。这些原始的教学信息往往蕴藏着一定的教学规律和模式,而有一些教学规律和模式往往是隐含在这些原始教学信息的背后,因此为了充分发挥这些原始教学信息的作用,需要运用数据挖掘技术的分析方法,对它们进行更加深入的分析和研究。 数据挖掘是从数据库的大量数据中挖掘出有用的信息,即从大量的实际应用数据中,发现人们之前未知的、有规律的信息和知识的非平凡过程[1][2]。关联规则是据挖掘中运用极其广泛的研究方法之一,主要是探究各个数据项之间联系规则。高校各个专业课程不仅存在一定先后顺序,而且设置不同的专业方向,这给学生在选择和学习专业课程上带来一定的困扰。关联规则技术可以通过对学生专业课程成绩进行分析,发现隐藏在学生专业课程成绩背后的各专业课程之间的内在联系,为学生专业课程的选择和学习提供指导意见,为人才培养方案的制定及课程的合理设置提供有价值的参考依据。 1 关联规则 关联规则最初用于购物篮的分析,缓过对交易数据库中不同商品的分析,发现数据库中不同商品之间的联系规则,这些规则有可能是人们之前未知的或者被隐含的[3]。 1.1关联规则的定义 设I= {I1,I2,…,Im)是一个项目集,事务数据库D={t1,t2,…,tn},其中事务数据库每个事务ti(i=l,2…,n)都是I上的一个子集[5]。 1)支持度:设I1∈I项目集I1在事务数据库D上的支持度support(I1)=‖{t∈D|I1∈t}‖/‖D‖; 2)频繁项目集:若support(I1)不小于用户指定的最小支持度minsup,I1即是频繁项目集,如果I1不被其他的项目集所包含,I1就是最大频繁项目集; 3)关联规则:设I1、I2是最大频繁项目集中的互不相交两个子集,则I1→I2称为关联规则; 4)置信度:I1→I2的置信度就是包含I1、I2的事务数与包含I1的事务数的比值,conf(I1→I2)=support(I1∪I2)/support(I1) 1.2关联规则的基本思路[5] 关联规则的经典算法是Apriori算法,它是根据事先指定的最小支持度,运用逐层扫描的方法,发现最大频繁项集。Aprio-ri算法可以分为两个子问题[6]: 1)发现最大频繁项目集:根据事先指定的最小支持度min-sup,运用逐层扫描的方法,依次产生不小于最小支持度的各个频繁项目集,最终遴选出最大频繁项集。 2)生成关联规则:根据事先指定的最小置信度minconf,在每个最大频繁项目集中,遴选出满足最小置信度的关联规则。 1.3频繁项目集的产生过程[7] 1)频繁项目集L1:根据事先指定的最小支持度minsup,第一次扫描事务数据库,遴选出不小于最小支持度的1频繁项目集L1; 2)频繁项目集L2:自连接L1中所有项目,形成2-候选项C2,第二次扫描事务数据库,遴选出不小于最小支持度的2频繁项目集L2; 3)重复上述过程,直到没有新的候选项集出现时,算法终止,最终遴选出最大频繁项集。 1.4 Apriori核心算法[4] Ll={large 1-itemsets} for(k=2;Lk一1≠Φ;k++)do begin Ck=apriori-gen(Lk-1)//新的候选集 for all transactions∈D do begin Ct=subset(Ck,t)//事务t中包含的候选集 for all candidateS∈Ct do c.count++ end Lk={c∈Ck|c.count>=minsup} end L=ULk 算法中Apriori_gen(Lk-1)函數的功能是自连接Lk-1生成集合Ck,并删除含有非频繁项集的项目集;函数subset(Ck,t)的功能是筛选出所有候选子集。 2 关联规则在课程相关性分析中的应用 2.1数据来源 实验数据选取近五届届计算机科学与技术专业四年专业基础和专业课程成绩作为数据源,共选择《C语言》《数据结构》《数据库原理》《数字电路》等17门课程的成绩。 2.2数据预处理 收集的数据通常会存在不完整、不一致的“脏数据”,需要事先进行数据预处理,数据预处理分为数据清理、数据集成和数据离散化处理三个阶段。 1)数据清理:从源数据中清除因退学、重修等课程未修完学生的信息,此外近5年由于培养方案有所改变,5年内不一致的课程的成绩一并清除。 2)数据集成:每个学生专业课程的成绩作为一个数据源,将学生的专业课程成绩统一存储在专业成绩文件中。 3)数据离散化处理:各科成绩离散化处理的方法:90-99分:用A标识,80-89分:用B标识,70-79分:用C标识,60-69:用D标识。 采集处理的部分专业课程成绩如表1所示: 2.3实验结果及分析 本实验数据是计算机科学与技术专业四年专业基础和专业课程成绩,运用Apriori算法分别进行三个实验: 2.3.1软件方向课程挖掘结果 考虑课程的先后顺序,将C语言、数据结构、程序设计、数据库原理和操作系统作为前项,将人工智能、计算机图形学、软件工程、算法分析与设计和编译原理作为后项,设定最小支持度为10%,最小置信度为80%,共得到31个规则,软件方向部分挖掘结果如表2所示: 2.3.2硬件方向课程挖掘结果 将专业基础课程模拟电路、数字电路、汇编语言、计算机组成原理为前项,将专业课程微机原理、单片机原理、计算机网络作为后项,设定最小支持度为15%,最小置信度为80%,得到18个规则,硬件方向部分挖掘结果如表3所示: 2.3.3全部专业课程挖掘结果与分析 考虑课程的先后顺序,将软件、硬件专业基础课程作为前项,软件、硬件专业课程作为后项,设定最小支持度为20%,最小置信度为80%,共得到42个关联规则,全部专业课程部分挖掘结果如表4所示: 实验结果分析: 1)软件方向课程之间有一定的关联度,专业基础课程的学习对后续专业课程的学习的关联度比较大,并且相关的两门基础课程对它的影响较大,建议加强相关专业基础课程的教学。 2)硬件方向课程之间有一定的关联度,专业基础课程的学习对后续专业课程的学习的关联度比较大,建议加强专业基础课程的教学。 3)软件方向专业课程不仅与软件方向专业基础课程相关,还与硬件方向专业基础课程相关,例如:算法分析与设计与程序设计、操作系统和模拟电路有一定的关联度,人工智能与数字电路有一定的关联度。 4)软件、硬件方向专业基础课程共同对硬件方向专业课程产生一定的影响,例如:C语言、计算机组成、汇编语言这三门课程共同与微机原理的学习有一定的关联度,而C语言、计算机组成、数字电路共同对单片机原理的学习有一定的影响。 5)从专业学习的角度,硬件和软件方向课程没有严格意义上的划分,整个课程都是一个完整的体系。例如:人工智能这门课程有三个规则,分别是程序设计=“C”and C语言=“C”→人工智能=“C”;程序设计=“C”and模拟电路=“C”→人工智能=“C”;操作系统=“C”and C语言=“C”→人工智能=“C”。一门课程的学习对课程体系中其他课程的学习均有一定的影响。每一门课程在专业知识体系的构建中都很重要,建议学生重视每一门课程,夯实专业功底。 3 总结 本文以计算机科学与技术专业为例,分别从硬件、软件、全部专业课程三个层面,运用关联规则对学生专业课程成绩进行分析,旨在得到相对应的关联规则,发现隐藏在成绩数据背后的专业课程的相关性,一方面可以指导学生了解各专业课程间的相互关系,科学规划专业方向,合理制定专业课程的学习计划;另一方面为人才培养方案的制定及课程的合理设置提供有价值的参考依据。 参考文献: [1]UM Fayyad,G Piate-Shapiro,P Smyth. Knowledge discoveryand data mining: towards a unifying framework[A]. In Proc.2nd Int' lConf. On Knowledge Discovery and Data Mining[C].Menlo Park.1996. [2]王振武,馀慧.数据挖掘算法原理与实现[M].北京:清华大学出版社,2015. [3]段云峰,宋俊德,等.基于数量的关联规则挖掘[J].北京邮电大学学报,2002(12):247-288. [4]毛国君,段立娟.数据挖掘原理与算法[M].北京:清华大学出版社,2015. [5]R Agrawal,T Imielinski,A Swami.Mining association rules be-tween sets of items in large databases[A]. Proc. of the ACMSIGMOD Conference on Management of data[C].1993.207-216. [6]Zhang Changsheng, Li Zhongyue, Zheng Dongsong. An Im-proved Algorithm for Apriori.2009 First International Work-shop on Education Technology and Computer Science,2009,995-998. [7]舒曄.基于关联规则的Web日志挖掘系统的研究与应用[D].南京:南京航天航空大学,2010:35-36. 【通联编辑:王力】 收稿日期:2019-09-10 作者简介:王峻(1967-),男,安徽淮南人,淮南师范学院副教授,硕士,研究方向为数据挖掘。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。