网站首页  词典首页

请输入您要查询的论文:

 

标题 基于数据挖掘的贫困生认定辅助系统设计
范文 樊搏++姜玉国
摘 要:介绍了数据挖掘概念以及一卡通数据中心的设计,介绍了数据挖掘跨行业标准过程,并通过该过程,完整描述了数据挖掘的实现过程及实现方案。详解了研究中涉及的数据挖掘对象:学生消费数据、学生早餐消费数据、学生圈存数据,为贫困生认定工作提供辅助数据。
关键词:一卡通数据中心;消费数据;圈存数据;数据挖掘
DOIDOI:10.11907/rjdk.1511003
中图分类号:TP319
文献标识码:A 文章编号文章编号:1672-7800(2015)012-0134-02
0 引言
大数据时代,数据即是财富、知识,但如何获取这些知识并运用于实际工作,却有很多研究工作要做。通过对笔者学校一卡通数据中心集成的数据进行挖掘,为贫困生认定提供一定的辅助功能。
1 一卡通数据中心设计
一卡通系统数据中心管理平台应用范围覆盖整个校园,实现身份识别一卡通、校内消费一卡通、校务管理一卡通,通过平台标准的扩展接口实现与校园内的其它管理系统、办公自动化系统数据共享,为智慧校园建设打下基础。
2 数据挖掘
数据挖掘就是从过去积累的大量数据中,利用各种分析方法与技术,获取有用的、用户感兴趣信息的过程[1]。
数据挖掘的跨行业标准过程(CRISP-DM)由欧洲几家数据挖掘公司提出。CRISP-DM模型认为完整的数据挖掘过程,是把对企业需求挖掘的理解,以及后期对模型的评价与模型的延伸应用都纳入到数据挖掘过程中来,而不仅仅是针对数据整理、数据显示、数据分析以及构建模型等理论建立过程,真正做到解决企业需求[2]。下面根据CRISP-DM定义的6个阶段阐述贫困生辅助认定系统设计。
2.1 定义商业需求
此阶段的任务是:应用方和开发方确定双方需求,并将其转化为数据挖掘和软件开发需求,得出初步的设计和实现思路。
具体过程:从一卡通数据中心的数据中分析出贫困生的消费模式、学习模式和生活模式。经过初步分析,笔者认为,可以采用聚类分析和分类分析相结合的方式进行。具体通过分析以下3个方面的数据,全面了解一个学生在校的经济情况。
(1)学生消费数据挖掘分析。通过对学生在食堂、超市消费情况进行分析,根据学生每学年在校就餐的次数以及平均消费金额,可以分析出该学生真实的经济条件。
(2)学生吃早餐数据挖掘分析。研究表明,学生是否吃早餐与学生成绩和上课出勤率(视为努力程度系数)存在一定的关系。可以根据学生是否吃早餐,以及早餐的消费金额分析,从侧面确定该学生的家庭经济条件以及学习模式。
(3)学生圈存数据分析。很多研究只注意了校园卡消费的一面,没有注意校园卡充值的一面,校园卡圈存的模式,反映了学生对于经济的态度和现状。
2.2 数据理解
此阶段包括建立数据库与分析数据。笔者利用ORCALE将一卡通数据中心的数据还原,还原后,建立相应的目标数据视图,利用数据挖掘技术,对相应的目标数据视图进行分析。
2.3 数据预处理
此阶段和数据理解阶段为数据准备阶段的核心,其目的是把各种不同来源的数据加以清理、整理和归并,配合数据挖掘技术使用。
一卡通数据中心存在多种消费数据,如食堂消费数据、超市消费数据、购买热水、交纳电费、借书超时费、上机费用等等,而且数据库里还有教职工、临时卡以及校外读者等不同用户。因此,需要将消费数据和圈存数据整理,清洗掉数据噪声。
注:此表中的数据仅为消费数据,包含了超市购物数据和食堂消费数据,不包括上机数据、购买电费、购买开水等。同时,食堂对于菜品有3个层次划分,分别为高价、中价和经济型
以每天8:00以前的食堂消费定义为早餐时间,学生是否吃早餐数据可以从表1中获取。
2.4 建立模型
此阶段对预处理过的数据应用各种数据挖掘技术,建立分析模型。数据挖掘方法一般有:关联分析、聚类、分类、预测、时序模式[3]。
本研究采取聚类和分类两种方法,并且相互比较和促进。聚类和分类算法是商业上用于客户分类中使用最多的算法。
分类可以表述为一种有监督的机器学习方法,通过对一部分样本进行训练,获取相关对象特征,达到“最小化类间相似性,最大化类内相似性”目的,然后将预判定数据分类,也算是一种预测模式[4]。
学校一卡通系统从2007年开始建设并投入使用,笔者从前8年的数据中,将消费模式利用支持向量机算法,根据经济条件将学生分为5个层次,贫困、较差、中等、较好、优越5个级别。当进行贫困生判定的时候,工作人员将申请者的学号导入系统,系统可自动将申请人分类。
聚类分析的本质是利用物以类聚的原理,把特征相似的对象聚合在一起。聚类和分类不同之处是:聚类是无指导学习,聚类分析输入的是一组未分类记录,并且这些记录分成几类事先也不知道。聚类分析就是通过分析数据库中记录的数据,根据一定的分类规则,合理划分记录集合,确定每个记录所在类别。聚类分析属于一种判定模式的算法。聚类算法可以分为划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法等[5]。
本研究中使用K-MEANS算法,根据设定的阈值,将学生分成上述5个级别。在需要对贫困生进行判定时,运行该系统,判断学生位于哪个级别,是否属于贫困生。
2.5 评价与解释阶段
实际应用中,随着应用数据的不同,模型的准确率肯定会变化。所以,在这个阶段,开发者应该利用专业知识,进一步验证数据和算法,并且最好赋予算法自我优化的功能。
本研究中,笔者采取两种不同方法中的经典算法,用于相互促进和验证。比如,利用分类和聚类得到的结果进行验证,找出其中的异同。将聚类获取的数据,求出算术平均值,然后以此为分类依据对数据分类,检验分类结果是否一致。
进一步,是否能通过遗传算法优化分类和聚类算法。因为数据库的数据是不停增长的,如果分类或者聚类标准一成不变,将导致结果的误差。
2.6 实施
一般而言,完成模型创建并不意味着项目结束。模型建立并经验证后,要提供给专业分析人员作参考或给非专业人员使用。
将算法优化并初步测试后,就可以编写进程序中,用户不是直接去执行算法而是应用系统。本研究中,笔者采用了VISUAL STUDIO 2010中C#开发的Web应用。该开发工具简单易用,开发高效。
参考文献参考文献:
[1] 张丽丽.数据挖掘技术在校园卡信息管理系统中的应用研究[J].中国管理信息化,2013,16(4):79-80.
[2] 鲁钊.基于ID3算法的机械制造业决策应用[J].计算机应用,2011(11):3087-3090.
[3] 习慧丹.数据挖掘研究综述[J].电脑与信息技术,2012(2):44-46.
[4] 李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报,2011,28(4):44-47.
[5] 孙吉贵.聚类算法研究[J].软件学报,2008,19(1):48-61.
(责任编辑:杜能钢)
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/22 18:04:17