大数据时代的教育数据挖掘:方法、工具与应用
何普亮 张战胜
摘? 要 在教育领域,通过数据挖掘技术可以从海量教育数据中挖掘出大量有价值的信息,为教与学的各类利益相关者提供参考和建议。从大数据时代的教育数据挖掘的一般过程、典型方法、常用工具和典型应用等几个方面对教育数据挖掘领域展开论述,以期为教育管理人员和研究人员提供参考,促进教育教学走向个性化和智能化。
关键词 大数据;教育数据;数据挖掘;教育管理;智慧教育
中图分类号:G434? ? 文献标识码:B
文章编号:1671-489X(2019)23-0007-04
1 引言
随着教育信息化的不断推进与发展,先进的信息技术手段对教育教学的各个方面都产生深刻影响,正在不断改变未来教育的发展方向。其中大数据技术对教育的影响尤为令人瞩目。教育部2018年4月印发的《教育信息化2.0行动计划》中即指出:“要全面提高利用大数据支撑保障教育管理、决策和公共服务的能力。”因此,在大数据背景下,利用数据挖掘技术对教育教学的全过程进行分析、管理和评价,既是技术发展的必然趋势,也是信息化时代教育教学的必然要求。
在教育信息化尚未普及的年代,由于缺乏有效的信息采集与存储手段,大量的教育教学过程信息难以被有效记录,因此,教育大数据挖掘也就缺乏相应的土壤。现在,随着数字化学习、网络学习空间、课堂直播技术等现代化信息技术手段的普及,学习者的学习过程、学习行为可以被非常方便地记录下来,为教育数据挖掘提供了大量的数据来源,因此,开展大数据背景下的教育数据挖掘也就成为可能。鉴于此,本文以上述现状为背景,对大数据下的教育数据挖掘技术进行研究和综述,从方法、工具和应用三个方面详细论述教育数据挖掘技术及其应用。
2 教育数据挖掘的一般过程
与传统的数据挖掘不同,教育数据挖掘的主要应用领域为教育教学领域,其核心目的是挖掘教育教学中存在的规律、发现核心问题,为教育领域中的利益相关者提供建议与对策。根据教育教学的实际应用情况,本文提出教育数据挖掘的一般过程,如图1所示。
在对教育过程中产生的海量大数据进行挖掘时,首先需要进行数据采集。中学教育领域较为常见的数据类型包括成绩数据、作业数据、讨论数据、学习者的反思数据等。在完成数据采集后,第二步是对数据进行预处理,常见的预处理主要包括去重、去噪、文本类数据的预处理以及特征选择等。完成预处理后,则应根据数据挖掘的目的,选择合适的挖掘方法,常见的挖掘方法包括分类、聚类、文本挖掘、社交网络分析等。得到挖掘结果后,应采用合适的方法对挖掘结果进行呈现,目前常用的是可视化的呈现方法包括柱状图、饼图、折线图、词云图、网络结构图等。最后应对数据挖掘的结果进行分析,向各类利益相关者如教育管理人员、教师、学生等提供相应的建议与对策,以促进教育教学的发展。
3 面向大数据的教育数据挖掘典型方法
在上述教育数据挖掘的一般过程中,挖掘方法的选择是最为核心的步骤之一。下面对教育数据挖掘中几类典型的挖掘方法进行介绍。
基于分类的教育数据挖掘方法? 分类是数据挖掘中最为常用的方法之一,它是指按照一定的分类体系自动地将对象划分至某一类别中。若待分類的分类体系属于类别数据,则该过程被称为分类;若待分类的对象属于数值数据,则该过程被称为回归。在教育领域,常用的分类算法主要包括决策树算法、k近邻算法、朴素贝叶斯算法、逻辑斯蒂回归模型、神经网络模型等;常用的回归算法则主要使用一般线性回归模型。
在教育教学中,分类算法的应用非常广泛,如对学习者的学习状态进行分类,以实现学习状态的预测:罗力成等人通过自动分类算法对在线学习平台中学习者的学习成绩进行预测[1];Kloft等人通过自动分类算法对MOOC课程学习中每周的辍学率进行自动预测[2];潘怡等人对E-lear-ning中的学习者所发表的文本进行情感分类,从而对学习者的情感状态进行预测[3];Wise等人通过文本分类算法对MOOC评论进行自动分类,以挖掘海量评论中所蕴含的有价值的信息[4]等。分类算法也可以用于对学习者的学习行为进行分类,以实现学习者分类:Sunar等人通过对MOOC课程中学习者的学习行为进行自动分类,将MOOC学习者分为不同的类别,以便于教师给予个性化的学习提示[5]等。
基于聚类的教育数据挖掘方法? 聚类算法是数据挖掘中用于发现数据潜藏的模式的常用算法。与分类算法不同的是,应用聚类时,数据本身并没有明确的分类标准,需要通过机器学习的方法从数据中自动分析数据的特征与相似情况,从而将数据聚合为多个不同的类别。常用的聚类算法包括DB-Scan、基于层次的聚类方法、Kmeans算法等。
聚类算法常常被用于发现学习者在学习参与中的特定行为模式。如吴林静等人对网络学习空间中学习者的学习行为进行聚类,并总结了网络学习空间中常见的四种行为模式,即勤奋型学习者、消极型学习者、中规中矩型学习者、三好学生型学习者[6];Rebecca等人通过聚类算法对MOOC中学习者的参与行为进行建模和聚类,以挖掘MOOC学习中典型的行为参与模式[7]。聚类也被用于对学习者进行分组,根据学习者的各类属性对学习者进行聚类,实现学习者的同质或异质分组。此外,学习者的学习兴趣[8]、学习者的形成性评价[9]也可以通过聚类算法进行挖掘。
基于文本挖掘的教育数据挖掘方法? 在教育教学过程中,学习过程的参与者包括教师和学生会产生大量的文本类学习过程数据,如教案、讲义、作业、讨论、反思、答疑、评论等。这些文本数据是学习过程的客观反映,且蕴含了大量的知识,对于分析教学质量和学习者状态有着重要的意义。因此,对这些文本数据进行挖掘有助于提升教学质量和改进教学过程。
与传统的结构化数据不同,教育教学过程中产生的文本数据属于非结构化数据,其挖掘方法也与传统的数据挖掘方法存在较大的差异。由于文本数据的特殊性质,文本数据的预处理与结构化数据相比更为复杂,相关常用的算法包括文本数据的分词、分句、去停用词、向量化等。完成文本预处理后,即可通过相关文本挖掘算法从文本语料中挖掘出有用的信息,如通过文本分类算法对MOOC评论进行分类以帮助管理者和教师对评论进行快速分类[10];通过LDA等主题挖掘算法对学习者讨论区的主题演变进行追踪和分析[11];通过情感计算对学习者学习过程中的情感状态进行监测,并提供个性化学习资源[12]等。
4 教育大数据挖掘的常用工具及分类
为了提升教育数据挖掘的效率,尤其是在大数据环境中,当数据量较大时,必须采用各类辅助挖掘工具,才能够以更高的效率挖掘数据中有用的信息。通过对目前教育数据挖掘领域常用的工具进行梳理,本文将常用工具分为四类:预处理与特征工程类工具、算法挖掘类工具、文本挖掘工具和数据可视化工具。具体工具名称及功能如表1所示。
5 教育数据挖掘的典型应用
Civitas Learning项目? Civitas Learning是一家致力于通过机器学习的方式从高等教育学生的学习过程数据中挖掘信息,以帮助学习者提升学习成绩的新兴公司。该系统对学习者的全过程学习数据进行记录,包括学习者的系统记录、学习者的参与行为和学习结果等。通过分析和挖掘这些数据,系统可以对学习者的出勤率、辍学率等进行评价,并探测和显示导致中途辍学和学习成绩失败的警告性信号。此外,该系统还允许用户发现导致无谓消耗的特定课程,并判定有效的学习资源和干预措施。该系统目前已被多所国外高校使用,拥有230万用户。根据报道,应用该系统后,南佛罗里达大学学生第一年的持续入学率达到91%以上;在得克萨斯州州立大学,在该系统中每天约有1000人进行注册学习;在Del Mar学院,应用该系统后,其学校学生毕业率提升了34%。
i-Ready自适应学习系统? 与Civitas致力于高等教育不同,i-Ready系统致力于中小学学段学习者的学习诊断。i-Ready提供了跨平台的不同版本,以实现数据驱动的课堂。在数据驱动下,该系统为学习者提供个性化的学习体验,通过强大的评估功能、结合学习者的参与行为,挖掘学习者的个性化学习需求,并提供有针对性的学习资源,从而最终实现个性化的学习体验。在该学习系统中,学习者根据自己的学习记录数据制订相应的学习计划,而教师则从教学的主导者转变为学习的领航员,为学生提供指导。
为了验证该系统的使用效果,美国弗吉尼亚州的法明顿小学于2012年使用该系统进行了实证研究。实验在学习者使用i-Ready系统后进行标准化考试,考试结果发现,在每天使用i-Ready平台35~45分钟后,学习者的学习成绩得到很大提高,其中阅读成绩提高88%,数学成绩提高约75%。
Course Signals系统? Course Signals是由普渡大学于2009年开始研发的一个面向学习者的课程预警项目。该项目通过跟踪学生的学业进展并进行实时提醒,以帮助学生顺利完成课程学习。该系统可以采集学习者的课程完成情况、在线互动数据、学习者考试成绩数据、资源访问历史、学习者其他特征等。结合这些数据,系统可以对学习者的学习状况进行评估,并对其后续发展情况进行预测,预测结果会以信号灯的方式进行呈现。如果预测结果显示学习者存在课程失败的可能性,则系统会显示红色信号灯,以提醒学习者需要多加努力,同时会提示相关教师给予学习者更多指导;如果学习者表现良好,则系统会显示绿色信号灯。实证研究显示,使用该课程预警项目的学生,在评估中获得更多的B和C以及更少的D和F;在部分课程中,获得A和B的学生数量增加了28%。
中庆智课系统? 中庆智课是由中庆公司研发的基于录播和人工智能技术的智能化课堂教学分析评测系统。该系统主要围绕课堂教学展开,通过人工智能技术、大数据技术、互联网技术、音视频处理技术等与教育教学深度融合,对课堂教学过程进行深度挖掘,可实现课堂教学基础大数据的常态化、伴随式采集和即时分析,可以应用于智慧校园环境下的教育管理、教师专业成长、学生个性化学习等智慧化应用的数据采集与分析服务。中庆智课系统目前已在中小学和高等教育学段多所学校进行实证应用,帮助教育从传统的人工观察走向智慧教育新阶段。图2为中庆智课系统使用示意图。
6 结语
随着信息技术和人工智能技术的不断发展,教育领域所产生和积累的数据也越来越多,这些数据蕴含着大量有价值的信息,为教育数据挖掘提供了可能和良好的应用前景。本文从教育数据挖掘的一般过程、教育数据挖掘的典型方法、常用工具以及目前國内外的相关典型应用等几个方面,对大数据时代的教育数据挖掘进行介绍和分析,以期为教育管理人员和教育研究人员提供参考。在后续研究中将进一步开展教育数据挖掘的相关实证研究,以促进教育走向个性化和智能化。
参考文献
[1]罗立成,杨絮,张海,等.基于在线学习数据的学习者成绩预测研究海外实例[J].中国信息技术教育,2017(20):
87-88.
[2]Kloft M, Stiehler F, ZHENG Z, et al. Predicting MOOC dropout over weeks using machine learning methods
[M]//Proceedings of the EMNLP 2014 Workshop on Ana-
lysis of Large Scale Social Interaction in MOOCs.2014:
60-65.
[3]潘怡,叶辉,邹军华.E-learning评论文本的情感分类研究[J].开放教育研究,2014,20(2):88-94.
[4]Wise A F, CUI Y, WAN Q, et al. Mining for gold: Identifying content-related MOOC discussion threads across domains through linguistic modeling[J].The Internet and Higher Education,2017(32):11-28.
[5]Sunar A S, White S, Abdullah N A, et al. How Lear-
ners Interactions Sustain Engagement: A MOOC Case Study[J].IEEE Transactions on Learning Technologies,
2016,10(1):475-487.
[6]吴林静,劳传媛,刘清堂,等.网络学习空间中的在线学习行为分析模型及应用研究[J].现代教育技术,2018,
28(6):46-53.
[7]Ferguson R, Clow D. Examining engagement: analy-sing learner subpopulations in massive open online courses (MOOCs)[M]//Proceedings of the Fifth Inter-national Conference on Learning Analytics and Know-ledge,2015:51-58.
[8]王法玉,姜妍.基于自组织神经网络和模糊聚类的校园无线网用户学习兴趣度行为分析[J].计算机应用研究,
2018,35(1):186-189.
[9]文孟飞,刘伟荣,叶征.基于自动聚类和集成学习的网络教学形成性评价方法[J].中国电化教育,2018(3):74-82.
[10]吴林静,刘清堂,毛刚,等.大数据视角下的慕课评论语义分析模型及应用研究[J].电化教育研究,2017(11):
43-48.
[11]刘三女牙,彭晛,刘智,等.面向MOOC课程评论的学习者话题挖掘研究[J].电化教育研究,2017(10):30-36.
[12]黄昌勤,俞建慧,王希哲.学习云空间中基于情感分析的学习推荐研究[J].中国电化教育,2018(10):7-14,39.
作者:何普亮,华中师范大学第一附属中学信息中心,助理工程师,研究方向为教育技术与教育装备;张战胜,华中师范大学第一附属中学信息中心,工程师,研究方向为教育信息化(430223)。