标题 | 智能时代高教领域数据挖掘与学习分析的研究 |
范文 | 陈茂 耿江涛 胡翌丹 余雪莲
【摘? 要】在高等教育领域,数据挖掘与分析技术能够改善大学生的学习过程和学习结果。随着人工智能研究的深入,教育数据挖掘(EDM)和学习分析(LA)技术在近年也得到了长足的发展。这些技术也直接促进了教育领域4项基于计算机支持的应用研究:学习分析、预测分析、行为分析和可视化分析。研究表明,特定的EDM和LA技术可以提供特定应用研究的最佳方法。因此人工智能时代在高等教育中应用EDM和LA有助于制定以学生为中心的策略,并达到教育教学持续改进的目的。 【关键词】教育数据挖掘;学习分析;数据分析;高等教育 引言 随着人工智能技术研究的深入,以及互联网在教育中的使用,特别是2020年为抗击新冠疫情,全球都开启了大规模在线教学。这些在线教学系统一方面为顺利开展在线教学提供了运作基础和各类教学数据,另一方面也创造了大量存储教育数据的大规模数据库。这些基于网络的教育系统正以指数级的速度增长,也造成以不同的格式和不同的粒度级别存储来自多个来源的大量潜在数据。同样,新型的教育环境,如混合学习(Blend Learning, BL)、虚拟/增强环境、移动/泛在学习,特别是游戏学习等,也收集了大量关于学生学习的数据。这些系统都产生了大量具有较高教育价值的信息,但人工分析是不可能的。因此,需要采用人工智能技术来自动分析这类数据的工具,因为所有这些信息提供了一个教育数据的金矿,可以探索和利用这些数据来了解学生是如何学习的。事实上,如今高等教育机构面临的最大挑战之一就是教育数据的指数级增長,以及如何将这些大数据转化为有利于学生、教师和管理者的新知识。 美国为了更好地促进大数据在教育领域的应用,集中领域专家进行研究,并在2012年由美国教育部 (U.S. Department of Education)发布蓝皮书《通过教育数据挖掘和学习分析促进教与学》 (Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics) ,指出教育领域中大数据的应用主要有教育数据挖掘 (Educational Data Mining, EDM) 和学习分析(Learning Analytics, LA) 两大研究方向,以及与之相应的研究目标和研究方法。 ·教育数据挖掘EDM:致力于开发来自教育环境的独特类型数据的方法。也可以定义为将数据挖掘(Data Mining, DM)技术应用于教育环境特定类型的数据集,以解决重要的教育问题。 ·学习分析LA:可定义为测量、收集、分析和报告关于学习者及其背景的数据,以了解和优化学习及其发生的环境。该定义涉及三个关键要素:数据、分析和行动。 这两种对教育研究的方向有着显著的重叠:都关注教育数据,并且都有着强化教育实践的共同目标。但也存在差异:一方面,LA关注教育挑战,EDM关注技术挑战。LA专注于数据驱动的决策,并通过应用已知的预测模型整合学习的技术和社会/教学层面。另一方面,EDM通常在数据中寻找新的模式并开发新的算法和模型。 EDM和LA是跨学科领域,包括但不限于信息检索、推荐系统、可视化数据分析、领域驱动数据挖掘、社会网络分析、心理教育学、认知心理学、心理测量学等。事实上,它们可以由三个主要领域组成:计算机科学、教育和统计学。这三个领域的交叉也形成了与EDM和LA密切相关的其他子区域,如计算机教育(Computer Based Education, CBE)、数据挖掘DM和机器学习(Machine Learning, ML)以及教育统计(Educational Statistics, ES)。 1.高教领域EDA/LA技术 一般来说,现代数据挖掘技术EDA在教育数据中寻找新的模式并开发新的算法或新的模型,而学习分析LA在教学系统中应用已知的预测模型。通过分析不同的数据挖掘技术在高等教育领域研究中的应用,目前EDA/LA在应用中主要采用了以下的数据挖掘技术: 分类(26.25%)、聚类(21.25%)、可视化数据挖掘(15%)、统计学(14.25%)、关联规则挖掘(14%)、回归(10.25%)、顺序模式挖掘(6.50%)、文本挖掘(4.75%)等。 1.1分类 分类是高等教育中最常用的数据挖掘技术。这是一个有监督的学习过程,将数据映射到不同的预定义类中。分类的概念被用于预测学生的表现、成绩、预测/防止学生辍学挂科、在线课程/在线学习中发现问题学生的行为。分类主要用于根据从学生活动中收集的使用模式来确定学习管理系统(Learning Management System, LMS)中的行为模式。分类技术可以通过准确预测学生在特定课程中的最终成绩,帮助提高高等教育系统的质量。这包括:①检查参与程度,以防止学生从在线学习课程中退学;②评估学生对学习活动的参与程度;③持续评估学生的学习表现;④识别学习动机弱的学生;⑤确定学生是否会完成作业;以及⑥评估学生与在线学习资源的互动。 此外,分类还用于提高学习过程的效率和有效性,并为高等教育系统提供一些指导方针,从而改进整个决策过程。基于此,分类的使用将使决策者能够更灵活地评估一组学生的表现和行为,从而确定他们的特定知识或能力不适合该任务,小组中的个别成员在学习任务中的表现如何。因此,该技术可以有效地为学生提供以学业支持为形式的早期干预措施,特别是激励那些在特定活动或课堂上表现不佳的学生,并准确地测量积极和消极的反应,从而形成分类模型的效率。 1.2聚类 聚类是对相似类对象的识别或分组。它的目的是筛选大数据集,以便以新的关系、模式或集群的形式建立有用的推论,以供决策使用。在高等教育中使用聚类主要是为了支持学生在不同学习情境下的互动,向相似的用户推荐活动和资源,根据所访问页面的内容及其遍历路径模式(技能和知识),找到具有相似学习特征的学生群体,考察学生在学习过程中的成就和参与度。这些活动可以帮助教育决策者在早期阶段识别潜在的辍学者,并解决将新生误分配到他们不感兴趣的课程上的问题。此外,聚类可以使教育工作者从学习管理系统LMS日志中预测学生的学习结果,识别不受欢迎的学生行为,并通过监控学生之间的集体互动,来支持教师在合作学习模式中,以评估学生的表现。聚类技术还用于支持学生获得各种科学技能,发现在线教学Moodle(Modular Object-Oriented Dynamic Learning Environment)系统中的共同学习路线,并了解学生个体之间的协作探究过程。总之,在高等教育中,根据学生的学习特点、个人的学习风格偏好、学习成绩和行为互动,聚类仍然是一种有效的分组方法。它还可以用来探索协作学习模式,提高在学率,从而使学校能够在早期识别出存在学习风险学生。 1.3可视化数据挖掘 可视化数据挖掘将传统的数据挖掘方法与数据可视化工具相结合,以可视化方式展现模式[。通常用于探索性数据分析。在高等教育中,图形化的视觉数据挖掘减少了从在线教育系统收集的复杂和多维的学生跟踪数据,这将帮助教师有效地分析学习过程的不同方面。目前已经使用视觉挖掘技术来促进对学生学习活动的监控,并评估他们在与学习系统交互过程中的行为、参与和表现。视觉数据挖掘也被应用于高等教育,以帮助教师(参与在线学习)了解学生如何在学习管理系统LMS环境中工作,并发现学生在学习活动中的行为和参与度。此外,视觉数据挖掘可以帮助教师获得关于学生学习的进一步反馈,以评估学习任务和所提供教学资源的复杂性。应用可视化数据挖掘还可以绘制学习者对课程材料的在线参与度,教师可以操纵学生活动的图形化表示,这使教师能更好地了解远程课堂上正在发生的事情及底层逻辑。视觉数据挖掘技术可以用来呈现不同的教育数据,通过图表,教师和教育决策者能够探索和深入了解学生的表现,从而提供适当的支持。 1.4统计 统计学是一种数学方法,侧重于使用统计软件收集、分析、解释和呈现数据。它可以根据使用模式(包括访问频率、获取学习材料和参与讨论论坛)评估对指导学习策略开发至关重要的相关学习行为,帮助教师了解如何使用web服务器日志信息进行形成性评价。教师可以使用这些技巧来了解学生参与在线活动与学习成果之间的联系。 统计技术在高等教育中的应用广泛地与以下预测相关:①学生学习成效;②自主学习和在线课程成绩;③学生动机;④学生在大学中的退学率;以及⑤学生的毕业率。这些预测的结果可能会为决策者提供新的知识,用于解决各种学习问题。这有助于教师和课程设计者对学生在学习过程中的行为有全面的了解。 1.5关联规则 关联规则是一种挖掘技术,用于发现特定输入模式的变量和属性组之间的关系。用于根据学生的特点和能力发现学习规则,以使课件更有效。这是由于教师能够分析学生的学习模式并更有效地组织课程材料。此外,它还可用于促进协作学习,提供反馈以支持教师的决策,识别不寻常的学习模式,根据在网络学习环境中从记录数据中提取的特征预测学生的表现(最终成绩),学业表现的监测和评估(测试和考试成绩),并根据学习者的访问历史推荐学习材料。研究表明,使用这些技术有助于构建概念图,使教师能够克服学习者的某些学习障碍和误解。 关联规则技术也被用于规划策略,以了解课程修订是否会影响学生在不同环境下的学习,并根据学生的成功率和失败率,决定如何提高学校提供的学习管理系统LMS服务的质量。关联规则识别学生的行为、学习材料和表现差异特征之间的关系。 1.6回归 回归是一种预测技术,用于确定因变量(目标域)与一个或多个独立变量之间的关系,以及确定这些关系如何对个体的学习结果做出贡献。回归在高等教育中的一些常见用途包括预测学生的表现、行为、知识和分数或成绩。此外,教师可以利用这一技术提出有效的策略,以加强学生在学习过程中的积极参与,并根据学生的能力水平开发在线学习的学习者模型。它也可以用来调查大学生的特点和经历如何影响他们对学习管理系统LMS的满意度,以避免学生辍学。 回归技术还可以通过构建线性回归模型来确定提高教学和课程质量的关键因素,帮助预测大学课程的成功率。回归可以像分类技术一样有效地用于预测目的。然而,在分类中,预测值是分类任务,而在回归中,它是一个数值或连续任务。基于这个原因,EDM研究者经常使用一些回归技术来预测学生的学习成绩,并识别出可以预测大学课程成败的变量。 1.7顺序模式 顺序模式主要是使用数据挖掘方法来发现这些事件之间的顺序关系。在高等教育中,该技术已被应用于基于学生学习风格偏好的网络学习系统个性化建议,并有效获取构建学生模型所必需的知识。在协作学习中,它可以用来发现哪个信息序列可以用来预测学生群体中的高分者。这包括预测学生在一系列可以在问题解决环境中执行的动作的中间步骤。因此,可以预期,序列模式技术可以用来总结学生的历史学习模式(logs),以便通过根据常见的学习序列过滤项目或事件来识别潜在的学习顺序模式。它还可以用来发现隐藏的模式,提高推荐的质量,解决相关的教育问题。虽然随机数据挖掘技术的重点是找出某些事件的原因,但如果使用自动实验随机选择一个教育事件,则可以推断出因果关系,从而最终获得积极的学习结果。 1.8文本挖掘 文本挖掘是一种从大型数据库中发现感兴趣模式的技术,是指从非结构化文本中提取信息和知识的过程。这项技术已成功应用于不同类型的网络教育系统,主要用于协作学习,以提供通常在论坛中进行的自动形成性评估。文本挖掘可以提高教师评估小组讨论进度的能力,促进由在线讨论板上的信息构建概念图的过程,从一个大的在线学习数据量,并探讨学生的认知学习结果是否存在差异,尤其是对于那些具有不同学习背景的学生。基于这些观察结果,预计教育政策制定者可能会应用文本挖掘来检查来自在线论坛、电子邮件或聊天的内容,这些内容可以产生相当多的见解并揭示学生学习行为中的有价值的模式。 2.高教领域的应用研究 不同的数据挖掘技术所发现的知识可以使高等学校做出更好的决策,在指导学生、预测未来趋势和个人行为方面提供更优异的计划,使学校能够更有效地配置资源和人員。EDM和LA的使用在改善学生的学习体验和学习成果、发现学生的行为和成就、领域知识内容、表现和评估的模式和预测方面都能发挥重要作用。EDM/LA的应用是当前高等教育的研究方向,具体可划分为四个主要维度:计算机支持的学习分析(Computer-Supported Learning Analytics, CSLA)、计算机支持的预测分析(Computer-Supported Predictive Analytics, CSPA)、计算机支持的行为分析(Computer-Supported Behavioral Analytics, CSBA),以及计算机支持的可视化分析(Computer-Supported Visualization Analytics, CSVA)。 2.1計算机支持的学习分析CSLA 计算机支持的学习分析CSLA指的是利用数据挖掘技术,根据学生在学习管理系统LMS环境中的互动来获得可操作的信息。参与持续监控学习活动的教师需要评估小组中学生之间互动的方法,以确定可能采取的干预措施,并评估课程的有效性。EDM和LA通常通过评估学生的互动和学习结果来识别学习问题。从这些评估中得出的数据有助于估计或改变提高学生对活动和内容的自我意识所需的支持水平。例如,来自课程相关活动(如论坛、内容交付和评估)的学习管理系统LMS数据可用于将系统级对象与学生的偏好相关联。这也为教师提供了一个全面了解可能的学习结果的机会,并在对学习过程的不当控制发生时发现学生的不良行为。此外,使用EDM/LA分析学习行为和学生与课程资源的互动,最终可能有助于评估教育效果,并有助于设计提高学生认知能力的干预策略。 2.2计算机支持的预测分析CSPA 在分析促进学生学习的主要原因时,EDM和LA可用于预测学生在特定课程中的成绩、参与、获得、分数和领域知识的评估和评价。这包括对学习材料的评估,以评估任务的复杂性,并提供反馈,通过规划新策略来支持决策学习,从而提高整体学习效果。通过在学习环境中使用数据挖掘技术,可以帮助发现大量数据中的知识和隐藏模式,并对结果或行为做出预测。EDM和LA可用于发现知识,帮助教师识别学生中的早期辍学,并确定哪些人需要特别关注。 2.3计算机支持的行为分析CSBA 数据挖掘技术的应用可以产生相当多的知识,并揭示学生学习行为的有价值的模式。通过过程性数据的分析,以及多模态数据的采集和智能分析,使用数据挖掘来识别学生在参与在线学习活动时的行为模式和偏好,使用EDM和LA可以改善学生在远距离协作时的学习体验。目前,EDM和LA的研究主要集中在使用实时数据来规范新信息的学习,以便学生能够解决复杂程度不同的问题。EDM可以通过评估学生在线活动与他们的最终成绩之间的关系来检测学生在诸如Moodle这样的在线环境中的不守规则行为和活动。 2.4计算机支持的可视化分析CSVA 计算机支持的可视化分析CSVA是一种将信息可视化技术与数据挖掘和知识表示技术相结合的一种查询形式,主要是对个体与活动相关的行为进行可视化分析。在教育环境中,CSVA侧重于使用可视化工具来深入了解学习过程和学生的体验。例如,绘制在线讨论图,并根据主题的结构特征评估每个帖子(参与度)的质量,可以帮助学生识别相关的帖子和讨论。将可视化数据挖掘应用于高等教育评估系统中,可以使评估方法更加灵活、多样化和可视化,从而提高学习过程的效率。另一方面,利用EDM从大型数据集中提取有意义的知识和信息,并利用这些信息发现隐藏的模式和关系,这些模式和关系对高等教育的决策过程是有用的。可以用图表来表示学生对学习任务的参与程度,这有助于教师更好地了解学生的在线行为,并注意在线环境中发生的事情。此外,数据可视化工具可用于高等教育,以简化复杂的数据,并跟踪学生从与在线教育系统的交互中获取的多维数据。 3.结束语 教育数据挖掘EDM和学习分析LA通常用于与CSLA、CSPA、CABA和CSVA相关的各种学习问题提供机会和解决方案。一般来说,大多数数据挖掘技术都非常适合EDM和LA。主要的数据挖掘技术,如聚类、关联规则、可视化数据挖掘、统计和回归等通常都是跨这四个维度使用的。然而,一些数据挖掘技术,如文本挖掘、相关挖掘、离群点检测、因果挖掘和密度估计等,由于在获取调节或适应个人需求所需的属性方面非常复杂,因此并不常用。 综上所述,人工智能时代EDM/LA的应用可以带来显著的效益,因此高等院校在可行的情况下应尽量采用EDM/LA。此外,EDM和LA在高等教育中的应用可能有助于开发更多以学生为中心的课程,并提供数据和工具,供各院校用于实时预测,有效的提高教学质量。 参考文献 [1]QUADIR B, CHEN N S, ISAIAS P. Analyzing the educational goals, problems and techniques used in educational big data research from 2010 to 2018 [J]. Interact Learn Environ, 2020, 17. [2]KLASNJA-MILICEVIC A, IVANOVIC M, BUDIMAC Z. Data science in education: Big data and learning analytics [J]. Computer Applications in Engineering Education, 2017, 25(6): 1066-78. [3]XIE K, DI TOSTO G, CHEN S B, et al. A systematic review of design and technology components of educational digital resources [J]. Computers & Education, 2018, (127)90-106. [4]HOOSHYAR D, YOUSEFI M, LIM H. A systematic review of data-driven approaches in player modeling of educational games [J]. Artificial Intelligence Review, 2019, 52(3): 1997-2017. [5]SLATER S, JOKSIMOVIC S, KOVANOVIC V, et al. Tools for Educational Data Mining: A Review [J]. Journal of Educational and Behavioral Statistics, 2017, 42(1): 85-106. [6]CANTABELLA M, MARTINEZ-ESPANA R, AYUSO B, et al. Analysis of student behavior in learning management systems through a Big Data framework [J]. Future Generation Computer Systems-the International Journal of Escience, 2019, (90)262-72. [7]ROMERO C, VENTURA S. Educational data mining and learning analytics: An updated survey [J]. Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 2020, 10(3) [8]ALDOWAH H, AL-SAMARRAIE H, FAUZY W M. Educational data mining and learning analytics for 21st century higher education: A review and synthesis [J]. Telematics and Informatics, 2019, (37)13-49. [9]TOMASEVIC N, GVOZDENOVIC N, VRANES S. An overview and comparison of supervised data mining techniques for student exam performance prediction [J]. Computers & Education, 2020, (18)143. [10] VIEIRA C, PARSONS P, BYRD V. Visual learning analytics of educational data: A systematic literature review and research agenda [J]. Computers & Education, 2018, (122)119-35. [11] RIOFRIO-LUZCANDO D, RAMIREZ J, MORAL C, et al. Visualizing a collective student model for procedural training environments [J]. Multimedia Tools and Applications, 2019, 78(8): 10983-1010. [12] CHEN Y, ZHENG Q H, JI S G, et al. Identifying at-risk students based on the phased prediction model [J]. Knowledge and Information Systems, 2020, 62(3): 987-1003. [13]顧小清,胡艺龄.理解、设计和服务学习:学习分析技术的回顾与前瞻[J].开放教育研究, 2020, 26(02):40-42. [14]张文梅,祁彬斌,范文翔.数据驱动的教学行为分析:现状、逻辑与发展趋向[J].远程教育杂志, 2021, 39(01):84-93. [15]陈凯泉,高蕾,孟祥红. 高校混合式教学中的线上学习路径挖掘及对教学改革的启示[J].高教探索, 2020(05):5-13. 基金项目:①广东省教育厅2020年度普通高校特色创新类项目(2020WTSCX297);②广东省教育厅2019年度普通高校特色创新类项目(2019GKTSCX152);③广东省教育厅2018年度重点平台及科研项目特色创新项目(2018GWTSCX030);④广东省教育厅2018年度省高等职业教育质量工程教育教学改革研究与实践项目(GDJG2019309);⑤广州涉外经济职业技术学院2019年校级教研项目(2019JY06);⑥广州涉外经济职业技术学院2018年校级教科研项目(2018JY29)。 作者简介:陈茂(1985.1-),女,讲师,广州涉外经济职业技术学院数字媒体教研室主任。研究方向为人工智能,大数据应用技术,数字媒体技术,高职教育管理; *通讯作者:耿江涛(1965.12-),男,教授,高级工程师,华南师范大学博士生,广州涉外经济职业技术学院教育研究院教授。研究方向为大数据应用技术,人工智能,高职教育管理与国际化。 胡翌丹(1978.9—),男,副教授,广州涉外经济职业技术学院外国语学院副院长。研究方向为高职教育管理 非通用语种专业建设。 余雪莲(1993.6-),女,助教,学士,广州涉外经济职业技术学院计算机应用与软件技术教研室专任教师。研究方向为软件技术,人工智能。 1.广州涉外经济职业技术学院? ? 广东广州? ? 510540 ; 2.华南师范大学? ?广东广州? ? 510631 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。