标题 | 基于在线学习行为数据的学习者群体特征挖掘研究 |
范文 | 王蒙蒙 徐久成
摘 要:教育信息化促使越来越多的学习者选择在线学习,基于学习行为数据的研究也逐渐增多,然而对学习行为的研究普遍基于学习者个人,涉及学习者相似群体特征挖掘的研究较少。选取阿里云天池中的公开数据集,通过对不同个性特征和认知能力的行为数据进行相关性分析,以学习成绩为依据聚类不同的学习者群体,挖掘群体的典型行为特征。研究表明,群体行为特征存在显著差异,借助群体特征挖掘可以帮助学生与他人对比,发现自身不足并及时调整。这样既能在个性化学习基础上充分利用群体智慧,也能避免因学生过多使教学工作者负担过重。 关键词:在线学习行为;相关性分析;群体特征;聚类分析 DOI:10. 11907/rjdk. 192312 开放科学(资源服务)标识码(OSID): 中图分类号:TP391文献标识码:A 文章编号:1672-7800(2020)007-0153-05 Learner Group Feature Mining Based on Online Learning Behavior Data WANG Meng-meng, XU Jiu-cheng (College of Computer and Information Engineering,Henan Normal University,Xinxiang 453007,China) Abstract: With the approach of educational informationization, more and more learners choose online learning, and the research based on learning behavior data is increasing. However, the current research on learning behavior is generally based on individual learners, and there are few researches on feature mining involving similar groups of students. This paper chooses the open student data set in Ali Yun Tianchi, through the correlation analysis of the behavioral data of learners with different personality characteristics and cognitive abilities, clustering different groups of learners based on learning performance, and mining the typical behavior characteristics of groups. The research shows that there are significant differences in group behavior characteristics. Group feature mining can help students find their own shortcomings and adjust them timely by comparing with others. This can not only make full use of group wisdom on the basis of personalized learning, but also avoid overloading the teaching staff due to too many students. Key Words: online learning behavior; relevance analysis; group characteristics; cluster analysis 0 引言 互聯网+教育中,学习者通过在线学习时时刻刻产生大量数据。教育在大数据技术与理念冲击下正在发生一场“静悄悄的革命”,教学范式转型成为这场革命的先导和核心,一场由经验模仿教学、计算机辅助教学转向数据驱动教学的范式变革正在发生[1]。国务院2015年8月31日印发的《促进大数据发展行动纲要》[2],提出要“推动教育基础数据的伴随式收集和全国互通共享,探索发挥大数据对变革教育方式、促进教育公平、提升教育质量的支撑作用”。大数据在教育领域的应用,不断推动着教育信息化变革进程[3]。 越来越多的学习者选择在线学习,因此产生了大量在线学习行为数据,从海量数据中挖掘出有价值的信息成为研究热点。王改花、傅钢善等[4]基于数据挖掘视角对网络学习者行为特征进行聚类分析,主要按照学生的学习行为投入度进行聚类;Romero[5]基于学习管理系统,对学生使用系统记录进行分析,从而将学习者进行分类;也有研究者应用社会网络分析方法对学生在学习平台上的活跃程度进行分析[6]。目前研究大多对学习者的某一特定行为进行聚类,分析学习行为与学习效果的相关性,对学习行为聚类分析较少,无法应对因学习者众多导致的多样性和复杂性问题。本文通过对类似学习行为的学习者进行聚类,发现潜在的学习模式[7],挖掘典型的学习行为特征,使学生能够相互增进,取长补短,教师能够因材施教,为指导教育教学工作提供依据。 1 相关理论 1.1 在线学习行为 行为科学理论认为,学习行为是学习者基于某种内在需求,与外部社会或物理环境进行双向交互而开展的一系列与学习相关的在线活动集合[8]。在线学习行为受不同任务驱动影响并因学习者个性特征和认知能力差异,往往表现出不同的参与水平和行为方式,并反过来影响学习效果[9]。 美国《通过教育数据挖掘和学习分析促进教与学》报告[10]指出,通过采集和分析大量学习者(2 000人以上)一段时间内学习的相关数据,探索学习者在这一阶段的学习结果变化,发现学习者当前学习行为和未来学习结果的相互关系,并利用已建立的相关关系预测其未来学习趋势和结果;傅钢善等[4]采用数据挖掘方法与统计学方法,对网络学习者行为特征进行定量分析,并探讨网络学习行为特征与学习效果的关系;Arnold[11]借助普渡大学的学习管理系统,通过课程信号提醒系统以及个性化邮件,对学习者作出干预,从而促进学习成功。对在线学习行为数据进行分析,可以发现学习规律,了解学习者的内在特征,预测学习效果等[12]。通过将数据分析结果可视化反馈给学习者和教学者,可以向学习者推荐资源以及个性化学习路径,学习者可据此制定学习计划,定制学习资源,选择学习路径。 1.2 学习者群体特征 學习者特征指学生的一般特征、初始能力和学习风格,对学习者特征进行分析就是要了解学习者风格。因为不同学习风格与教学内容的处理、教学方法的运用、教学媒体的选择之间存在一定联系, 这种联系是教学设计的依据[13],而优秀的教学设计可以指导教育教学。 在线学习的快速发展,促使研究者将重点聚焦于在线学习者获取知识的方式、与其他学习者及学习环境的交流协作等方面[14-16]。由于学习者的多样性和复杂性,当前对学习者的个性特征、动态特征、群体特征研究分析不够[17]。因此,学习者群体研究是今后的重点。 2 研究设计 2.1 研究思路 利用SPSS22.0统计软件挖掘学习者在线学习行为数据, 并对其进行定量分析, 以发现学生在线学习行为规律。通过对学习行为数据和学习结果数据进行相关性分析,提取与学习结果有关的重要学习行为,为构建学习行为特征指标体系提供依据。通过聚类分析,将学习者划分为不同的学习群体,进而对群体中学习行为发生的概率进行统计分析,发现不同的学习行为模式,以行为模式差异为依据,分析造成学生学习结果差异的原因,发现学习过程中存在的不足,为教师后期对学生进行辅导提供帮助。 2.2 数据来源 本研究采用的数据来源于阿里云旗下的大数据平台——天池,以student为关键词检索xAPI-Edu-Data.csv公开数据集,部分数据展示如图1所示。 数据分为3类: ①学习者基本信息。性别和年级;②行为信息。在线学习中举手次数、访问公告次数、回答问题次数和讨论次数等;③学习效果数据。分班表示学习效果好坏,学习者分别归属于3个班级:低班(L)、中班(M)、高班(H)。 2.3 数据预处理 数据处理过程要保证准确性、完整性和一致性。研究主要选取数据集中的8个特征,分别为gender(性别)、stageID(级别)、raisedhands(举手次数)、VisITedResources(访问资源)、AnnouncementsView(访问公告)、Discussion(讨论)、StudentAbsenceDays(缺席天数)、class(所在班级)。 观测选取的8个特征与学生学习结果之间的关系,是否为造成学习结果差异的原因。性别差异是客观存在的一种生理现象,性别不同会造成对学习心理资源分配和投入的不同,形成学科学习上的优势和劣势;而随着年龄的增长,学生的生理和心理也在发生变化,正确了解学生的生理和心理发展,对引导学生健康成长至关重要。 学习行为分析指有目的地分析在线学习者学习过程中产生的相关行为数据。采集的行为数据可以是学习者操作层面的相关行为日志,也可以是学习者认知的其它数据 (如在线讨论贴、交互文本等) [6]。研究以学习行为特征为依据,探究造成学习结果差异的原因,据此构建行为特征指标分类体系,每种学习行为反映不同的学习表现,如表1所示。 基于上述构建的行为特征指标体系,选取对学习结果影响较大的5个行为特征指标(举手次数、访问资源、访问公告、讨论、缺席天数),探究这5种行为与学习结果之间的关系。对研究选取的数据集进行约简处理,将无关变量删除,所采用数据按原有格式存储,处理过后的部分数据展示如图2所示。 3 结果分析 3.1 相关性分析 相关性分析指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的关系密切程度。研究选用SPSS软件对5大行为指标(举手次数、访问资源、访问公告、讨论、缺席天数)和所在班级进行相关性分析,处理结果如表2所示。 由表2得到结论:①与所在班级存在显著相关的因素有举手次数、访问资源次数、学生缺席天数,其中前两者与班级的相关系数超过0.4,说明存在强正相关关系。缺席天数与班级呈现强负相关关系,说明与其它因素相比,出勤率高的学生往往会取得较为好的成绩;②举手次数与访问资源次数、访问公告次数呈现强相关。说明举手次数多的学生主动学习意识强,会主动去访问公告和资源辅助学习,这种类型学习者通常情况下学习效果较好;③讨论次数与访问资源次数、缺席天数呈弱相关,说明在线讨论与资源访问、出勤次数没有太大关系,并且讨论次数与班级也是弱相关关系,说明在线讨论对学习效果无显著影响,后期研究要对这一学习行为进行具体分析,以明晰是讨论方式不恰当还是其它原因造成的。 3.2 聚类分析 通过对数据进行相关性分析,确定与学习结果相关的学习行为变量。为更有效地实施个性化教学,根据学习结果的不同将学习者进行聚类。基于weka平台对数据进行聚类处理。weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括数据预处理、分类、回归、聚类、关联规则,以及在新的交互式界面上可视化。 研究选择weka平台中的EM算法对数据集进行聚类分析。EM算法是一个期望最大化的聚类算法,主要通过计算概率进行聚类,通常用一个给定的多元高斯概率分布模型估计出一个数据点属于一个聚类的概率,即将每个聚类看作一个高斯模型。借助数据挖掘工具进行聚类,结果如表3所示,每个类别中各行为指标如表4、表5所示。 由表3可知,数据集被聚合为6大类,其中以第2类和第3类概率最大;由表5可知,这两类数据中学生群体大部分处于M班和L班,总的来说学习效果处于中等及中等以上水平较多,在线学习确实能使学生获益。通过对各项学习行为不同类别下的概率进行对比分析,发现造成不同学习结果的原因,为有针对性地教学提供依据,使学生真正成为学习的主体,实现线上线下混合式教学效益最大化,让学生体验到个性化学习的乐趣。 通过对各行为数据的综合分析,探究学习行为与学习结果之间的关系。学习结果用不同班级来展示,分别为L班(低班)、M班(中班)、H班(高班)。对上述聚类结果中class(班级)依照6大类别进行统计处理,结果如图3所示。 按照每个类别所处班级的概率高低将聚类结果抽象为4大类。对于L班,在第5类中所占概率最大,将其归属于L类;对于M班,在第3类中所占比例最大,且与H班差距明显,将其归属于M类;而针对H班,虽在第2类中所占比例最大,但与M班差别相对较小,类似于第1类,将二者归属于MH类;将第4类和第6类归属于ML类。将聚类结果进一步划分为4类进行分析,分析步骤如图4所示。 依据高水平班级到低水平班级的顺序對聚类结果重新排列并进行结果分析,按照MH-M-L的顺序对6种聚类结果所对应的各项学习行为发生概率变化情况进行对比分析,如图5所示。 3.2.1 低水平学生群体(L班) 通过对L类各项行为数据分析发现,相对于其它类别学生,处于L类的学生群体缺席天数最多,且举手次数、访问资源、公告次数均低于10%。本研究试图通过分析学生的行为表现,发现造成不同学习水平差异的原因,根据缺席天数多这一行为,可以推测L类学生学习意识薄弱,对学习没有太大兴趣,无法完成全部课程的学习,从而导致学习成绩不理想;访问资源和公告次数较少,导致在学习时无所适从,不知从哪部分内容开始,也无法获得所要学习内容的先验知识。 通过对ML类数据进行分析发现,学生在其余行为发生概率相似的情况下,举手次数高的学生会取得较好的成绩。根据学习行为指标体系可知,举手行为多代表学生的主动学习意识较强,学生主动学习意识是提高学习成绩的关键因素之一。让学生学会学习,自己发现问题、寻求帮助并尝试解决问题,能够充分保证学生的主体地位,符合现代教育观念。 3.2.2 中等水平学生群体(M班) 通过对M类学生各项行为数据分析发现,学生缺席天数基本少于7天,相较于L班学生来说,出勤率的提高使学习结果在一定程度上得到提升;其它各项行为指标均处于中等水平,但标准差相对较大,说明群体之间的差异较大,这种情况是由学生不同的学习特征和认知水平造成的。在教育教学实践中,一类学生自身学习方式和认知能力均处于较高水平,但学习投入度和参与性不强;另一类学生学习投入度和参与性较高,但受制于自身认知水平和知识结构。这两类学习者在学习过程中的各项行为发生概率不同,但学习结果往往是相似的。因此本研究通过对不同类别行为发生的概率进行分析,为教师有针对性地开展线下辅导提供依据。 3.2.3 高等水平学生群体(H班) 通过对MH类各项行为数据概率分析发现,在该类学生群体中,缺席天数基本处于under-7水平,学习投入度和参与性较高,且该群体中学生访问资源行为发生的概率处于同等水平,学习者拥有相同的知识结构和学习投入度。但对比其它行为发生概率,在举手次数、访问公告以及讨论方面,较高行为发生概率的群体类属于高等班级,且举手次数的标准差明显较低。该研究发现表明:①举手有利于学生集中注意力,保持高效率学习状态,学生有主动参与的意识,增强了学习的积极性和主动性,提升了学习效果;②公告的访问起到指引作用,为下一步学习提供方向。明确学习任务进而合理规划时间,在任务驱动下开展学习使学习效率得到提高;③学生充分利用群体智慧优势进行讨论,不局限于向老师寻求帮助,适当的头脑风暴能够激发学习潜力,使学习更加有效。 4 结语 本文通过对学生在线学习行为数据和学习结果进行相关性分析,提取影响学习效果的重要因素,进而对学习行为数据进行聚类分析,将学生按照所在班级划分为不同的群体,研究不同群体的学习行为特征。研究发现,学习动机是学生主动学习的动力。在教育教学中,培养学生从学习中发现问题、提出问题并解决问题的能力至关重要。学习成绩差异主要源于不同的学习动机和知识结构,对学生群体特征的描述分析可以帮助教育教学者找到学生学习不足的原因,学生自身可以对比群体中的伙伴改善自己的学习行为,提高学习效果,教师也能在教学过程中及时进行干预和指导,在学生个性化学习基础上正确引导学习行为,合理规划学习步骤,从而提高教学效果、效率和效益。 参考文献: [1] 佚名. 《中国基础教育大数据发展蓝皮书2016—2017》研究成果正式出版[J]. 电化教育研究,2018,39(6):129-133. [2] 国务院.促进大数据发展行动纲[EB/OL].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm,2016-07-31. [3] 郭炯,郑晓俊. 基于大数据的学习分析研究综述[J]. 中国电化教育,2017(1):121-130. [4] 王改花,傅钢善. 数据挖掘视角下网络学习者行为特征聚类分析[J]. 现代远程教育研究,2018(4):106-112. [5] ROMERO C, VENTURA S. Data mining algorithms to classify students[C]. Proceeding of Educational Data Mining,2008:20-21. [6] 田娜,陈明选. 网络教学平台学生学习行为聚类分析[J]. 中国远程教育,2014(11):38-41. [7] 吴林静,劳传媛,刘清堂,等. 网络学习空间中的在线学习行为分析模型及应用研究[J]. 现代教育技术,2018,28(6):46-53. [8] 王祎. 在线学习行为分析及应用研究[D]. 武汉:华中师范大学,2018. [9] 赵呈领,李敏,疏凤芳,等. 在线学习者学习行为模式及其对学习成效的影响——基于网络学习资源视角的实证研究[J]. 现代远距离教育,2019(4):20-27 [10] 徐鹏,王以宁,刘艳华,等. 大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J]. 远程教育杂志,2013,31(6):11-17. [11] ARNOLD K E, PISTILLI M D. Course signals at purdue:using learning analytics to increase student success[J]. Cite Seer X,2012(6):267-270. [12] 李艳燕,马韶茜,黄荣怀. 学习分析技术:服务学习过程设计和优化[J]. 开放教育研究,2012,18(5):18-24. [13] 李艳,屈正庚. 基于层次分析法的学习者特征分析[J]. 系统仿真技术,2018,14(1):25-29,48. [14] 曹良亮. 在线学习中学习路径分析及学习行为特点研究[J]. 中国远程教育,2014(4):25-30. [15] 马秀峰,李彤彤,刘冬. 学习风格对在线学习交互程度影响的实验研究[J]. 开放教育研究,2011,17(4):96-101. [16] 王楠,乔爱玲. 在线学习活动本质及理论基础探究[J]. 中国远程教育,2009(1):36-40. [17] 张廷亮,郝一川. 开放大学学习者特征研究文献述评[J]. 中国成人教育,2017(12):7-11. (责任编辑:杜能钢) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。