数据挖掘视角下网络学习者行为特征聚类分析
王改花 傅钢善
摘要:隨着计算机与网络的快速发展和普及,网络学习已成为互联网+时代教育发展的重要组成。近年来随着大数据被广泛关注,基于数据挖掘的网络学习行为研究成为重要的研究方向和研究热点。当前关于网络学习行为的分类,大多数基于学习者本身属性,缺乏比较详细而深入的行为类型分析。基于数据挖掘的聚类分析,可以借助大数据的优势,发现数据背后的规律。利用陕西师范大学“现代教育技术”在线开放课程学习者的网络学习过程记录,采用数据挖掘工具对网络学习者行为进行聚类分析,研究发现:根据学习特征,网络学习者可以分为高沉浸性型、较高沉浸性型、中沉浸性型、低沉浸性型四种群体;学习行为与学习效果密切相关,沉浸性高的学习者学习效果往往较好。教师可借助技术工具,对学习者进行不断更新、实时、循环的聚类分析,及时发现学习者的个体及群体学习特征,因材施教,推送适应性的个性化服务,并给予及时的学习预警与恰当的教学干预。
关键词:网络学习;行为特征;数据挖掘;聚类分析;个性化教育
中图分类号:G434 文献标识码:A 文章编号:1009-5195(2018)04-0106-07 doi10.3969/j.issn.1009-5195.2018.04.012
基金项目:陕西师范大学中央高校基本科研业务费专项资金资助项目“基于大规模在线开放课程的学习者认知特征研究”(2017TS074);国家社会科学基金教育学一般项目“网络环境下群体差异认知特征及有效学习研究”(BCA110024)。
作者简介:王改花,博士研究生,陕西师范大学教育学院;实验师,西安职业技术学院(陕西西安 710077)。傅钢善,教授,博士生导师,陕西师范大学教育学院(陕西西安 710062)。
一、引言
随着计算机与网络的快速发展和普及,网络学习已成为“互联网+”时代教育发展的重要组成。习近平总书记在中国共产党第十九次全国代表大会上的报告中明确指出要办好网络教育。网络教育首次被写入党代会报告,受到广泛重视。生态观认为认知不会独立于其广阔的文化情境而单独发生,所有的认知活动都会受到文化以及它们所发生情境的规定和影响(邵志芳,2006)。因此,网络学习引起了传统教与学方式、认知方式、个性发展需求的巨大变革。
近年来随着大数据被广泛关注,教育大数据已成为热点,基于数据挖掘的网络学习行为研究成为重要研究方向和研究热点。当前,国内已有一些学校和科研机构开展了教育大数据的应用研究与实践探索,在提高教育决策水平、助力教育资源均衡配置、优化教学效果等方面取得了初步的成效和社会影响。然而从整体来看,我国教育领域大数据的研究仍处于起步阶段,缺乏成熟的研究成果与应用推广模式。如何进一步扩大教育大数据的研究和价值,是研究者需要重点关注的问题。
利用学习者在在线开放课程学习过程中产生的大数据开展教育大数据的应用研究与实践探索,对更好地支持在线开放课程的设计、实施、评价,从而有效组织教学活动,使教学内容与教学过程更加有效,实现学习者的有效学习具有重要意义。
二、文献综述
对基于数据挖掘的网络学习行为研究进行文献综述,我们发现如下特点:第一,采用的数据挖掘方法主要有分类、聚类、关联规则、序列模式挖掘、文本挖掘、Web挖掘等。第二,研究内容主要集中在行为特征与行为模式研究、与学习效果的关系研究、学习者模型与适应性学习系统研究、数据挖掘模型研究等。在行为特征与行为模式研究方面,主要探讨网络学习行为的现状、规律或模式,如Araya等基于在线数学游戏,采用聚类方法,发现了学生团队协作中的行为规律(Araya et al.,2014);李爽等通过相关分析、滞后序列分析和聚类分析对在线学习行为序列和参与模式进行了实证探索,发现了36个行为序列与成绩显著相关,五类在线参与模式(低投入式、浅层次投入式、绩效投入式、循序渐进式、随机参与式)(李爽等,2017)。在与学习效果的关系研究方面,主要探讨网络学习行为与学习效果的关系、影响学习效果的行为特征或行为特征对学习效果的预测,如Natek等使用Weka数据挖掘工具中的决策树算法探讨了学习者基本信息、学习类型(全日制与在职)、学习活动、平时成绩对学习成绩的预测(Natek et al.,2014);Vaessen等采用聚类和回归算法探讨了智能学习系统中学习者求助策略与学习成绩的关系(Vaessen et al.,2014);傅钢善等采用数据挖掘方法与统计学方法对网络学习者的行为特征进行定量分析,并探讨了网络学习行为特征与学习效果的关系(傅钢善等,2014);赵慧琼等采用多元回归分析法探究了影响学生学习绩效的预警因素并构建了干预模型(赵慧琼等,2017)。在学习者模型与适应性学习系统研究方面,主要基于在线学习行为数据构建学习者模型,为开发适应性学习系统提供依据。如Amershi等采用监督和非监督分类方法并使用登录学习行为数据和眼动数据,构建了两类不同学习环境下的学习者模型(Amershi et al.,2009);Feldman等采用朴素贝叶斯分类器利用学习者在线行为数据判断学习者的学习风格(Feldman et al.,2014);吴青等采用关联规则方法对学习者学习风格(利用Kolb学习风格量表测量)与其在线行为特征进行关联(吴青等,2015)。而数据挖掘模型的研究主要构建数据挖掘模型,如李珊等探讨了基于Web日志与用户浏览行为的用户浏览兴趣模式数据挖掘模型(李珊等,2017);彭绍东基于交互层次视角,创建了网上学习行为研究的挖掘方法模型(彭绍东,2017)。第三,研究正处于起步阶段,具有广阔的研究前景,是未来重要的研究趋势。第四,国外研究比国内研究相对成熟,国内研究仍然比较缺乏。另外关于网络学习行为类型的分类,目前大多数是从学习者本身属性进行划分,但网络学习行为是复杂而多元的,从文献综述中仍无法看出比较详细而深入的行为类型分析。
采用聚類方法,能够发现学习者内在行为的属性集合,从而发现群体学习规律。鉴于研究背景与文献综述,本研究旨在通过对网络环境下学习者行为特征进行聚类分析,探究网络环境下学习者行为特征规律及行为特征与学习效果的关系。研究结论对完善网络课程的设计与开发,辅助教师了解学习者行为特征、改善教学策略,实现网络环境下的有效学习和适应性推送服务具有一定意义。
三、研究设计
1.研究框架
本研究所提到的学习行为特征指网络学习平台数据库中所记录的学习者参与网络学习时的行为,包括学习时间跨度、学习总时长、学习次数、平均每次在线学习停留时长、重复学习率、讨论交流、学习笔记、接收短信数量等。
研究采用数据挖掘技术中的聚类分析对学习者行为特征进行以下两方面的数据挖掘:第一,学习者分为哪几种类型?每一类型学习群体学习行为特征是什么、学习效果如何?第二,针对不同类型学习群体如何激励其学习行为,从而实现适应性学习?
研究希望通过上述发现,一方面帮助教师更好地了解学习者,并根据学习者行为特征制定有针对性的教学策略;另一方面根据学习群体的行为特征为学习者推送更合适的个性化资源,提高自主学习效率,从而实现有效学习。
2.研究对象
研究对象的选取是进行实证研究的关键环节之一。陕西师范大学“现代教育技术”在线开放课程自2002年开设以来,每年承担陕西师范大学公共必修课教学,目前已拥有31915名师范类本科生、3972名成人教育硕士、2742名全日制教育硕士完整的网络学习过程记录和大量翔实的信息统计数据。该课程具备稳定的学习群体、丰富的学习对象、稳定的学习过程、相对成熟的学习过程管理、前期良好的研究基础。综合考虑,用这些数据探索网络环境下的学习者聚类特征,更容易揭示规律,得出可行可信的研究结论,产生有代表性和说服力的研究结果。
本研究选取某一学期参加“现代教育技术”在线开放课程学习的陕西师范大学2687名大学三年级师范类本科生和210名联考教育硕士,共2897人。通过数据挖掘前期数据预处理,研究对象共剩余2801人,其中男生943人,女生1858人。此外研究还随机选择了其他学年学习者数据进行了两次验证,研究结果与本研究结果一致。
3.数据收集与分析
本研究采用SQL Serever 2008 Data Mining数据挖掘工具对学习者行为特征进行聚类分析。数据挖掘的第一步是数据准备。本研究选取了三类数据表:学习者基本特征、学习者行为特征、学习者学习效果。数据挖掘的第二步是数据预处理。数据预处理是数据挖掘的前期准备工作。在海量原始数据中,存在大量重复、空缺、脏乱的数据,严重影响数据挖掘的有效性和正确性。因此在数据挖掘之前必须对收集到的原始数据进行预处理,以期提高数据挖掘的效率、精度、性能。数据预处理主要包括数据清洗、数据集成、数据变换等。数据变换主要包括属性构造、数据规范化、数据离散化、数据归约。本研究选取最大-最小数据规范化方法、K均值数据离散化方法、无损归约。构造的属性有:学习时间跨度(Total Time),即学习者从第一次登录系统到最后一次退出系统的时间周期。学习总时长(Online Minute),即学习者在该在线开放课程上累积的学习时间长短。学习次数(Login Num),即学习者登录该在线开放课程进行学习的次数。平均每次在线学习停留时长(Average Time PerLogin),即学习者平均每次学习持续的时间长度。重复学习率(Knowledge PerRepeat),即学习者平均每个知识点重复学习的次数。讨论交流(BBS),即参与讨论区讨论交流的特征。以往针对BBS的研究主要仅考虑单一维度(讨论次数)或是将几个变量(如发帖数量、被回帖数量等)作为并列变量进行研究,且变量选取并不全面,仅选取部分变量。本研究通过数据分析发现,对于BBS属性仅仅考虑数量特征并不能完全反映参与BBS的实际情况,必须构造能够反映这一行为的高维特征。BBS特征与学习者的发主题帖、回帖特征密切相关。发主题帖与数量、点击量、被回帖数量密切相关,回帖与数量和点击量密切相关。同时考虑到不同低维特征反映高维特征的重要性不同,我们为其设置不同的权重,因此构造高维属性BBS=0.6×(0.4×发主题帖数量+0.3×主题帖点击量+0.3×主题帖被回帖数量)+0.4×(0.4×回帖数量+0.6×回帖点击量)。学习笔记(Blog),即学习者参与笔记的特征。以往研究考虑该维度的研究甚少,本研究认为Blog是学习者重要的网络学习行为之一。另外与BBS特征类似,需要构造能够反映该行为的高维特征,包括发表学习笔记数量、更新量、点击量3个原始特征,因此构造高维属性Blog=0.5×数量+0.3×更新量+0.2×点击量。接收短信数量(SmsInfo),即学习者在学习过程中接收督促学习短信的数量。学习效果(Total Score),即学习者总成绩。Total Score=0.1×网上作业成绩+0.2×实践技能成绩+0.2×网上考试成绩+0.5×期末笔试成绩。
四、数据挖掘
本研究采用Microsoft SQL Server Analysis Services 中的Microsoft聚类分析算法,该算法是一种利用迭代技术的分段算法。Microsoft 分类查看器提供4种视图——“分类关系”“分类剖面”“分类特征”“分类对比”。
Microsoft分类查看器的“分类关系图”选项卡显示的是挖掘模型中的所有分类的关系图。“分类间连线”的明暗程度表示分类的相似度,若连线颜色越浅或无连线,表示分类的相似性越低;反之越高。“分类框”表示每一个分类,颜色表示数据密度,若颜色越深,表示该分类所包含的记录越多;反之越少。如本研究聚类结果为10类。其中分类1、分类3、分类5关联,表示这三类相似性最强,经分析,此三类均为男生;其余7种分类相似性强,经分析此七类均为女生。分类1的颜色最深,表示人数最多,为258人。
分类剖片图如图2所示。分类剖面图可以为模型中提供分类总体视图。此视图显示了分类中每个属性及属性的分布。每列对应于模型中的每一个聚类,顶部显示分类分布统计信息;每行对应一个属性,顶部显示分类属性。不同彩条的剖面图表示离散属性分布情况,红色代表属性值为低、绿色代表属性值为中,紫色代表属性值为高,灰色代表其他值,蓝色代表缺失。根据分类剖面图能够很容易看出这些聚类之间的不同点。
分类特征图可以从“分类”列表中选择一个分类,然后可以检查特定分类的组成特征。该视图由变量、值、概率组成,“变量+值”表示属性状态,排列顺序将按照属性的重要程度(即概率)顺序排列。
分类对比图选项卡用来比较两个分类的属性。使用“分类1”和“分类2”列表可以选择要比较的分类。查看器将确定分类间最重要的一些差异,并按重要性顺序显示与这些差异关联的属性状态。属性右侧的条表示属性状态所倾向的分类,条的大小则表示属性状态倾向于相应分类的程度。图2是本研究分类1与非分类1之间的差异。
通过以上四种视图显示的结果,研究获得四种聚类,各类学习者的特征如下:
聚类1:“高沉浸性”学习者。典型代表是分类2(200人)、分类3(206人)、分类9(172人)。该类学习者在网络环境下学习时有很高的沉浸性,对该网络学习平台有很高的黏着度,利用网络学习的积极性较高,参与度高,乐于协作学习,自我调控能力强,学习效果有两类(高成绩型、低成绩型)。基本特点是:第一,平均每次在线学习停留时长偏低、学习次数偏高,即该类学习者学习频率高、喜欢充分利用零散时间进行碎片式学习。第二,在线总时长偏低,即该类学习者学习效率较高,能够在有限的时间完成学习,并达到有效学习。第三,学习时间跨度高、重复学习率高、学习笔记高、讨论交流高,即该类学习者网络学习参与度高,学习积极性高。第四,短信接收数量低,即该类学习者自我调控能力强,学习动机强,对外部调控需求较小。第五,总成绩有2类,一类是高成绩型,总成绩主要为B级或A级,即该类学习者学习效果好,是学习领袖;另一类是低成绩型,总成绩主要为C,即该类学习者学习效果差。这可能是由于自身学习策略不恰当,所以虽然很努力与活跃,但学习效果并不理想。
聚类2:“较高沉浸性”學习者。该类学习者在网络环境下学习时沉浸性较高,对该网络学习平台的黏着度较高,学习效果较好。根据学习者信息加工的差异,可以将该类学习群体分为两类:活跃型、沉思型。
“活跃型”典型代表是分类7(196人)。基本特点是:第一,平均每次在线停留时间高、学习次数低。第二,在线总时长中、学习时间跨度中。第三,重复学习率高、学习笔记高、讨论交流偏高。第四,短信接收数量低。第五,总成绩主要为B级或A级。通过对这类学习者学习行为分析,可以得知:该类学习者对网络学习的沉浸性并非最高,但倾向于积极做事、讨论、应用或给别人解释知识,喜欢通过网络交流合作,且具有较高的自我调控能力,能够通过自我调节合理分配学习行为。
“沉思型”典型代表是分类4(196人)。基本特点是:第一,平均每次在线学习停留时长高、学习次数低。第二,在线总时长偏高、学习时间跨度中。第三,重复学习率低、学习笔记偏低、讨论交流无。第四,短信接收数量低。第五,总成绩主要为B。通过对这类学习者学习行为分析,可以得知:该类学习者倾向于采用反省的方式来观察和处理信息,他们通过深入思考来学习,偏爱单独学习,因此其网络学习参与度较差,几乎不参与交流讨论和学习笔记。
聚类3:“中沉浸性”学习者。典型代表是分类6(194人)学习者。该类学习者在网络环境下学习时沉浸性一般,对网络学习平台黏着度一般,自觉性一般,其学习的动机主要是为了完成学习任务,因此各类学习行为几乎均适中,学习效果一般。基本特点是:第一,时间跨度偏高。第二,平均每次在线学习停留时长中、学习次数中、学习笔记中、重复学习率中。第三,在线总时长偏低、讨论交流偏低。第四,短信接收数量中。第五,学习效果一般,总成绩B级。
聚类4:“低沉浸性”学习者。典型代表是分类1(258人)、分类5(202人)、分类8(178人)、分类10(159人)学习者。该类学习者在网络环境下学习时沉浸性较低,对网络学习平台的黏着度较低,积极性较差,参与度差,自我调控能力差,需要通过外界的督促调控才能完成学习任务,参与网络学习的目的仅仅是为了完成学习任务,因此学习的效果较差,学习风格有两类(间断型、连续型)。基本特点是:第一,该类学习者可以分为2类,一类平均每次在线学习停留时长偏高、学习次数偏低,主要采取突击方式跨越式地进行学习;另一类平均每次在线学习停留时长偏低、学习次数偏高,主要采用以小步调渐近的方式学习,学习过程是线性的,学习时间是连续固定的。这两类学习者无论学习频率低或高,大多数是为了完成学习任务而特意安排特定学习时间参与网络学习,因此学习的效果较差。第二,重复学习率、学习时间跨度、在线总时长偏低。第三,几乎不参与讨论交流和学习笔记,即该类学习者网络学习参与度低,学习积极性差。第四,短信接收数量偏高,即该类学习者自我调控能力差,需要教师的外部调控才能完成学习任务。第五,总成绩主要为C级,即该类学习者学习效果较差。
五、研究结论与建议
根据数据挖掘结果,将学习者聚类分为四大类,分别为高沉浸性、较高沉浸性、中沉浸性、低沉浸性。每类学习行为特征和学习效果如下表。
依据上述研究结论,我们从学业预警、教学策略和适应性推送服务的角度出发,结合网络学习和教育心理学的相关理论,针对网络学习提出以下建议:
第一,根据不同类型学习者群体的行为规律进行学业预警。已有研究表明沉浸状态对学习有积极影响(Salanova et al.,2006),本研究也发现沉浸状态对学习有积极影响,沉浸性高的学习者学习效果往往较好。实施网络学习的机构可以根据聚类分析结果,对学习者学习效果进行预测与预警。同时注意对学习者的聚类分析是不断更新、实时分析、循环进行的,应在学习的不同阶段提供不同的干预策略。首先,根据沉浸性状态给予学业预警与干预。对沉浸性表现差的学习者给予恰当干预,使其向沉浸性高的群体转变。其次,根据预测学习效果给予学业预警与干预。学习者在学习的某一阶段一旦出现学习危机,给予及时恰当的干预,从而实现学习者的有效学习,提高学习效果。
第二,根据不同类型学习者群体的行为规律确定教学策略。聚类分析结果可以使教师及时了解学习者行为特征与规律,方便其因材施教,确定教学策略与改善教学资源,为学习者的有效学习提供引导与干预。例如每隔一段时间对学习者进行聚类分析,根据分析结果,教师了解学习者属于哪种类型的学习群体。如果学习者处于低沉浸性,教师应调查原因,对这类学习者重点监督,并提供更多的学习策略指导与外部调控。可通过短信、微信、电子邮件等形式提醒学习者按时参与学习,提高其时间管理能力;或利用学习进度提示器、数字仪表盘,让学习者清晰地了解自己或其他学习伙伴的学习进度,一方面实现对自己的元認知,另一方面实现同伴激励;或者通过提示窗口、弹幕对学习者提供警示、通知等,提高其注意力以及自我调控能力。教师还可采用多种途径激发学习者的学习动机,有针对性地采取合适的教学手段、提供感兴趣的资源(自适应资源推送)、开展多样的交互活动(如及时回复、即时交流、直播、学习共同体等),增加这类学习者参与行为,防止其用户流失,进而向高沉浸性转移。
第三,根据不同类型学习者群体的行为规律实现适应性推送服务。构建资源推送服务机制,创建适应性学习系统。教育技术的一个核心和持久问题是为了适应和支持个体不同教育目标和学习能力而规划并提供教学环境与条件(Park,1996)。强调学习空间为核心的资源推送,把不同学习者所需要的适当资源送入不同的个人学习空间。根据数据挖掘的结果,为学习者提供个性化的学习推送服务,包括提供不同的内容展示形式(即用不同的媒体形式或顺序呈现学习内容)、不同的导航或学习路径、不同的学习帮助、不同的评价等。例如针对高沉浸性学习者,可以为其更多地推送一些课外资源,丰富其学习内容,扩展其学习视野,教师也应积极引导其成为学习领袖。针对低沉浸性学习者,提前预警,尽量为其推送一些难度较低且最感兴趣的话题与资源,为其提供贯穿课程材料且结构良好的学习路径,并且注意不能使用过多的链接加重其认知负荷,同时要加强对这类学习群体的监督和调控,利用任务驱动的形式设置奖励措施来激发其学习动机,从而提高其学习沉浸性,最终达到学习效果的提升。而对中沉浸性学习者应该向其推送感兴趣的学习内容。对高沉浸性-低成绩型学习者则要加强其学习策略的指导和训练。对较高沉浸性-沉思型学习者可以通过激励制度或小组协作活动提高其网络学习参与度,让其体验协作的乐趣和好处,从而提高其协作学习能力。
参考文献:
[1]傅钢善,王改花(2014). 基于数据挖掘的网络学习行为与学习效果研究[J].电化教育研究, (9):53-57.
[2]李珊,刘继超,邵芬红(2017).Web日志与浏览行为结合下的用户浏览兴趣数据挖掘分析[J].现代电子技术,(5):30-33.
[3]李爽,钟瑶,喻忱等(2017).基于行为序列分析对在线学习参与模式的探索[J].中国电化教育,(3): 88-95.
[4]彭绍东(2017).大数据时代网上学习行为研究的挖掘方法模型与应用[J].电化教育研究, (1):72-81.
[5]邵志芳(2006).认知心理学——理论、实验和应用[M].上海:上海教育出版社:22.
[6]吴青,罗儒国,王权于(2015).基于关联规则的网络学习行为实证研究[J].现代教育技术, (7):88-94.
[7]赵慧琼,姜强,赵蔚等(2017).基于大数据学习分析的在线学习绩效预警因素及干预对策的实证研究[J].电化教育研究, (1): 64-71.
[8]Amershi, S., & Conatl, C. (2009). Combining Unsupervised and Supervised Classification to Build User Models for Exploratory [J]. Journal of educational data mining , 1(1):18-71.
[9]Araya, R., Jiménez, A., & Bahamondez, M. et al. (2014).Teaching Modeling Skills Using a Massively Multiplayer Online Mathematics Game [J]. World Wide Web-Internet & Web Information Systems, 17 (2): 213-227.
[10]Feldman, J., Monteserin, A., & Amandi, A. (2014). Detecting Students' Perception Style by Using Games [J]. Computers & Education, 71 (C): 14-22.
[11]Natek, S., & Zwilling, M. (2014). Student Data Mining Solution-Knowledge Management System Related to Higher Education Institutions [J]. Expert Systems with Applications, 41(14):6400-6407.
[12]Park, O.(1996). Handbook of Research on Educational Communications and Technology[M]. New York: Macmillan:634-664.
[13]Salanova, M., Bakker, A. B., & Llorens, S. (2006). Flow at Work: Evidence for an Upward Spiral of Personal and Organizational Resources[J]. Happiness Studies, 7:1-22.
[14]Vaessen, B. E., Prins, F. J., & Jeuring, J. (2014).University Students' Achievement Goals and Help-Seeking Strategies in an Intelligent Tutoring System [J]. Computers & Education, 72:196-208.
收稿日期 2018-03-16 責任编辑 王雍铮
Abstract: With the rapid development and wide spread application of the computer and network, online learning has become an important component of the development of education in the Internet plus era. In recent years, with the widespread concern of big data, the study of online learning behavior based on data mining has become an important research direction and research focus. At present, most of the classification of online learning behavior is based on learners own attributes, with a lack of detailed and in-depth analysis of behavior types. Clustering analysis based on data mining can find the law behind the data by the advantage of big data. On the basis of the online learning process records of the online open course “Modern Educational Technology” in Shaanxi Normal University, this paper uses data mining tools to cluster the online learners behavior characteristics, and finds out that: according to the characteristics of learning, online learners can be divided into four groups including the highest immersion type, the higher immersion type, the moderate immersion type, and low immersion. Learning behavior is closely related to the learning effect, and learners with the high immersion tend to have better learning effect. With the help of technical tools, teachers can conduct continuously updating, real-time and circular cluster analysis of learners, timely find the individual and group learning characteristics of learners, teach students in accordance with their aptitude, promote adaptive personalized services, and give timely learning warning and appropriate teaching intervention.
Keyword: Online Learning; Behavior Characteristics; Data Mining; Cluster Analysis; Personalized Education