基于CiteSpace对教育大数据相关研究的图谱分析

    曾汉 邹霞

    

    

    

    摘? 要 随着大数据挖掘技术在各个领域的广泛应用,可以看到大数据挖掘技术在各行各业中产生不可忽视的作用。为了分析大数据挖掘技术在教育领域的相关研究和应用情况,以教育大数据为主题词,使用高级检索方式在中国知网中检索核心期刊中有关教育大数据的文献,应用可视化文献分析软件CiteSpace辅助分析,从发文数量、关键词、机构、作者等方面进行相关研究。陈述自2014年以来近五年有关教育大数据的研究状况,并在此基础上揭示研究中的问题,给出解决相关问题的建议。

    关键词 教育大数据;CiteSpace;载文分析;

    中图分类号:TP311.13? ? 文献标识码:B

    文章编号:1671-489X(2020)16-0001-06

    Map Analysis of Relevant Research on Big Data in Education based on CiteSpace//ZENG Han, ZOU Xia

    Abstract With the wide application of big data mining technology in?various fields, we see that big data mining technology in all walks of?life have a role that cannot be ignored. To study in the data mining technology in the field of education research and application of this?article is given priority to with big data education inscription, use theadvanced retrieval way HowNet retrieve core journals in China in the?literature of big data education, the application of visualization litera-ture analysis software CiteSpace auxiliary analysis, from the number,?keywords and institutions, the author has carried on the related re-search. This paper states the status quo of the research on big data in?education in the recent five years since 2014, and on this basis reveals?the problems in the research and gives suggestions to solve the rele-vant problems.

    Key words education big data; CiteSpace; text analysis

    1 引言

    在生活、工作和学习中,人们的一言一行都会产生各种各样的數据。以前虽然有大量的数据,但是由于相关技术的缺失,缺乏对大数据的分析和应用能力。随着科学技术的飞速进步,计算机的存储和运算速度飞速提升,人们开始利用海量的数据为生活、工作和学习等领域服务,针对大数据的处理和挖掘的相关应用已经深入各个行业、各个领域。

    所谓教育大数据,是指在整个教育活动过程中所产生的以及根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据[1]。本文以教育大数据为主题,利用中国知网收录的以教育大数据为主题且发表在核心期刊上的文献为研究对象,通过分析有关以教育大数据为主题的文献作者、载文数量、作者机构、关键词共现网络、研究前沿时序等,了解目前有关教育大数据的相关载文数量、研究热点、作者和机构之间相互合作情况,并在此基础上给出相关总结和建议。

    2 研究方案及数据处理

    数据来源与处理? 研究的数据来源于中国知识基础设施工程数据库(CNKI,China National Knowledge Infra-structure),简称中国知网[2]。为了使研究更具有信度和效度,研究仅检索中国知网数据库中的核心期刊(本研究所指核心期刊为中国知网上期刊菜单栏目下所包含的不同评价机构所分类的所有核心期刊)上发表的以教育大数据为主题的相关文献。具体检索时,在检索方式中采用高级检索方式,在以期刊为菜单的栏目中以“教育大数据”为主题进行有关检索,在菜单栏目中期刊栏目下勾选SCI来源期刊、EI来源期刊、核心期刊(被北京大学中文核心期刊总览所收录的期刊)、CSSCI、CSCD,且同时剔除包含资讯、网络首发、增强出版、数据论文、中英文扩展、同义词扩展等相关栏目,检索时间为2019年7月25日,并在此检索条件下做全数据库检索,总共检索到相关论文791篇。为了保证数据的有效性,通过人工筛查的方式剔除会议、出版纲要、期刊本年度研究选题等无关文献共计29篇,剩余分析论文762篇。

    由于中国知网中单网页最多显示50篇检索文献,且每次导出检索文献数量上限为500篇,因此,本研究使用分批次导出的方法,每次导出相关文献500篇,总共形成两个文档并分别命名。完成所有文献的导出,来源文献包括作者、标题、来源出版物、摘要、参考文献字段[5]。鉴于本研究使用的软件CiteSpace只能处理指定格式的文档,在导出文献时选择RefWorks,并将导出的文献格式Ref Works利用CiteSpace软件进行相关转换。转换具体步骤:将CNKI数据格式转换,菜单Data—Import/Export—CNKI_RefWorks。最终的预处理结果文本文件作为本文的数据源,以方便CiteSpace软件进行进一步的加工和处理。

    软件简介及相关参数设置? CiteSpace是美国德雷塞尔大学(Drexel University)的华人学者陈超美教授团队基于Java语言开发的[3]。该软件是一款可视化文献分析软件,能够显示学科或知识域在一定时期发展的趋势与动向,形成研究前沿的演进历程,目前已经在知识图谱可视化领域被广泛应用。研究开始前针对软件进行以下设置:

    1)在主菜单中新建项目unite—10并选择好对应的数据源;

    2)主窗口右侧配置分析,其中时间窗口(Time Slicing)

    为2013到2019,时间切片(Years Per Slice)为1[4],节点类型(Node Type)分别为Author、Institution、Key-word,阈值选择(Threshold)在进行具体分析时阐明,精简和合并网络(Pruning)策略为Pathfinder Network Sca-ling算法,展示(Visualization)为静态聚类模式Cluster?View等相关操作。

    以上仅介绍前期相关参数设置的具体参考系数,更多详尽参数设置将在数据分析和图谱生成中进行详细说明。

    数据分析

    1)载文数量分析。研究从载文数量研究关于教育大数据为主题的论文数量。研究首先从中国知网数据库中以文献菜单栏目检索做检索。检索条件:

    (主题=教育大数据,或者题名=教育大数据,或者v_subject=中英文扩展(教育大数据,中英文对照),或者title=中英文扩展(教育大数据,中英文对照))(模糊匹配)。专辑导航:全部。数据库:文献 跨库检索

    在该检索条件下,共检索出文献4292篇,其中最早发表在中国知网上的论文为Big Data Could Play a Role in Improving Education,发表时间为2012年9月5日,作者为Pavgi,Kedar,发表在Nextgov.com(Online)。而截至检索时间2019年7月25日,数据库中检索到最新的发表文献为刘三女牙、柴唤友、刘盛英杰、黄山云、胡天慧? 劉智等共同合作发表在《电化教育研究》杂志上的《智能驱动教育技术发展的中德视角——2019年中德双边研讨会综述》。

    在期刊栏目下来源类别勾选全部期刊的情况下进行检索,总共检索到相关论文3787篇。在选择核心期刊情况下,具体检索条件如下:

    (SCI收录刊=Y,或者EI收录刊=Y,或者核心期刊=Y,或者CSSCI期刊=Y,或者CSCD期刊=Y)并且(主题=教育大数据,或者题名=教育大数据)(模糊匹配)。专辑导航:全部。数据库:学术期刊 单库检索

    在该检索条件下总共检索相关论文791篇,其中最早发表在核心期刊上的论文为国家开发大学魏顺平发表在《现代教育技术》上的《学习分析技术:挖掘大数据时代下教育数据的价值》,发表时间为2013年2月15日。

    在中国知网的博硕士菜单栏目下以教育大数据为主题进行检索,总共检索到论文299篇,其中最早的为2014年中共中央党校张兰廷发表的博士论文《大数据的社会价值与战略选择》,最新的为2019年西安理工大学赵志硕士发表的《教育大数据统计分析平台设计与研究》。

    为了生动形象地展示各个年份论文发表的情况以及发文趋势,本研究使用中国知网自带的论文分析功能做了核心期刊论文发文趋势分析报告,具体如图1所示。有关教育大数据的文献数量逐年递增,说明教育大数据正受到越来越多的关注,研究成果也越来越多。虽然在2018年出现短暂下滑现象,但在分析中国知网文献菜单栏检索条件下的发文趋势时发现,发文数量在2018年并未下降。由此可知,虽然在核心期刊上的发文数量有所减少,但整体的关注度依然较高。在核心期刊的发文从2013年起一直都是以较快速度增长,在2019年并未结束时,整体发文数量已经超过2018年,说明教育大数据的研究成果日渐丰富,发文数量也在年年增加。

    2)作者分析。

    ①高产作者分析。研究通过CiteSpace软件对作者的分析功能分别统计分析发表论文前十的作者,以及作者之间的相互合作情况。表1所示为排名前十的高产作者,由于频数为4的作者出现重复,因此将全部频数为4的作者均展示在表中,其中排在第一位的为江苏师范大学的杨现民教授。通过中国知网中的作者知网节可以发现,杨现民教授的主要研究方向为智慧教育、大数据、教育大数据等,而他的最高被引论文中也有多篇关于教育大数据的论文。排名第二的为重庆广播电视大学的吴南中,通过中国知网检索发现,其关注领域为学分银行、职业教育、MOOC、教育大数据等。通过中国知网的作者知网节的最高被引发现,吴南中有关教育大数据的研究主要分布在教育大数据与MOOC的应用研究等相关方面。曲阜师范大学的赵可云教授,通过中国知网作者节中可以发现,主要关注方向为大数据、翻转课堂等。

    根据表1,这十五位作者中,中国知网作者节中关注领域多为大数据、教育大数据,仅少数作者关注的领域中未出现明显的教育大数据字眼,但关注的都为教育大数据应用较多的领域,如学习分析、个性化教学、智慧教育等。高产作者中,背景多为教育技术学学科领域背景,少数为教育学背景。作者的机构中,师范类院校占据多数,排名前三的作者除吴南中为重庆广播电视大学外,其余两位均为师范院校。

    ②作者合作分析。运用CiteSpace的作者分析功能,通过相关参数调整后,得到图2所示的作者合作分布图。该分析总共获得聚类54个,网络节点数量为94个,连线数量为52。图中节点大小代表合作频数多少,边描述作者合作次数。由图可知,有关教育大数据的研究,研究力量较为分散,各个作者各自为政,彼此之间少有合作。即使从图中看到的合作网络,通过中国知网数据库检索相关作者知网信息时发现,均为同一机构之间作者的第二、第三作者,而跨机构、跨单位之间的作者相互合作较少,在一定程度上制约了教育大数据的研究发展。

    除此之外,通过CiteSpace生成的作者時序图可以发现,除少部分作者关于教育大数据的研究成果有在较大时间跨度之内都有发表以外,大部分作者有关教育大数据的论文数量仅为一篇或者两篇,很多作者在早期发表一篇论文后,后期并无后续有关教育大数据的研究成果发表。作者关于教育大数据的关注的持续性较低,研究缺乏一定的持续性和持久性。

    3)机构及机构合作分析。

    ①机构分析。为了了解有关教育大数据热门研究单位和主力机构,研究通过CiteSpace中有关机构分析的功能,分析教育大数据的主力机构,并从机构所属类型、排名较为靠前的机构等方面进行相关分析。为了方便展示,把从CiteSpace中生成的有关数据进行相关处理,删除在机构研究中并不重要的选项,如关键词;且并未发现突变指数,故把突变一项也进行删除处理。由此得到表2所示高产机构,仅选取排名前十的机构进行展示。

    如表中所展示的数据,排在第一名的为西南大学教育学部;排名前十的机构中,除武汉大学信息管理学院所属为综合类院校外,其余机构均为师范类院校。其中江苏师范大学的两个研究机构进入教育大数据发文数量的前十名,分别是江苏师范大学智慧教育学院和江苏师范大学智慧教育研究中心。在观察未出现在前十名的机构时发现,同一学校不同研究单位出现的频次较高,部分大学或者学院,若不考虑二级机构,则排名还将上升。由此可见,在以大学为组织机构的研究中,江苏师范大学有关教育大数据的研究走在前列,研究成果发表较多。在利用CiteSpace生成的机构时序图中也可以发现,关于教育大数据的研究,江苏师范大学的持续性较强,其次为北京师范大学。

    ②机构合作分析。为了探讨教育大数据研究机构之间的合作情况,本研究利用CiteSpace的机构分析功能对其进行有关分析,得到图3所示机构合作分析图。分析总共获得聚类54个,网络节点数量为73个,连线数量为24。图中节点大小代表合作频数多少,边描述机构合作次数。根据图中节点个数,网络密度为0.009 1。从图中可知,并无较为突出或者较大的节点,说明有关教育大数据的研究机构之间的合作较少。虽然连线数量为24,但从图中可以看到,有合作的机构大多为同一学校的不同二级单位,跨学校之间机构的合作较少。因此,有关教育大数据的研究机构分散,各个机构之间缺乏合作,研究力量分散。此外可以发现,有关教育大数据的关注力量主要为师范类院校,缺乏跨背景合作与交流。

    4)关键词分析。在检索条件:

    (SCI收录刊=Y,或者EI收录刊=Y,或者核心期刊=Y,或者CSSCI期刊=Y,或者CSCD期刊=Y)并且(主题=教育大数据,或者题名=教育大数据,或者v_subject=中英文扩展(教育大数据,中英文对照),或者,title=中英文扩展(教育大数据,中英文对照))(模糊匹配)。专辑导航:全部。数据库:学术期刊 跨库检索

    通过手动筛除的方法筛除不符合要求的论文,将数据导入并转换格式之后,导入CiteSpace,利用其关键词检索功能对关键词进行有关分析,得出出现频率最高的十个关键词,分别是大数据、教育大数据、大数据时代、思想政治教育、学习分析、智慧教育、数据素养、教育信息化、美国、人工智能。由于研究的主题为教育大数据,因此,教育大数据作为高频词汇出现在前十的高频关键词中,也理所当然。但在前十的关键词中,令人意外的是思想政治教育作为第四个高频关键词出现在教育大数据的主题中。

    为此,笔者以先前的检索条件,并结合其后同样出现的高校思想政治教育关键词为关键词,在中国知网中进行二次检索,仅在该检索条件下就检索到论文99篇。限于中国知网每次只能检索两个关键词,而有关思想政治教育的关键词有多个。针对该检索结果,利用中国知网的计量可视化分析功能,和略读有关思想政治教育关键词的文献发现,思想政治教育作为关键词出现的文章主要包括大数据时代思想政治教育的理论探究、大数据时代思想政治教育的模式创新、大数据时代的思想政治教育应用研究等相关主题[6]。

    而之后出现的有关教育的大数据的主题的高频关键词中也出现部分大而泛的关键词,如美国、高校等词的出现,导致分析结果的导向性受到部分影响,也侧面反映了忘却了提炼关键词的目的。

    为了反映各个阶段的研究热点,研究利用CiteSpace制作图4所示关键词时序图。针对图谱进行一定的聚类及大小调整等处理后,使图能直观反映分析,使结果更加形象直观。

    如图所示,该分析总共获得聚类13个,网络节点数量为170个,连线数量为491。图中节点大小代表关键词出现的频率高低,最上面的时间线则代表该关键词出现时间,而每一根横向的线则代表该聚类的关键词随时间的变化。从图中可知,有关大数据的热点研究随时间变化较快,对于研究缺乏一定的持续性,研究广度较大,热词的持续性较差。从图中2019年的热门关键词中可以看出,智能教育、教育信息化2.0、数据采集、智慧课堂等受到广大学者的关注。

    3 总结与反思

    研究现状

    1)从载文数量看,有关教育大数据的研究从2012年开始受到大家关注,在2013年有关教育大数据的相关论文开始大量出现,在此后几年有关教育大数据的研究成果数量大幅增长,教育大数据受到大家广泛关注,相关研究成果丰硕。

    2)在研究人员分布上,对于教育大数据的相关研究人员主要集中于教育技术学专业的学者。研究人员对教育大数据的研究关注的持续性较低,大部分研究人员相关研究成果仅为一两篇。研究力量也较为分散,研究人员之间的合作交流停留在同一学校的不同机构,并没有形成较大的研究集点。

    3)从机构分布情况看,排名前十的有关教育大数据的高产研究机构除武汉大学外,其他均为师范类院校,机构类型单一。同时,机构之间的相互合作也较少,大部分合作仅存在于同一学校的不同二级单位之间,缺乏实质性的合作与交流。

    4)在研究熱点方面,对于某个热点的研究持续性较低,今年较热的关键词的研究广度不断拓宽,但深度较低。目前有关教育大数据受到关注度较高的关键词有大数据、大数据时代、教育大数据、思想政治教育等,其中教育信息化2.0、机器学习、智能教育、中国教师数据素养、思想政治教育等受到广泛关注。

    反思? 目前有关教育大数据的研究受到各方广泛关注,研究人员不断丰富,研究成果也不断丰富。通过对教育大数据的文献、作者、机构和关键词进行分析,提出几点建议。

    1)提高研究成果的质量和水平。从中国知网的期刊栏目中检索发现,仅三篇来自EI,在未勾选核心期刊情况下总共检索出3792条文献,勾选后论文数量为791篇,占比仅为20%,说明高质量高水平的文章较少。

    2)加强机构之间和不同学科背景之间研究的合作交流。目前有关教育大数据的研究学科背景单一、机构之间合作较少,加强合作与交流能凝聚研究力量,促进智慧的火花相互碰撞,节约研究成本。

    3)处理好热点和研究持续性问题。在关注热点的同时也要注意研究的深度,做好两者的统筹兼顾。

    参考文献

    [1]杨现民,唐斯斯,李冀红.发展教育大数据:内涵、价值和挑战[J].现代远程教育研究,2016(1):50-61.

    [2]张子石,吴涛,金义富.基于CiteSpace的网络学习知识图谱分析[J].中国电化教育,2015(8):77-84.

    [3]Liu S, Sun Y P, Gao X L, et al. Knowledge domain?and emerging trends in Alzheimers disease: a scien-tometric review based on CiteSpace analysis[J].NeuralRegeneration Research,2019(9):1643-1650.

    [4]刘勇,生晓婷,李青.人工智能在我国教育领域应用的可视化分析[J].现代教育技术,2018(10):27-34.

    [5]蔡建东,马婧,袁媛.国外CSCL理论的演进与前沿热点问题:基于Citespace的可视化分析[J].现代教育技术,2012(5):10-16.

    [6]刘从德,谭春霞.大数据时代思想政治教育研究文献的定量研究:基于CiteSpace的文献计量可视化分析[J].学校党建与思想教育,2019(4):50-54.

    作者:曾汉,西华师范大学教育学院在读硕士,研究方向为教学设计;邹霞,通讯作者,西华师范大学教育学院(637000)。