网站首页  词典首页

请输入您要查询的论文:

 

标题 学生情感分析在课程教学评价中的作用与实施探讨
范文

    张捷 陈付龙 张佩云

    摘要:高校课程教学的评价主体是学生,以学生学习为中心的教学评价模式已被众多的机构与研究者所认可。从提升学习效果出发,学生对教师课堂教学活动进行事实性评价是被普遍接受的方法,但目前的研究多集中在如何更科学合理的设计评价细则和指标,以供学生进行评教打分。本文从学生对教学活动的直接感受出发,认为来自学生的感性评论也蕴含十分有价值的信息。通过引入基于机器学习的情感分析方法,将文字评论进行情感倾向分类,提供给教师和管理者更多的信息反馈和分析手段,是对现有教学评价系统功能进行改进的有益探索。

    关键词:教学评价;教学管理;教学质量;情感分析;机器学习

    中图分类号:G40-058.1 文献标识码:A 文章编号:1009-3044(2019)04-0184-05

    Abstract: The evaluation subject of curriculum teaching in colleges and universities is students. The student-centered teaching evaluation model has been recognized by many institutions and researchers. In order to improve the learning effect, it is generally accepted that students make factual evaluation of teachers' teaching activities. However, most of the current research focuses on how to design more scientific and reasonable evaluation rules and indicators for students to evaluate teaching. This article starts from the students' direct feelings about teaching activities, believes that the emotional comments from students also contain very valuable information. By introducing the method of affective analysis based on machine learning, the text comments are classified into emotional tendencies, and more information feedback and analysis methods are provided to teachers and managers. This is a useful exploration for improving the functions of the existing teaching evaluation system.

    Key words: Teaching evaluation; Teaching management; Teaching quality; Sentiment analysis; Machine learning

    来自教学活动直接受众学生的反馈评价是高校教学质量评价体系中不可缺少的一环。教学评价的目的在于反馈和交流,如何更好地分析学生对教师课堂教学的反馈,可以从大量评论性质的文本语料中入手。而目前深度学习算法在文本情感分析方面展现出优异性能,可将其移植到教学评价系统中,通过收集学生大量的直接评论来分析学生情感倾向,这将辅助教师更全面地认识课堂教学质量,并提升相关教学管理的智能化水平。

    1 学生情感分析在课程教学评价中的作用

    在高校教学评价和质量评估体系中,来自学生受众群体对教师课堂教学包括实验实训教学的直接反馈评价是非常重要的一环。通过充分运用心理学、统计学方法以及现代信息技术手段,在准确有效地收集学生反馈信息的基础上加以分析,可使学校管理部门和教师对教学工作有一个清楚的认识,从而找到不足并改进工作方式方法,这对教学质量的保障有着非常重要的意义[1][2]。国外早就认识到大学课程教学质量的评价主体是学生,包括面向学生设置多样化的评价指标体系,设立专门联系学生与教师群体的“教与学技术委员会”等,其主旨在激励和引导教师将传统的教授模式向更加注重交流、探究和创新的模式转变,从而更全面的提高人才培养质量[3][4]。

    近年来,国内对大学课堂教学质量及教学评价现状的研究表明,应当充分认识到学生作为评价主体在大学课程教学质量体系中的作用。吴艳[5]等通过对十所高校开展实证调查研究,发现不同年级不同特征的学生在评价教师的教学目标、教学方法、课堂管理等指标上具有显著差异,认为课程教学是一种复杂性的双向交互活动,其本身因评价主体的不同展现高度的不确定性。 俞佳君[6]认为我国高教改革已经进入内涵式发展阶段,教学评价面临从“教”到“学”的范式转型,强调了从学生学习角度出发对教学活动进行价值判断的重要性。周湘林[7]进一步指出学生对教学活动的直接评价是更实质更真实的评价,而结合教法、学法及效用等多方面的标准才能对教师教学质量做出较为中肯、全面的评价。

    在教学评价的方法上,学生参与评教并结合科学的评价指标体系已成为共识[2][3][8][9][10],并且随着网络化技术的普及,目前多数高校均已正常实施。我们也注意到最近涌现出的新观点。例如郭丽君[10]认为学生评价行为与教师的教学活动和教学效果之间可通过内在的调控机制建立起联系,而这一联系应当是流动与循环的,即需反映教学活动与教学质量评价之间的联动性。王朋[11]通过研究美国大学教学评价的演變,分析了“以学生为中心”、“以教师为中心”和“以学习为中心”三种评价方式的目的与核心内涵,并指出“以学习为中心”方式成为当今美国大学的教学评价主流。

    “以学习为中心”的教学评价方式强调教师的教学效果与学生的学习效果,二者构成了教学活动的两级,是既对立又统一的。我们认为结合教与学两面的效用评价才是理想的评价方式,但因为效果往往附着于学生自身的素质和能力,包括毕业就业及发展前景等因素,操作上存有滞后性和需多元协同等困难。从利于操作的事实评价入手不失为可行的方式。以学生为主体的教学效果事实评价具有多种形式,除了传统的学生评教和成绩测评以外,我们认为还应当重视教学过程中学生对教师教学的反馈,实质上是强调单向教学范式向互动教学范式的转变。以提高学习效果为目的,利用学生评价主体的能动性反馈课程教学活动,促进教师提升教法和教学效果,从而在“教”与“学”之间形成反馈环,这是本文的出发点。

    教学评价的本质属性是工具性,即改进—证明功能,学生评教的结果应能证明教学成效和促进教师改进教法,这是教学评价得以进行的预设性前提[12]。而其中,学生对教师的教学仅以分数来评价往往过于片面。Carrell与West[13]的研究表明,学生评教分数与学习之间仅存有非常低的相关性,甚至不存在关系。获得较高评教分数的教师往往过于关注学生的短期学习成绩,并存在应试教育或取悦学生的嫌疑;给出较高评教分数的学生往往更在意成绩而非知识和技能本身,多数处于浅层学习阶段[13]。学生评教分数仅可作为“消费者满意度指数”,并不能充分证明教学的有效性,因为该数字极大地受到学生对教学认知的水平及教师外貌、兴趣等其他因素的影响[14]。

    评教分数本身的固有属性是抽象性和单一性,其蕴含信息量十分有限。一种观点认为,设计出更科学更合理的教师教学评价表,通过评价条目的完善可以改进对教学的诊断甚至建构一致性的评价指标体系[7]。我们认为在此基础上,还需增加对学生的情感分析。归根结底,学生作为教学服务的受众群体,其评价内容具有更实质更接近真实情况的特点。一方面,学生群体的因为对教学评价指标体系本身的认知达不到很高的理论层次,其测评行为易于流于形式;另一方面学生如果脱离了表格的约束,其通过语言文字直接表达出来的观点往往却是真挚的、富有情感的。这是通过评教分数无法获取的重要信息,其价值在于学生群体作为人的属性变得丰满,而人的情绪、情感等相对更主观的因素却可能对学习效果带来巨大的影响。

    笔者所在的单位学生评教除了依据评价表格打分以外,还要求学生对老师的课程教学直接给出评论,以短文形式提交。事实上,除了期中与期末的集中评教软件系统,也要求教师关注其所讲授课程的校内论坛网站,其上也有学生对该课程教学实时表达的观点。这些评论短文除了技术性问题讨论之外,都或多或少蕴含了某个学生在特定阶段的情感特征,如果能够运用一定的技术方法,将这些蕴含在文字内的大量情感信息加以分析并总结,对教师的教学方法、教学内容乃至沟通技巧的调整和改进十分有益。情感分析可作为教学评价系统的附加功能,辅助教师对学生产生更具体更全面的认识,做到有的放矢,从而帮助学生获得更高的学习质量,这是本文的立足点。

    从大量评论性质的文本语料中抽离出有用的信息,进行情感倾向分析属于机器学习的范畴,它最早开始于监督学习。传统的监督学习在早期曾取得十分好的效果,如Pang[15]等对电影评论的情感分析。Zhang[16]等比较了几种监督学习算法,得出基于特征的N元模型(N-Gram)输入到支持向量机(SVM)中分析效果最好。但基于监督学习的解决方案的缺点也十分明显,包括语料库依靠人工标注、需要基于规范文本的分析等,面对互联网海量不规范文本数据时有很大局限。另一方面,基于无监督学习的情感分析方法也开始出现。Turney[17]于2002年率先提出一种基于种子词的无监督学习方法,通过计算文本中词语与种子词中积极情感词和消极情感词的点互信息来判断文本的情感极性。之后Singh[18]等根据情感强度为词赋予不同情感值,并且考虑了否定词、副词等对情感极性的影响。国内赵妍妍[19]等将文本情感分析归纳为情感信息抽取、分类和检索归纳三项主要任务。孙艳[20]等提出了基于无监督学习的主题情感混合模型,通过对句子和词的情感标签采样,得到每个主题的情感词,从而对文本进行情感分类。

    2006年Hinton[21]通过利用单层的RBM自编码预训练使得深层的神经网络训练变得可能,这项研究把神经网络又推回到大家视线中。之后深度神经网络开始在各种识别、预测及分类问题中取得优异的成绩,成为目前最受关注的机器学习算法。期间谷歌于2013年推出word2vec工具[22]用于将文本语料转化为词向量,在此基础上国内开始出现利用深度学习算法对微博进行情感分析的研究[23]。而Kim[24]基于卷积神经网络(CNN)的情感分析研究进一步提高了准确率,但其模型对于中文的分析常出现因为不能充分表达复杂微妙的深层语境而無法抽取特征的困境。针对此国内近来的中文情感分析研究愈发强调word2vec工具的重要性,即通过计算语义相似度、建立情感词典、多特征聚类融合等word2vec功能预处理文本语料数据,从而有效提高深度学习算法的性能[25][26]。本文将采用目前最主流的机器学习算法和工具处理学生对教师教学的评价短文情感分类问题。

    2 情感分析方法的具体实施

    受输入数据的格式规范所限,传统机器学习情感分析算法在面对未经处理的大量文本语料例如互联网评论时,往往很难发掘深层的语义信息,对发言者情感倾向分类的准确率较低。深度学习属于机器学习领域近来最为热门的研究方向,其在解决众多实际问题中的性能表现使得人们相信机器学习或者说人工智能的未来在于此。

    深度学习通过构建多层神经网络对数据进行分析以有效提取相关特征,是目前比较主流的用于解决情感分析问题的方法。本文侧重于使用卷积神经网络(下称CNN)建立学习模型,解决在网络中学生对教师教学评论语料的情感分类问题,下面给出基本方法及实验流程。

    2.1 输入数据处理与模型训练

    输入到CNN中的数据呈二维矩阵形式,故需将学生评论语料进行预处理。本文主要使用的工具为上文提及的word2vec,它亦是目前主流的文本预处理工具。因为语言文字本身的数据特性,需要word2vec将每个词转化为词特征向量,并将每一句中的所有词的词向量组成二维矩阵,作为CNN模型的输入。假设一个句子中每个词对应的向量长度都为k,一段评论短文中句子最多包含n个词,则输入矩阵维度为k×n。注意长度不够的句子需补充k维0向量,直至矩阵满足CNN模型处理的要求。图1反映了使用工具将文本句子转化为数字矩阵的过程。

    为了解决训练时存在过度拟合的问题,提高训练后模型的泛化能力,本文一方面通过在损失函数中增加L2正则化项进行参数约束,另一方面在全连接层还使用了dropouts策略。dropouts是一种抑制过度拟合的技巧,通过随机将一些激活值设置为0从而相对减少过拟合。dropouts层位于softmax输出层之前的隐藏单元,限于篇幅,这里不再详述。

    2.2 实验流程设计

    本文的实验流程设计如图2所示。总体上可分为训练部分与测试部分,二者均需通过由文本预处理至CNN模型处理的诸多环节。其中文本预处理环节主要使用word2vec转化词向量,形成词向量矩阵提供给基于CNN的情感分类器进行训练。训练数据的处理及模型的构建将在本节介绍,而测试数据部分在下一节。

    训练集基于第六届中文倾向性分析评测(COAE2014)语料库,它由中国中文信息学会信息检索专业委员会向高校、科研机构及社会征集而来,目的是建立并完善中文倾向性分析研究的基础数据集和评测标准。COAE2014的数据任务5情感极性判断所提供的语料涵盖关于科技、食品、安全等领域,其中已人工标注好5000条数据可用于情感分类器的训练和交叉验证。使用该语料库可以保证获得足够的且便于验证的网络短文本,省却了人工对词语进行的情感极性标注。

    文本预处理的第一步是要对语料进行及去停用词处理,一般来说即对对语料集中的杂乱的标签和特殊符号等无意义信息进行去噪处理,使用到flashtext方法。然后进行分词与词性标注,使用到thulac方法。表1举例说明了上述各步骤中间结果。

    预处理后我们得到了分好的词语以及标注好的词性,接下来需将词语训练转化为词向量,使用的工具为word2vec。word2vec有一系列的训练参数且具有特定含义,可以比较好地对评价评论类语料分词进行转化。转化后的向量集合作为CNN模型的输入数据。

    我们使用TensorFlow1.4构建CNN模型,TensorFlow是目前主流的开源机器学习框架[27]。针对本文所要解决的问题类型,在CNN中考虑文本的上下文信息,若卷积窗口的大小设置为m,文本长度为n,则特征图的长度自然为n+1-m。这里将窗口的大小设置为5,考虑到计算的时间长短以及准确性高低,过滤器数量经过对比设置为100,根据数据估摸本文将batch设置为50,dropouts设置为0.1,迭代次数足够即可我们设置为10。创建权重和偏置,定义可重复使用的初始化函数。截断的正态分布噪声设置为0.1,标准差设为0.1。为了使用线性整流函數(ReLU)激活,给偏置增加小正值以规避死亡节点。图3与图4反映了在TensorFlow1.4框架下载入数据集与初始化的情形。

    紧接着对两个卷积层进行创建,使用写好的函数进行对偏置和权值参数分别初始化。对经过两次池化操作的矩阵进行变形,然后连接到一个全连接层。为了减轻过拟合,下面使用一个dropouts层。在训练时,我们随机丢弃一部分节点的数据来减轻过拟合。最后我们将dropouts层的输出连接一个softmax层,得到最终概率输出。

    在CNN模型创建好后开始训练过程:首先初始化所有参数,设置训练时dropouts的keep_prob比率为0.5;然后使用大小为50的mini-batch,共进行10次训练迭代;为了实时监测模型的性能,keep_prob设为1用以对准确率定期进行一次评测。图6展示了上述训练过程的设置。

    3 在教学评价系统上的测试结果

    本文的测试数据采集自作者所在单位面向学生的教学评价软件系统,该软件系统运行于校园网内,学生可在任何地点登录网页进行评论。测试集由本院2016-2017学年度四个年级、三个专业的共约1000名学生对30位老师课堂教学的评价语料组成。在此测试集上,除了使用工具进行必要的文本预处理及词向量转化外,我们还进行了最优向量维度的选择实验。

    向量维度对于模型复杂度的影响效果是显著的,向量维度在增加的时候,整个模型的复杂度会成倍增加,本文将对比50维度,100维度,150维度,200维度几种不同维度的二维词向量矩阵,采用十折交叉法得到,即将样本分成10等份并分别进行两组实验,最终结果取10次实验结果的平均值。

    如图7所示,根据训练词向量在50维度,100维度、150维度和200维度的准确率比较,认为维度最优值是100。在此基础上,我们对30位教师约40门专业课程进行了学生评价短文的情感倾向分析。我们将结果展现到每位相关教师的个人页面,根据单个情感倾向分类结果统计为整体学生情感倾向。为了给教师比较好的观感,该结论将间接地以词云图颜色表示。例如较为正面的显示为红色,颜色越深说明学生的评价越高;随着颜色变淡直至灰色,说明总体评价不高。图8为直接在TensorFlow1.4框架下对应一位教师一门课程生成的词云图,可以看出该教师在这门课程中得到了偏向正面的评价。同时词云图中各个词的词频也易于观察,教师可从中得到学生对其教学活动的直接反馈信息。

    在测试集上,为了验证本文情感分析方法的性能,我们使用标准的情感分类评级方法标注了每条数据(评价短文)的极性。同时也辅以学生最终的评教分数作为验证(按大于95分:优,85至95:良,75至85:一般,小于75其他计,并认为优与良是正面评价,其余则相反)。随后我们做了与其他模型的对比实验。在词向量的维数默认为100的前提下,本文选择了如下这些模型或方法:

    l SVM(支持向量机):选取PLSA作为情感特征,使用TF-IDF计算特征值,并利用libSVM工具进行分类工作;

    l SVM+词性:增加词性特征,去掉部分无用的虚词;

    l RNN(循环神经网络):除了使用简单RNN模型训练分类器,其余与本文相同;

    l RNN+词性:增加词性特征,去掉部分无用的虚词;

    l LSTM(长短时记忆单元):除了利用含LSTM单元的RNN训练分类器,其余与本文相同;

    l LSTM+词性:增加词性特征,去掉部分无用的虚词;

    l CNN+Rand:在文本预处理后,使用随机初始化方法构造词向量,输入至CNN模型进行训练;

    l CNN+Rand+词性:随机初始化构造词向量,并去掉无意义虚词,输入模型中进行训练;

    l CNN+word2vec+词性:本文方法。

    表2是上述模型或方法在本文测试数据集上的性能表现,即对教学评价系统上的学生评价语料的分类预测性能。

    在表2中,根据COAE官方建议,评价指标选择了如下三个:

    l 准确率(precision):表征模型对样本分类的正确的比率,该指标越接近1越好;

    l 召回率(recall):表征模型对样本的识别程度,该指标越接近1越好;

    l F值(F-measure):是准备率与召回率的综合,该值越高说明模型性能越好。

    在表中可以直接看出本文方法在三个指标中均取得最优,说明此方法相对其余方法更适合处理互联网短文情感倾向分类工作。通过比较几组含词性与不含词性方法间的性能发现,考虑词性特征,即去除那些对文本情感影响不明显的虚词提升了分类准确率,说明语料中广泛存在的虚词对网络短文本的情感倾向性影响不大甚至有副作用,建议在后续的教学管理系统中直接增加剔除虚词的业务。

    比较传统的SVM模型与深度学习模型可以看到,CNN及简单RNN和LSTM的准确率相较于传统分类预测方法有显著提升,其主要原因是深度学习算法可以通過神经元层数的增加拥有更强的学习能力,尤其在特征提取上这相较于传统学习算法具有更大的算力优势。这说明本文选择的情感分析工具和方法是有效的。

    4 结论

    通过为传统的教学评价环节引入基于深度学习的情感分析方法,提供给教学评价工作者新的分析工具与管理思路。同时,情感分析的结果也有助于教师更全面地更直观地了解来自其教学活动受众的反馈信息。我们认为学生的评教反馈信息不应仅是以往冷冰冰的评教打分,还可以以数据处理及融合的方式直接展现给教师,这将有助于在“教”和“学”之间建立起互通的渠道,从而进一步提高教学活动的质量。

    参考文献:

    [1] 魏红. 我国高校教师教学评价发展的回顾与展望[J]. 教师教育研究, 2001, 13(3):68-72.

    [2] 蔡敏, 张丽. 大学生参与教师教学评价的调查研究[J]. 高等教育研究, 2005(3):69-73.

    [3] 蓝江桥. 中美两国大学课程教学质量评价的比较与思考[J]. 高等教育研究, 2003(2):39-42.

    [4] 张虎生, 李联明, 王运来. 美国斯坦福大学的本科教学与启示[J]. 江苏高教, 2004(5):115-117.

    [5] 吴艳, 陈永明. 大学课堂教学的现状分析及思考——基于全国十所高校的实证调查[J]. 高教探索, 2015(11):88-93.

    [6] 俞佳君. 以学习为中心:高校教学评价的新范式[J]. 高教探索, 2016(11):11-15.

    [7] 周湘林. 以学生学习为核心的高校教师教学评价方法创新研究[J]. 现代大学教育, 2017(1):93-97.

    [8] 骆兰, 薛艳, 唐国强. 论高校课堂教学质量评估指标体系的构建[J]. 高教探索, 2006(6):55-56.

    [9] 刘丽娜, 杜艳秋, 罗玉萍. 大学教师教学评价:发展逻辑、体系构成及多元协同[J]. 江苏高教, 2018(1):44-48.

    [10] 郭丽君. 教育生态视阈下的高校教学评价问题研究[J]. 湖南农业大学学报:社会科学版,2017, 18(4):91-94.

    [11] 王朋. 学生·教师·学习:美国大学教学评价的路径演变——基于约翰·比格斯的3P教学模型[J]. 高教探索, 2017(10):52-57.

    [12] Tran N D. Reconceptualisation of Approaches to Teaching Evaluation in Higher Education[J]. Issues in Educational Research, 2015, 25(1):50-61.

    [13] Carrell S E & West J E. Does Professor Quality Matter? Evidence from Random Assignment of Students to Professors[J]. Journal of Political Economy, 2010, 118(3):409-432.

    [14] McNatt D B. Negative Reputation and Biased Student Evaluations of Teaching: Longitudinal Results from a Naturally Occurring Experiment[J]. The Academy of Management Learning and Education, 2010, 9(2):225-242.

    [15] Pang T B, Pang B, Lee L. Thumbs up? Sentiment Classification Using Machine Learning[J]. Empirical Methods in Natural Language Processing, 2002:79-86.

    [16] Zhang Z, Ye Q, Li Y, Law R. Sentiment Classification of Online Cantonese Reviews by Supervised Machine Learning Approaches[J]. International Journal of Web Engineering & Technology, 2009, 5(4):382-397.

    [17] Turney P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. Proceedings of Annual Meeting of the Association for Computational Linguistics, 2002:417-424.

    [18] Singh P V, Sahoo N, Mukhopadhyay T. Seeking Variety: A Dynamic Model of Employee Blog Reading Behavior[J]. Ssrn Electronic Journal, 2010, 1617405.

    [19] 趙妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21(8):1834-1848.

    [20] 孙艳, 周学广, 付伟. 基于主题情感混合模型的无监督文本情感分析[J]. 北京大学学报(自然科学版), 2013, 49(1):102-108.

    [21] Hinton G E,Salakhutdinov R R. Reducing The Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504-507.

    [22] Mikolov T. Word2vec Project[EB/OL]. [2014]. https://code.google.com/p/word2vec/.

    [23] 梁军. 基于深度学习的微博情感分析[J]. 中文信息学报, 2014, 28(5):155-161.

    [24] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.

    [25] 陈昀. 基于多特征融合的中文评论情感分类算法[J]. 河北大学学报(自然科学版), 2015, 35(6):651-656.

    [26] 黄仁, 张卫. 基于word2vec的互联网商品评论情感倾向研究[J]. 计算机科学, 2016, 43(s1):387-389.

    [27] Abadi M, et al. TensorFlow: Large-scale machine learning on heterogeneous systems[EB/OL]. [2015]. https://tensorflow.org.

    【通联编辑:王力】

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/6 4:12:36