网站首页  词典首页

请输入您要查询的论文:

 

标题 网上评卷评分误差源起及控制路径选择
范文

    杨帆 邓欣

    摘要:网上评卷是当前技术环境下教育考试领域的主流评卷方式,是教育考试评分过程中的关键抓手。本文对网上评卷误差来源进行了审视分析,发现标准答案和评分细则制定的科学性程度、评卷教师的专业素质以及评卷过程的组织管理因素是评分误差的三个重要来源。结合工作实践并通过调研交流等方法归纳出了降低网上评卷误差的有效策略,為准确高效地开展网上评卷工作、实现考试公平公正提供条件保障。

    关键词:网上评卷? 误差来源? 误差控制

    一、网上评卷误差控制研究背景

    随着网络技术的高速发展和图像扫描裁切技术的飞跃式进步,教育考试领域开始广泛采用网上评卷模式。其中,客观题一般直接利用OMR[1](光标阅读机)识别技术由计算机对应涂点信息进行批改判分;作答在答题卡上的主观题答题经图像信息采集、切分、校验等过程处理后转化成为电子图像,通过网络随机分给评卷教师进行在线判分,评卷工作全部结束后,在数据库内对分数进行合并计算,得出考生最终考试成绩。

    作为新兴评卷方式并迅速得到推广应用进而取得主导地位,网上评卷具有诸多显著优势:第一,有利于信息的安全保密。网上评卷减少了答题卡流转环节,评阅对象为任务题目的作答图像,剪除了其干预非任务题目的可能。且作答图像自动屏蔽考生信息,判分完成自动提交,避免了暗箱操作造成的公允偏失,增强了流程控制的安全性。第二,有利于提高评卷效率,缩短工作周期。网上评卷省略了答题卡翻阅、签名、退卷等步骤,评卷教师只需在计算机上登录评分系统,利用键盘进行打分、切换等操作,方便快捷高效。计算机自动完成分数记录、加总、复核等环节,避免了人工统分的低效失误。第三,有利于提高评阅质量,降低评分误差。每位评卷教师的判分过程和结论不受他人影响和干扰,完全独立开展;同时通过质量内控措施及多渠道质检等手段,可以关注每个个体工作开展情况,及时纠正偏差。第四,考生答题卡原始图像信息和评卷数据易存储、易统计、易分析,一方面有利于教育考试部门利用数据挖掘技术更有针对性地优化试卷内容,另一方面有利于根据评卷过程表现,逐步筛选创建专业化高素质的评卷教师数据库。

    虽然网上评卷已然成为教育考试实施过程中的重要抓手之一,但并不意味着新旧评卷模式转换后评卷误差问题得到了根本性的解决。厘清影响评卷误差的主、客观因素,探索能够降低乃至解决评卷误差的有效措施,是本文研究的重点问题。

    二、网上评卷误差源起审视

    标准化考试题型一般包括客观题和主观题两种,本文所说评卷误差主要是指主观题评阅中出现的误差,即评卷教师判断下的考生得分和能反映考生真实水平的分数之间的差异。评卷误差控制是根据考试的性质、目的和要求,通过各种途径纠正命题、考试过程和评分过程中出现的误差[2]。评分误差的影响因素主要有以下几种。

    1.标准答案与评分细则的局限性

    评卷专家组根据试题特点、标准答案制定可参考性、可操作性强、便于推广应用的评分细则,评卷教师以评分细则为参考和指南对主观题进行评分。因此,标准答案以及评分细则能否完整真实地反映出试题考察的目的指向,并且通过评卷过程准确地在考生得分上体现出来,是传统评卷方式和网上评卷方式共同面临并亟待解决的问题。

    标准答案与评分细则的科学性程度带来的误差在以下两种情形中表现较为明显:一是二者具有高度概括性和抽象性。主要见于作文题等题型,考生的答案多样性明显,评卷教师对评分标准又难以把握,自由裁量空间大,主观偏好作用强,难以自始至终把握同一评分尺度。二是二者描述过度详尽,要点设置过多。主要见于主观性较高的分析题等题型,此类题目得分点多,总分值高,计分方式复杂,考生的答案冗长并且要点不明显,评卷教师难以顺利找出所有得分点并统筹衡量评分,由此带来评分误差。

    2.评卷教师业务能力的差异性

    评卷教师专业素质是否过硬、教育培训水平的高低以及认知风格决定了对评分细则的把握程度以及运用的持续一致性,是影响评卷误差的关键。评卷教师必须熟悉评卷科目涉及的专业知识,具备过硬的专业能力,才能够正确把握试题的命题意图、考察的知识方向,从而科学灵活地评价考生答案,合理判断并准确赋分,避免严苛呆板的机械给分。

    3.评卷过程中心理因素的诱导性

    评卷教师基于“理性人”假设的前提被选拔参与评卷工作,然而他们除了具有相同的知识背景、文化传统等共性要件,还具有不同的成长经历、欣赏习惯、心态情绪等个性因素。不同评卷教师甚至同一评卷教师在不同阶段,都可能因个人原因导致评分差异,其中,个性因素导致的评卷教师的心理差异是导致评分误差产生的最主要诱因。

    (1)排位效应(ranking effect)

    在评卷过程中,即使是同一位评卷教师评阅同一份答卷,在不同的评阅时间段,也会出现分数上的细微差别,这种差别和试卷呈现的位次有关,我们称之为“排位效应”。排位效应是大脑因信息接收顺序不同而影响认知的一种表现。一般来说,评卷教师评分行为往往存在先评较松,后评较严的趋势,我们称之为“首因效应”。如果一位教师在连续评阅多份质量较低的答卷之后,系统分配给予一份要点较为完整的答卷,那么该份答卷评分可能偏高。反之评分可能偏低,我们称之为“近因效应”。

    (2)再认识效应(rerecognition effect)

    从整体来看,每位评卷教师的心理素质、业务能力是相对稳定的,但并不是一成不变的,人们对于事物或过程的正确认识,往往需要经过多次的再认识过程才能确立。在评卷过程中,随着评阅试卷数量的增多,不同考生的回答内容、方式会反作用于评卷教师的思维,其对于评分细则的理解将连续不断的深化和更新,我们称之为“再认识效应”。这种过程性理解的进阶差异,会对评分的一致性带来一定程度的影响。

    (3)晕轮效应(halo effect)

    晕轮效应又称光环效应,是指评卷教师对考生作答形式或内容的某一方面特征形成好的印象后,扩大到对考生作答整体的评分中去,以偏概全地打出分数。字迹干净整洁、字体规范美观的作答往往能够取得良好的评分印象,此类试卷最终判分结果往往高于单纯依据作答内容给予的评分,这是评卷中典型的晕轮效应。

    (4)疲劳效应(fatigue effect)

    評分教师在长时间高强度的评分工作后,情绪和动机都会减弱,感到身体疲劳、精力不足,评分责任心、使命感有所下降,绩效水平降低,导致评分一致性变差,评分准确性降低。

    (5)趋中性倾向(neutral tendencies)

    有研究表明,随着评卷工作的进行,同一位评卷教师评卷速度、出分率等会提高,但是会出现趋中评分倾向[3]。趋中评分倾向指评卷教师在评卷过程中分数整体集中在中间分数段上下小幅度波动。趋中评分这种带有“平均主义”色彩的评分策略有利于评卷教师规避评分不一致的风险和争议,顺利通过评分一致性检验,但是将直接导致评价效度降低,影响考生真实水平的呈现,带来评分误差。

    (6)极端性倾向(extreme tendencies)

    对于部分评卷教师,一旦接收到存在趋中评分倾向的监控反馈后,可能会出现矫枉过正的现象,即弱化评分标准的一致性,评出一定量的高分或者低分改善趋中评分趋势。此外,在作文等主观性较强题目的评阅中,评卷教师会受个人情感体验、文化认知、生活经历等因素的影响,对考生作答内容产生情绪共鸣或抵触,从而打出过高或过低的分数。

    (7)异化的目标追求(the pursuit of alienation)

    网上评卷系统可以提供实时单题评阅进程分析数据,通过对比评卷教师单体打分结果和整体判分分布、平均分、标准差等数据,来监控评卷教师之间的评分一致性,确保评卷质量。当个体判分游离于预设准允偏差值上限之外,电脑会自动发出警报信息,提醒质检组对该教师的打分进行检查。这种评分一致性实时监控促使评卷教师的关注点下意识地从最重要的目标“真分数”转移到了“评分一致性”上面来,从而产生了“快且一致”的不合理目标追求,明显偏离了评卷工作的初衷。

    4.评卷流程组织管理的专业性

    有学者认为,评卷教师自身或评卷环境的问题所带来的影响是有限且可控的;但是如果计算机系统或者管理上出了问题,网上评卷所带来的保障就失去了应有的作用[4]。评卷工作往往时间紧、任务重、责任大,这对评卷教师个人的能力素质提出了高要求的同时,管理人员和管理模式的专业性水平也面临着极大的挑战。不舒适的评卷环境、不合理的组织规程、不科学的工作模式、不完备的督查措施、不顺畅的交流沟通等必然带来评卷教师的不适感受,从而降低评卷质量,加大评卷误差。

    三、网上评卷误差控制措施

    为提高评卷质量,保证考试信度,必须以评分误差控制为核心标的,建立科学有效的防控管理体系,通过有效的流程控制和过程管理,使评分结果能够准确反映出学生的真实水平,发挥出考试在选拔和评价中的甄别作用。

    1.科学制定标准答案与评分细则

    科学合理的标准答案和评分细则是评卷教师在评卷过程中最重要的参考,是实现评卷公平公正的先决条件。标准答案应尽可能多地涉及回答角度,清晰详细地罗列答案的基本结构框架、重点内容,方便评卷教师了解题目考察意图并初步判断试题的难易程度,并制定评分细则。评分细则要根据题目类型细化评分量表,给出每道题目的满分、得分、扣分规则等。一般来说主观题评分细则类型可以分为三类:分级评分、分步评分和要点评分。分级评分适用于主观性强、开放性大的题目;分步评分适用于答题步骤明确的题目;要点评分适用于主观性较强、半开放式的题目。

    2.建设高素质评卷教师队伍

    评卷教师必须具备较高的专业素养,这是保证阅卷信度和效度的前提。一般在教育考试中,评卷教师的选聘应当遵循“从相关专业正式教师中选聘”的原则,应符合“有规定年限教学经验并满足职称等级要求;具备所评科目的专业知识;责任心强、作风正派、遵守工作纪律、身体健康;无直系亲属参加考试;熟悉计算机操作技能”等条件。

    严格的选聘控制能够初步淘汰不适合网上评卷的教师,但并不等同于选拔出的人员都能够优秀地完成工作任务。部分评卷教师对网上评卷工作不够熟悉,应对困难和挑战的准备不足,单凭个人理解掌握评分要求不准确,仍然不能满足评卷工作需要,因此遴选结束后必须做好配套培训工作。

    3.合理设置评分方法

    (1)明确多评控制标准

    多评机制是控制评分误差的有效方法。双评由两位评卷教师进行独立评分,所评分数之差为双评差值,其允许存在的极限差为双评差值阈限。当双评差值小于阈限时,评卷系统以两位评卷老师的平均值作为最终得分。当双评差值大于双评差值阈限时,该答案分发给第三位评卷教师进行三评。

    《国家教育考试网上评卷统计测量暂行规范》规定:“评分过程中,双评差值阈限一般不能大于题目满分的1/6。”一般情况下将题目满分的1/6~1/5作为实操过程中的最大允许上限。但是仅有差值阈限最大值的限制性不足以满足评卷误差控制的操作需要。评卷专家组对不同考试题目的理解和误差包容度不同,差值阈限的设置尺度并不统一。双评差值阈限应尽可能详细地提供差值阈限设置采用的计算方式方法,而不是仅仅提供上限值。研究显示,在相同信度水平的条件下,测验分数分布(尤其是标准差)决定着差值阈限的大小,评分差值阈限的基线值应为1.24倍的标准差[5]。

    (2)合理设置单题时限

    使用技术手段在网上阅卷系统内设置主观题最低浏览时间,能够有效防止评卷教师追求高速草率打分的现象发生。在实际操作过程中,要注意时限长短要与单题分值、要点数量、评分的难易程度等正向匹配。对于客观性较强、考生发挥空间较小的主观题或者无作答内容的试卷,为提高阅卷效率,避免不必要的时间浪费,可以不进行时间限制。

    (3)重视试评的积极作用

    在正式评卷前,试评是必不可少的前期准备工作。学科组专家根据不同题目类型、回答水平等挑选出一份或者几份答卷进行集体讨论、合理打分,之后将这些答卷自动分配到评卷教师计算机终端,评卷教师在不可视专家组打分情况下根据已掌握的题目要求、评分细则进行打分。随后,組织评卷教师对比分析两组结论,对专家组打分要点、评分思路进行细致研究和反复揣摩,体会不同分数等级的差异所在。通过试评,可以有效帮助评卷教师熟悉题目特点、考察方向、评分细则和操作系统,并检验个人对评分细则的理解掌握程度,从而调整给分策略使之更加贴近评分要求。

    4.构建质量检验评价体系

    为保证评卷质量,应综合运用多种评测手段,建立多维度质量检验评价体系,实现对所有评卷教师的工作开展情况的追踪和检查,一旦发现异常,可提醒评卷教师及时修正,确保评卷工作高质高效进行。组成评卷质量检验评价体系常用的技术手段有评分结果分布曲线检验、评卷质量抽查、评分一致性检验、异常得分率检查等。

    (1)评分结果分布曲线检验

    正常情况下,评分结果分布曲线应该呈现正态分布趋势,通过评卷系统内置检验模块调取个人和小组评分结果分布曲线并过滤出异常曲线,可以直观对比检查个人间和个人与小组间的差异,从而实现评卷质量异常检查。

    (2)评卷质量抽查

    质检组和学科组组长可以对已评试卷进行随机抽样,对评卷教师打分的恰当性进行人工检查,对不符合评分细则和尺度的试卷采取返回重评处理,从而实现对部分偏离规则的评分予以纠正。

    (3)评分一致性检验

    单评或多评机制均适用于评分一致性检验。对于分值较低的题,可将已评阅的试卷再次发还本人,通过检查两次评分结果的差异是否在规定范围内,来判断其评分质量和稳定性。对于分值较高的题,可随机分发给两位不同的评卷教师进行评阅,如果评分差距在误差控制阈值内,则评分具有一致性,分数取两者平均分;如果超出阈值,则发给第三位教师进行评分,直到评分具有一致性。

    (4)异常得分率检查

    虽然一份试题不同题目考察的知识点和方式不尽相同,但每位考生的水平是相对稳定的,主客观题目得分率应具有一致性。通过对比相关题目的得分率,可以定位得分率存在较大波动的考生并进行重点检查,从而保证考生成绩的真实性和有效性。

    5.强化评分过程反馈交流

    在线实时监控模块可以及时发现异常纠正偏差,但其效用应不止于此,异常反馈的过程不仅起到纠错纠偏的作用,更能促进工作的交流互动,帮助个体人员以更宏观的视角来把握个人工作开展情况,突破自我局限。如果能够按照评分阶段将平均分、平均评卷速度、标准差等数据适时地反馈给评卷教师,使其能够了解自己以及整体的评分情况,从而及时调整评分策略,就能实现评分细则执行和评卷速度掌握的双优化、双促进,达到减少评分误差的最终目的。

    6.完善网上评卷组织体系

    网上评卷工作组织体系包含了组织结构、工作模式、质量管理等多环节的布局设置,是评卷自身实施和发展的诉求。在组织结构上,可采用网络型组织结构,并注重塔式角色分工。成立网上评卷工作领导小组作为管理机构,负责评卷工作的全面组织领导;下设评卷工作办公室和评卷专家委员会,实行集体领导与分工负责管理模式,分别负责具体事项的组织协调和试卷评阅工作。在工作模式上,根据涉及学科划分为多个学科组。学科组实行组长负责制,任命有学术权威、有组织能力、业内认可的老师为学科组长,具体负责本学科的试评、评卷以及与之相关的题组之间人员调配、总体进度控制、各项质检参数设置等工作。在质量管理上,可单独设置质检组,负责对评卷教师的工作质量进行检查并对异常卷进行处理。

    7.严格网上评卷管理制度

    合理的管理制度可以简化管理过程,提高管理效率。在其适用范围内具有权威性和相对稳定性,通过强制约束力作用的发挥可以保证工作的有序和高效运转。

    (1)日报告制度

    每日定时工作例会汇报当天阅卷情况,及时妥善的处理遇到的困难和问题,以确保后续工作不影响、不间断、不停滞。

    (2)安全保密制度

    充分利用人脸识别等现代化技术手段,确保将无关人员隔离在专用场地之外;明确工作纪律,确保评卷信息数据安全。

    (3)奖惩制度

    制定明确的奖惩规则,正面激励的同时对违反要求的行为予以约束,避免其病态膨胀和失控。

    (4)评价和总结制度

    评卷工作结束后,各学科组要提交专业化的评卷报告,对命题等前置性环节提出合理建议。同时,还要总结考评方向,将评卷和教学研究、教学实际相结合,真正发挥评卷工作的积极作用。

    参考文献

    [1] 高晓波,姜涛.基于边缘检测的OMR图像倾斜矫正[J].长春理工大学学报:自然科学版,2011,34(01).

    [2] 范鹏,张景华.大规模标准化考试网上评卷中的误差控制研究[J].中国轻工教育,2012(01).

    [3] 高丙成,秦旭芳.成人高考网上评卷的评分者差异研究[J]. 乌鲁木齐职业大学学报,2007(01).

    [4] 王文成.“人—机对抗”视域下主观题评分误差控制策略探究[J].中国考试,2013(09).

    [5] 赵世明.主观题无纸化评分中的误差控制[J].河南大学学报:社会科学版,2007(01).

    【责任编辑? ?郑雪凌】

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/16 8:06:08