基于概率图模型的主观题同行互评系统的开发与实践*

    许嘉 李秋云 刘静 吕品

    

    

    

    摘 要:为了提高在线教育的教学效率和教学效果,文章开发了基于概率图模型的主观题同行互评系统。该系统提供面向主观题的同行互评功能,让学生参与到主观题作业的评价中来。基于概率图模型对学生的评分偏见性和评分可靠性进行建模,保障了基于学生给出的评价分数估计主观题作业真实分数的准确性。在多个本科教学班的教学实践中应用了该系统。教学实践结果表明该系统在有效减轻教师的主观题作业批改负担的同时,提升了学生的课程参与度并促进学生间的互助学习。

    关键词:概率图模型;主观题;同行互评系统;教学实践

    中图分类号:TP393? ? ?文献标志码:A 文章编号:1673-8454(2021)10-0087-05

    一、引言

    随着大数据、云计算和互联网技术的发展,以Coursera、edX、中国大学MOOC 和学堂在线为代表的国内外在线教育平台成为当下智能教育研究领域的关注热点。在线教育平台的兴起有助于学生访问到优质的教学资源,从而提升教育的公平性,然而也给平台上的任课教师带来了严峻的教学挑战。其中最突出的教学挑战在于如何高效批改大规模选课学生在平台上提交的作业。批改作业的方式大致可分为教师批改、机器自动批改、同行互评三种。教师批改是传统教育中惯用的作业评估方式,可靠性较高。然而,一个热门的线上课程的选课人数可高达几千甚至上万,因此大规模线上课程显然不适于采用教师批改的方式评估学生作业。机器自动批改的方式对拥有固定答案的客观题(例如选择题和判断题)非常友好,大大减轻了教师批改作业的负担。相对于客观题,主观题更能考察学生的语言表达能力、知识运用能力与创新思维能力,[1]然而由于没有固定答案,主观题的批改很难由计算机自动完成,[2]极大加重了任课教师的作业批改负担,使他们无法将精力用于课程内容的改进和提高。可见,如何有效进行大规模主观题作业的批改是当前教育研究领域亟待解决的重要问题。

    同行互评是在线教育领域用以解决大规模主观题作业批改问题的重要途径。同行互评是指学生依照教师制定的得分指导对其他学生的作业进行评价,具有诸多益处:一方面减轻了任课教师主观题作业的批改负担;另一方面学生通过评判他人的主观题作业可以学习到不同的解题思路,还能提高学生的课程参与度。[3][4]虽然不少主流在线教育平台已提供主观题作业的同行互评功能(例如Coursera和中国大学慕课),然而这些平台只是简单基于一份作业对应的所有学生评分的中位数或平均分来估计这份作业的真实分数。考虑到参与评价的学生拥有不同的评分偏见和评分可靠性,[5]简单基于平均分或中位数来估计作业的真实分数显然不够准确。[6]近年来,研究人员将同行评价者的评分可靠性及评分偏见作为模型变量,构建了支持同行互评的概率图模型,能够基于多个学生的评价分数更准确地估计主观题作业的真实分数。[7-10]鉴于此,本文基于目前最好的概率图模型PG7[10]开发了主观题同行互评系统。该系统的教师端支持布置主观题作业、设置主观题作业得分指導、设置互评前的学生评价训练、查看学生互评反馈等功能。该系统的学生端则提供主观题作业提交、评价训练、学生互评打分、学生针对其他学生给出的评价分数进行反馈的功能。此外,系统还提供互评作业自动分配以及基于概率图模型PG7的作业真实分数估计等重要功能。基于多个本科教学班参与的课堂教学实践表明该系统有效减轻了教师作业批改负担,激发了学生的课程参与度,取得了良好的教学实践效果。

    二、主观题同行互评技术应用现状

    近年来,国内外提出了不少主观题评判技术。例如,国内主流的MOOC平台“中国大学MOOC”实现了主观题作业的布置与互评功能。国外的大规模开放在线课程平台Coursera和edX也均支持主观题作业的同行互评。以上平台均以一份作业得到的多个互评分数的中位数来估计该作业的真实分数,进而设定为该作业的最终得分。为了进一步提高对主观题作业真实分数的估计准确性,Alfaro等人[11]提出一个协同评阅和打分系统,命名为CrowdGrader。与中国大学MOOC不同,CrowdGrader系统在学生完成互评之后要求学生对同行评价者针对其作业给出的评分和评语做出评价反馈,以表明同行评价者给出的评分是否合理、评语是否有帮助。除了考虑某学生提交的作业所得到的同行评分,CrowdGrader系统还将综合考虑该生在同行评价中表现出的评分准确性和反馈帮助性来确定该生所提交作业的最终分数。

    然而,以上主观题互评平台或技术均未考虑学生在互评过程中的偏见和可靠性,使它们所给出的作业最终分数往往不够准确。鉴于此,本文基于目前最好的同行互评概率图模型——PG7[10]设计与实现了主观题同行互评系统,通过对学生的评分偏见和评分可靠性建模,以期更准确地估计主观题作业的真实分数,有效推进同行互评技术于在线教育中的应用。

    三、基于概率图模型的主观题同行互评系统的设计与实现

    1.系统关键技术与开发环境

    (1)概率图模型PG7[10]

    PG7是近年来最有效的同行互评应用背景下的概率图模型,该模型对同行评价者的评分偏见和评分可靠性建模,以学生的互评分数、互评相对分数(即同一个评价者针对不同作业给出的评分间的差值)为输入,推断模型中各个潜在变量(即评价者偏见、评价者可靠性和每份作业的真实分数)的后验分布,进而采用Gibbs采样技术[12]估计每份作业的真实分数。本文基于概率图模型PG7提出了主观题同行互评系统,以期保障基于同行评价分数估计作业真实分数的准确性。

    (2)Spring Boot框架

    开源的Spring Boot框架简化了Spring项目的初始搭建环境以及开发过程,具有很多优势。本文采用Spring Boot框架配置基于概率图模型的主观题同行互评系统,简化配置过程,使jar文件的依赖管理、应用编译和应用部署更为简单,提高开发效率。

    (3)数据持久化工具

    在进行主观题同行互评系统的开发和应用时,需要对关系型数据库中的大量数据频繁进行增删改查的操作。关系—对象映射(ORM)的出现解决了关系数据和程序对象频繁转换的问题。[13]MyBatis是目前主流的 ORM 框架,本文采用MyBatis框架对JDBC的访问接口进行封装,在对数据库中的数据进行增删改查时通过简单的XML或注解来配置和映射原生信息,可以自定义 SQL语句、存储过程以及高级映射。通过此框架,开发过程中不再需要手动设置参数和获取结果集,提高了开发效率。

    (4)安全框架

    本文采用Apache Shiro安全框架实现了用户登录过程的身份认证、授权、加密和会话管理等等,以此保障主观题互评系统用户信息的安全。

    2.系统设计与实现

    (1)系统架构

    MVC(即Model View Controller)是一种软件架构模式,支持用一种业务逻辑、数据与界面显示分离的方法来组织代码,具有耦合性低、重用性高、部署快、生命周期成本低、可维护性高的优势。因此,本文采用MVC架构设计与构建基于概率图模型的主观题同行互评系统,该系统的架构如图1所示。系统中的主观题同行互评平台包括客户端和Web服务器两部分,该平台通过与数据库进行交互读取或写入相关信息。为了提高系统应对大量学生同时访问的并发处理能力,使用Redis对数据进行缓存处理。Redis是基于内存的数据库,具备访问速度快的优势,同时也支持数据持久化功能。

    (2)系统功能模块设计

    基于概率图模型的主观题同行互评系统支持管理员、教师、学生三种角色。不同角色对系统功能有不同的操作权限。图2展示了该系统的功能模块。管理員角色可操作的功能有用户管理、权限管理、日志管理;教师角色可操作的功能为布置作业、批改作业、修改成绩;学生角色可操作的功能是提交作业、作业互评、互评反馈。本文对不同角色的权限管理采用主流的Shiro安全框架实现。

    (3)数据库设计

    从基于概率图模型的主观题同行互评系统的功能需求出发可归纳出用户、角色、权限、课程、作业、主观题题目、答案、互评评价等数据库实体。这些实体对应于关系数据库中的不同数据表。以作业表和互评评价表为例,作业表涉及的数据库字段为作业ID、作业描述、作业名称、批改方式、互评开始结束时间、反馈开始时间和反馈结束时间,互评评价表拥有的数据库字段为评价ID、作业ID、评价者ID、被评价者ID、互评评分和评语。

    (4)系统开发环境

    本文提出的基于概率图模型的主观题同行互评系统的软件开发环境为:Spring Boot+MyBatis-Plus+Shiro,Windows 7操作系统,开发语言为Java,数据库管理系统是MySQL Server 8.0。系统的硬件开发环境为:Intel Xeon E7-4850 V2 2.30GHZ CPU、16GB内存、300GB硬盘。

    四、系统应用

    系统登录是用户访问系统的初始界面,用户必须通过系统身份验证才能进入系统主界面。在登录时,用户需要输入自己的用户名和密码,系统则会基于数据库中存储的用户数据判断用户输入的用户名和密码是否正确,从而确定登录操作的执行结果。若用户登录成功,系统会确定该用户的角色,并根据用户角色的系统功能访问权限呈现系统的主界面。下面以教师角色和学生角色为例介绍各自的系统应用功能。

    1.教师端

    布置作业:教师进入作业管理界面后点击新增按钮即可布置作业。作业管理界面如图3所示,教师需要填写作业名称、作业描述、选择包含主观题的试卷、设置作业提交开始与截止的时间,以及选择批改方式(互评或者教师批改)。若教师选择以互评的方式批改作业,则其还需设置作业互评的截止时间和反馈的截止时间。在作业提交截止日期之前,教师都可以根据需要修改以上作业的基本信息。

    设置得分指导与互评训练:教师在完成主观题作业的基本设置之后,可以在得分指导设置界面为该作业设置得分指导,用于指导学生完成互评。得分指导设置界面如图4所示,教师需要填写得分指导的内容、指定得分指导对应的分值、设置得分指导可评分数(即在该得分指导下,学生互评时可以选择的分数)。在完成得分指导设置后,教师还可以设置互评训练。互评训练的目的是让学生在参与正式互评之前熟悉互评流程,从而提高学生的互评质量。设置互评训练时教师需要设置示例答案和评语,学生在互评训练中则需要针对教师给出的示例答案和评语完成批改练习。

    查看成绩和互评信息:在互评活动结束后,教师可以在学生成绩查阅界面查看系统基于概率图模型PG7预测得到的每名学生作业的最终成绩和互评相关的数据信息。学生成绩查阅界面如图5所示,教师可以在该界面查看和调整学生作业的最终成绩,可以查看每个同行评价者针对该作业给出的评价分数和评语,还可以查看提交作业的学生针对同行评价者的评价给出的反馈。

    2.学生端

    主观题作业互评:对一份学生提交的主观题作业,系统以随机分配的方式将该作业分配给3个学生批改。由于每个提交作业的学生都需要参与作业互评,因此系统的作业分配机制最终保证一个学生被分配3份主观题作业进行批改。学生互评界面如图6所示,学生在该界面依照教师给出的得分指导对同行提交的主观题作业进行打分并给出评语。

    互评反馈:作业互评活动截止后,学生可以对同行评价者针对其提交的作业给出的评分和评语进行反馈,以表明同行评价者给出的评分是否合理、评语是否对自己有帮助。教师则可以在教师端依据学生的互评反馈信息调整学生作业的最终成绩。学生互评反馈界面如图7所示。

    五、基于概率图模型的主观题同行互评系统的教学实践

    本文提出的基于概率图模型的主观题同行互评系统在广西大学《数据库原理》课的多个本科教学班的教学实践中得到应用。涉及的本科教学班为5个,参与互评的学生为284人,布置的主观题作业数为3。基于该系统实施同行互评的3次主观题作业的相关统计数据如表1所示。

    教学实践表明,概率图模型PG7对主观题作业真实分数的预测准确性高,只有不到2%的学生在互评反馈环节中提出PG7基于同行评价者评分预测给出的作业最终成绩不合理,需要教师对该作业进行人工评判。同时,77%的学生表示同行评价者针对其作业给出的评语对其是有帮助的。可见,本文提出的基于概率图模型的主观题同行互评系统不但可以有效减轻任课教师对主观题作业的批改工作量,还能提升学生的课程参与度和促进学生间互助学习,最终有效提高了在线教育的教学效率和教学效果。

    六、总结与展望

    本文设计与实现了基于概率图模型的主观题同行互评系统。系统提供主观题作业布置、得分指导设置、互评训练设置、作业互评与互评反馈等重要互评功能。系统基于概率图模型对学生在作业互评活动中的评分偏见和评分可靠性进行建模,从而有效保障了基于学生给出的评价分数估计作业真实分数的准确性。由多个本科教学班参与的主观题作业互评教学实践表明该系统的互评功能完善,基于同行评价者提供的互评分数所预测的作业分数质量高,在减轻教师作业批改负担的同时提升了学生的课程参与度、促进了学生间的互助学习。

    参考文献:

    [1]Paré D E,Joordens S.Peering into large lectures:examining peer and expert mark agreement using peerScholar, an online peer assessment tool[J].Journal of Computer Assisted Learning,2008,24(6):526-540.

    [2]Caragiannis I,Krimpas G A, Voudouris A A.Aggregating partial rankings with applications to peer grading in massive online open courses[C].AAMAS,2015:675-683.

    [3]Kulkarni C E,Wei W P,Le H,et al.Peer and self assessment in massive online classes[J].ACM Transactions on Computer-Human Interaction,2013,20(6).

    [4]Gehringer E F.A survey of methods for improving review quality[C].ICWL Workshops,2014:92-97.

    [5]Alfaro L D,Shavlovsky M.Dynamics of peer grading: an empirical study[C]. EDM,2016:62-69.

    [6]Capuano N,Caballé S.Towards Adaptive peer assessment for MOOCs[C].3PGCIC, 2015:64-69.

    [7]Piech C,Huang J,Chen Z,et al.Tuned models of peer assessment in moocs[C].EDM,2013:153-160.

    [8]Mi F,Yeung D Y.Probabilistic graphical models for boosting cardinal and ordinal peer grading in moocs[C].AAAI,2015:454-460.

    [9]Chan H P,King I.Leveraging social connections to improve peer assessment in moocs[C].WWW,2017:341-349.

    [10]Wang T Q,Li Q,Gao J,et al.Improving peer assessment accuracy by incorporating relative peer grades[C].EDM,2019:450-455.

    [11]Alfaro L D,Shavlovsky M.Crowdgrader:a tool for crowdsourcing the evaluation of homework assignments[C].SIGCSE,2014:415-420.

    [12]Geman S,Geman D.Stochastic relaxation, gibbs distributions, and the bayesian restoration of images[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1984(6):721-741.

    [13]喬岚.基于Mybatis和Spring的JavaEE数据持久层的研究与应用[J].信息与电脑,2017(8):73-76.

    (编辑:王天鹏)