基于SVR的CET-4成绩预测模型研究

    杨素婷

    

    

    

    摘要:CET-4成绩及通过率是考察大学生英语能力水平和高校英语教学质量的重要指标。针对CET-4成绩预测问题,提出一种基于支持向量回归算法的预测方法,按照数据预处理、关键特征提取、预测模型构建的步骤完成CET-4成绩回归预测模型设计。以重庆旅游职业学院近年来多批次CET-4成绩数据和学生平时学习过程数据为基础,完成模型試点应用和模型评估,发现优化模型具有更好的可解释性和更高的泛化精度。

    关键词: CET-4;回归预测;SVR;特征相关

    中图分类号:TP393? ? ? 文献标识码:A

    文章编号:1009-3044(2021)18-0026-03

    开放科学(资源服务)标识码(OSID):

    Research on CET-4 Score Prediction Model Based on SVR

    YANG Su-ting

    (Chongqing Vocational Institute of Tourism, Chongqing 40900 China)

    Abstract:CET-4 scores and pass rate are important indicators to evaluate college students' English proficiency and College English teaching quality. Aiming at the problem of CET-4 performance prediction, a prediction method was proposed based on support vector regression algorithm. The regression prediction model of CET-4 was designed according to the steps of data preprocessing, key feature extraction and prediction model construction. Based on the CET-4 score data and students' learning process data in recent years, the pilot application and model evaluation of the model were completed. It is found that the optimized model has better interpretability and higher generalization accuracy.

    Key words:CET-4; Regression prediction; SVR; Feature correlation

    1 引言

    大学英语四级考试(CET-4,College English Test Band 4)是由教育部高等教育司主持的全国性英语考试,CET-4成绩及通过率是考察大学生英语能力水平和高校英语教学质量的重要指标[1]。随着教育信息技术和数据挖掘技术的发展与应用,基于学生的英语学习过程数据和CET-4分项数据,运用机器学习算法针对CET-4通过情况开展成绩预测模型研究,分析CET-4成绩的影响关键因素,对优化英语教学实施、提升英语教学质量具有重要意义。

    本文针对CET-4成绩预测问题,提出一种基于支持向量回归算法(SVR,Support Vector Regression)的预测方法,按照数据预处理、关键特征提取、预测模型构建的步骤完成CET-4成绩预测模型设计,并以重庆旅游职业学院2017-2019年5批次CET-4成绩数据和学生平时学习过程数据为基础,完成模型试点应用,并以2019年下半年CET-4成绩为主要测试数据集,评估预测模型。

    2 SVR算法

    CET-4成绩预测是典型的连续数据值预测,可参考的特征属性数据包括历史CET-4的各分项成绩,学生日常学习的过程数据,以及相关学生基础信息,目标属性为CET-4的总成绩,因此选用线性预测模型具有较好的适用性[2]。机器学习算法中常见的线性预测模型包括多元线性回归、岭回归、Lasso回归和SVR算法等,其中,SVR算法能够充分运用已经采集的大量基础数据、过程数据和分项成绩,通过核函数有效控制预测模型复杂度,对非线性时间序列情况下也具有较好预测效果[3]。因此,本文使用SVR算法作为基础算法开展CET-4成绩预测模型研究。

    线性回归模型是构建形如y=f(x)=Wx+b的预测函数,其中x为特征属性,y为目标数据,f(x)为回归函数,包括两个参数W为各特征属性的权重向量,b为函数常量。SVR是将原来的支持向量机SVM的分类模型转化为回归模型,将原来训练数据集的数据点远离自己类别一侧的支持向量,转为每个数据点拟合到线性模型y=Wx+b中[4-6]。

    SVR定义一个偏差常量?,对于任意数据样本x,当绝对误差|yx-f(x)|<?,认为样本x可以用f(x)=Wx+b进行回归预测,即以Wx+b为中心构建了宽度为2?的间隔带,落入该空间的样本数据(x,y)点,均认为成功预测。

    SVR预测模型的关键是围绕绝对误差|yx-f(x)|的最小化,求回归函数f(x)的参数W和b。

    据此,构建SVR回归模型的目标函数为:

    [minW,b||W||2,s.t.|y-Wx-b|<=ε]? ? ? ? ? ? ? (1)

    该目标函数为在样本点落入隔离带时,控制W最小化,即模型复杂度最低,从而有效控制预测模型的泛化能力。

    引入拉格朗日乘子求极值情况下参数,目标函数转化为:

    [Lw,b,a=12w2-k=1NakukwTxk+b-1+ε+Ck=1Nεk-k=1Nεμk]? ? ?(2)

    对L(w,b,a)对W,b,a分别求偏导并令偏导为0,从而得到:

    [w=k=1Nukakxkk=1Nukak=0C=μk-ak]? ? ? ? ? ? ? ? ? ? ? ? (3)

    目标函数进一步优化为:

    [minw,b,?Lw,b,a=k=1Nak-12k=1Nl=1NxTkxlulakukal]? ? ? (4)

    该情况下,使用SMO序列最小化算法,得到预测函数参数一个解为:

    [w*=k=1Nuka*kxkb*=ul-k=1Nuka*k(xk?x1)]? ? ? ? ? ? ? ? ? ? ?(5)

    此时,得到基于支持向量的预测回归函数为:

    [f(x)=k=1N(a*k-ak)K(x,xk)+b]? ? ? ? ? ? ? ? ? ? ? (6)

    其中,[K(x,xk)]为核函数。因此,SVR模型构建主要探索使用[K(x,xk)]将数据样本降维和关键参数W,b的计算[7]。

    3 基于SVR的CET-4预测模型

    构建基于SVR的CET-4预测模型,主要按照数据预处理、关键特征提取、预测模型构建三步实现,其中数据预处理主要完成与CET-4成绩相关数据的采集、清洗、规整等,关键特征提取主要对相关数据针对目标属性进行主成因分析,提取其中关键特征,降低数据维度,控制复杂度,预测模型构建按照SVR模型构建方法,选取核函数和计算参数,完成预测模型构建。

    3.1 数据预处理

    数据预处理是数据挖掘分析的基础,主要分析数据来源,对数据进行采集、清洗、规整,实现对数据的规范化,为后期数据挖掘分析打下良好数据基础[8]。对于CET-4成绩预测问题,主要采集三个方面数据:(1)学生基础数据,包括性别、年龄、生源地、专业、参考次数等;(2)学习过程数据:包括高考英语成绩、前导课程学习成绩等;(3)历史CET-4成绩分项成绩,包括听力、阅读、写作三类的分项成绩,對于多次参考学生,主要研究上次考试分项成绩。

    针对上述采集的数据,需要对数据进行进一步处理,包括:

    (1)离散数据数值化:将定序、定类、字符串等离散数据转化为数值型数据,如将性别男、女转为0和1;专业按照英语相关专业为0,非英语专业为1;生源地城市按照经济发展程度综合考虑,划分为一线、二线、三线、四线和五线城市共5类,转化为数值1-5。其他相关离散数据参照转化。

    (2)统一标准规范化:将不同量纲的数据统一到同一标准内,一般采用最大-最小规范化方法转化到[0,1]区间[9],具体转化公式为:

    [xn=x-xminxmax-xmin]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (7)

    (3)异常数据正常化:针对数据采集中的空缺值、重复值、异常值问题采用平均数填充、删除重复项等方法,将相关异常数据合理化处理。如上次CET-4分项成绩均为0的弃考学生成绩,应当作为异常数据清除。

    在采集学生基础数据、过程数据和历史数据基础上,按照数值化、规范化和正常化的步骤完成数据预处理,形成了学生相关数据表,结构为:学生(学号,性别,生源地,专业,参考次数,高考英语成绩,英语课程成绩,上次等考听力成绩,上次等考阅读成绩,上次等考写作成绩,本次等考成绩),其中学号为标识码,中间9项为特征属性,分别标注为F1-F9,本次等考成绩为目标属性,标定为F0。由于需要依托上次等考成绩为训练数据属性,因此,主要针对学校多次参考CET-4的学生进行预测分析,首次参加考试不做预测,这也符合英语教学和CET-4考试的实际情况。

    3.2 关键特征提取

    关键特征提取是根据特征之间的关联程度和对目标属性的支持程度,选取部分特征作为特征集合建立与目标属性的关系。对于学生表(ID,F1,F2,F3,F4,F5,F6,F7,F8,F9,F0),对于特征F1-F9中任意的两个特种Fi和Fj之间,数据样本在其上的数据分布为X和Y,那么特征Fi和Fj之间的协方差rij为:

    [rij=covX,Y=i=1nXi-XYi-Yn-1]? ? ? ? (8)

    其中,Xi为第i个数据样本取值,[X]为数据样本均值,n为样本数。

    从而构建F1-F9的特征矩阵R,其中,m为特征数,取值9:

    [R=covX=XX'm-1=r11……r1m…………rm1……rmm]? ? ? ? ?(9)

    计算矩阵R的特征向量为[λ]=[[λ1,λ2……λm]],[λi]表示了特征Fi在整个特征矩阵R中的主导地位,那么Fi在整个特征集合F1-F9的权重,可以表示为:

    [wi=λij=1mλj]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (10)

    按照权重从大到小排序,确保前N项提取特征的权重高于设定阈值,如0.8或0.75,即完成了F1-F9特征的关键特征提取。

    3.3 预测模型构建

    根据第2节SVR模型构建的方法,在数据预处理和关键特征提取的基础上,主要完成核函数的选取和关键参数的计算。

    (1)核函数选取

    SVR模型中核函数主要是将高维特征空间降维到低维空间,常见的核函数包括线性函数,多项式函数和径向基核函数(RBF)。其中,径向基核函数能够解决高维特征数据集,并很好转化为线性可分,具有广泛适用性。因此,使用RBF函数作为核函数构建SVR回归模型:

    [Kx,xk=e-||x-xk||22σ2]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (11)

    (2)参数计算

    在SVR模型中求公式(2)和(3)中的参数C、参数[μ]和参数[ε],分别为模型复杂度、回归模型线性程度和模型误差容忍度。选择最优的SVR模型参数方法包括:基于遗传算法方法、基于交叉验证方法、基于神经网络等方法。

    对于CET-4成绩预测问题,在关键特征提取基础上进行回归预测,选取一组参数,其中C偏大,选定更少更优的特征,[μ]偏小,促进模型更加平滑,[ε]偏小,提高预测波动范围。在初始参数基础上,按照网格法得到最优参数组,以0.1为步长构建参数网格,以2020年上半年CET-4成绩为测试数据集,设定误差阈值e,当ave|f(x)-y|<e时,即认为得到最优参数组。

    根据公式(5)、(6)的推导,得到SVR回归模型:

    [fx=SV(a*i-ai)?exp (-||xi-x||22σ2)+b]? ? ? ?(12)

    4 模型应用与评估

    使用我校2017-2019学年的等考成绩为训练数据集,以2019年下半年CET-4成绩为测试集,研究本文的基于特征相关的SVR优化模型,得到以累加权重为0.8,得到关键特征集为{上次等考听力成绩,上次等考写作成绩,英语课程成绩,专业,高考英语成绩}五个特征,可以发现在本校中听力和写作能力培养非常关键,课程学习和英语基础上也发挥重要作用,特别注意由于高职院校对CET-4没有强制要求,因此英语相关专业学生更加重视备考和参考,因此分数会更高。

    通过基于特征相关的SVR优化模型构建的回归预测函数,同线性回归模型方法、普通SVR模型进行比较,分别分析三种模型在训练数据集和测试数据集上的均方误差。

    根据三种回归模型,本文提出基于特征相关的SVR模型在数据集上具有更好的预测精度,同时,随着数据集的积累,在测试集上具有更优的泛化精度。

    5 结语

    CET-4是考核学生英语能力和评价学校英语教学质量的重要指标。针对CET-4成绩预测问题,本文提出一种基于支持向量回归算法的预测方法,按照数据预处理、关键特征提取、预测模型构建的步骤完成CET-4成绩回归预测模型设計。以重庆旅游职业学院2017-2019学年5批次CET-4成绩数据和学生平时学习过程数据为基础,完成模型试点应用和模型评估,发现本文的优化模型比线性回归和普通SVR模型具有更好的可解释性和更高的泛化精度。

    参考文献:

    [1] 韩鲁峰.数据挖掘在大学英语四级成绩预测中的应用研究[J].电脑知识与技术,2018,14(24):1-3.

    [2] 王欣欣,汤军.学生成绩预测模型的对比分析[J].电脑知识与技术,2020,16(1):199-202.

    [3] 陈荣,梁昌勇,谢福伟.基于SVR的非线性时间序列预测方法应用综述[J].合肥工业大学学报(自然科学版),2013,36(3):369-374.

    [4] 李永娜.基于支持向量机的回归预测综述[J].信息通信,2014,27(11):32-33.

    [5] 陈博,郑凯东,王家华.多核支撑向量回归方法研究[J].智能计算机与应用,2019,9(1):188-191.

    [6] 罗学科,何云霄,刘鹏,等.ARIMA-SVR组合方法在水质预测中的应用[J].长江科学院院报,2020,37(10):21-27.

    [7] 肖建,于龙,白裔峰.支持向量回归中核函数和超参数选择方法综述[J].西南交通大学学报,2008,43(3):297-303.

    [8] 罗长银,陈学斌,宋尚文,等.数据预处理技术在异构数据中的应用[J].软件,2020,41(5):6-13.

    [9] 孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018,28(5):1-4.

    【通联编辑:唐一东】