基于IOWA算子的水上交通事故组合预测模型
王当利 吕雪 王雪佳 高如江
摘要:
为提高水上交通事故的预测精度,将引入弱化算子序列的灰色模型和支持向量回归模型的预测结果进行组合,进而构建基于IOWA算子的组合预测模型。以全国和长江某流域水上交通事故历史数据为预测样本,將组合预测模型的预测结果与其他预测模型的预测结果进行对比。结果显示:组合预测模型的预测精度更高,能更好地反映水上交通事故的发展趋势。
关键词:
事故预测;灰色模型;支持向量机;IOWA算子
中图分类号: U698
文献标志码: A
Abstract:
In order to improve the prediction accuracy of waterway traffic accidents, the prediction results of the grey model based on weakening operator sequence and the support vector regression model are combined, and a combined prediction model based on the IOWA operator is constructed. Based on the historical data of waterway traffic accidents in China and a certain basin of the Yangtze River, the prediction results of the combined prediction model are compared with those of other prediction models. The results show that the combined prediction model is of higher prediction accuracy and can better reflect the development trend of waterway traffic accidents.
Key words:
accident prediction; grey model; support vector machine; IOWA operator
0引言
近年来,水上交通事故得到了相应的控制,但仍然是水上交通安全保障面对的较为突出的问题。水上交通事故数量是评价水上交通安全的重要指标,也是衡量水上交通管理水平的重要因素。水上交通系统较为复杂,受通航环境、船员、船舶等多因素的影响,事故发生又具有一定的偶然性和模糊性。因此,通过建立有效的预测模型对水上交通事故发生趋势进行定量分析,对控制水上交通风险、保证船舶航行安全具有重要意义[1]。
目前,对水上交通事故预测方法的研究主要是基于灰色模型进行的,在此基础上结合其他模型进行优化,进而建立精度更高的预测模型[2]。陈咫宇等[3]将分形理论用于水上交通事故的预测,利用分形插值方法对离散的时间序列数据进行处理,构建了基于给定时间序列的预测模型。赵佳妮等[4]在GM(1,1)模型预测的基础上,运用马尔科夫模型对预测结果进行优化,进而建立了灰色马尔科夫预测模型。牛佳伟等[5]运用灰色系统理论和加权灰色关联原理对船舶交通事故进行分析,通过建立事故总数预测模型,对不同水域未来的交通形势进行了预测;陈海山等[6]引入灰色Verhulst预测理论,建立了水上交通事故灰色Verhulst模型;李铃铃等[7]先运用灰色模型对水上交通事故数量进行预测,将预测结果与原始数据进行对比,计算出残差,再运用BP神经网络模型对残差进行修正,得到最终预测结果。实践表明,单一的预测方法都有其自身的特点和缺陷,因此组合预测方法成为预测水上交通事故的新思路[89]。本文在预测方法适用性研究的基础上,先分别建立引入弱化算子的灰色模型和支持向量回归模型,再选用IOWA算子将这2种预测模型的预测结果进行组合,建立组合预测模型。预测结果表明,本文提出的基于IOWA算子的组合预测模型能够有效地提高预测精度,增强预测的合理性和有效性[10]。
1水上交通事故预测单一模型
1.1改进的灰色模型
水上交通系统因其复杂性可将其视为一个灰色系统。众多学者利用灰色系统的思想进行水上交通事故的预测,并将传统的灰色模型加以改进。本文根据弱化算子理论和GM(1,1)的原理,构造一种改进的灰色模型。引入弱化算子对数据进行弱化处理可以更好地克服数据的波动性,从而使模型的预测效果更好。建模过程[1112]如下:
设水上交通事故的原始数据序列为
X(0)=(x(0)(1),x(0)(2),…,x(0)(n))
式中:x(0)(k)≥0,k=1,2,…,n。
引入一阶弱化算子D,作用于原始数据序列,得到X(0)D。
X(0)D=(x(0)(1)d,x(0)(2)d,…,x(0)(n)d)
x(0)(k)d=ni=kx(0)(i)x(0)(n)n-i+1,
k=1,2,…,n
对X(0)D进行累加处理,可得
X(1)=(x(1)(1),x(1)(2),…,x(1)(n))
式中:x(1)(k)=ki=1x(0)(i)d, k=1,2,…,n。
X(1)的紧邻均值生成序列为
Z(1)=(z(1)(2),z(1)(3),…,z(1)(n))
式中:z(1)(k)=12(x(1)(k)+x(1)(k-1)),k=2,3,…,n。
X(1)为呈近似指数变化的序列,其白化方程为
dx(1)(t)dt+ax(1)(t)=b
其中a、b为待定系数。用最小二乘法求解可得
=(a b)T=(BTB)TBTY
式中:
Y=(x(0)(2)x(0)(3)…x(0)(n))T
B=
-z(1)(2)1-z(1)(3)1
-z(1)(n)1
预测模型为
x(1)(k+1)=x(0)(1)-bae-ak+ba(1)
经过累减还原,得
x(0)(k+1)=x(1)(k+1)-x(1)(k)
1.2支持向量回归模型
支持向量回归(SVR)是支持向量机(SVM)在非线性回归估计和曲线拟合中广泛应用而发展起来的[13]。其基本思想是:利用非线性变换,即确定适当的核函数,将需要解决的实际问题转到高维特征空间,进而进行线性估计构造最优线性决策函数。
给定训练数据集T={(xi,yi),i=1,2,…,l},xi∈Rm,yi∈R。若可以用Rm上的线性函数f(x)=wx+b来推断x所对应的y值,可将回归问题转化为如下的优化问题:
minw,b,ξ12
w2+Cli=1(ξi+ξ*i)
s.t.
yi-(wxi+b)≤ε+ξ*i
(wxi+b)-yi≤ε+ξi
ξi,ξ*≥0,i=1,2,…,l
式中:C为惩罚函数;ξi、ξ*i为松弛变量;ε为不敏感函数阈值。
采用Lagrange乘子法,引入它的对偶问题:
min12li,j=1(a*i-ai)(a*j-aj)(xi·xj)+
εli=1(a*i+ai)-li=1yi(a*i-ai)
s. t.
li=1(a*i-ai)=0
0≤ai≤C, 0≤a*i≤C, i=1,2,…,l
对于a*i-ai≠0的训练样本,Lagrange乘子为支持向量机,得到回归估计函数:
f(x)=li=1(a*i-ai)K(xi,x)+b
2基于IOWA算子的组合预测模型
2.1组合预测理论
1969年Bates等人首次系统阐述了组合预测的概念。组合预测能够最大限度地利用各种单一预测模型的信息,比单一预测模型更系统、全面。先根据数据特征,运用多种单一预测模型进行预测,选择其中预测精度最高的预测方法;鉴于不同的预测方法有其各自的特点和优势,将不同的单一预测模型进行合理组合,形成组合模型。组合预测模型的一般流程见图1。
2.2IOWA算子
IOWA算子的定义如下:设有m个二维数组
(v1,a1),(v2,a2),…,(vm,am),满足
fw((v1,a1),(v2,a2),…,(vm,am))=
mi=1wiav_index(i))
则fw是由v1,v2,…,vm所产生的m维诱导有序加权平均算子,记为IOWA算子,其中:vi为ai的诱导值;av_index(i)为v1,v2,…,vm按从大到小顺序排列的第i个数所对应的a值;W=(w1,w2,…,wm)T是IOWA算子的加权向量,其中
mi=1wi=1, wi≥0
设实际值为xt(t=1,2,…,N),共有m种单一预测方法进行预测,xit为第i种单一预测方法第t时刻的预测值。若
ait=
1-(xt-xit)/xt,(xt-xit)/xt<1
0,(xt-xit)/xt≥1
(2)
则称ait为第i种单一预测方法在第t时刻的预测精度,同时满足ait∈[0,1]。预测精度ait视为预测值xit的诱导值,第t时刻m种单一预测方法的预测精度和其相应的预测值就构成了m个二维数组
(a1t,x1t),(a2t,x2t),…,
(amt,xmt)。
2.3基于IOWA算子的組合预测模型建立
在传统的组合预测模型中,各单一预测模型在整个时间序列区间上赋权系数不变,但组合预测模型中单一预测模型在不同时点的预测精度可能不同,IOWA算子能够弥补不同单一预测模型在不同时点预测精度不同的这一局限。
设W=(w1,w2,…,wm)T为各单一预测方法在组合预测中的有序加权平均向量,将m个单一预测方法在第t时刻的预测精度a1t,a2t,…,amt按从大到小的顺序排列,根据上述定义可得组合预测模型的预测值公式为
fw((a1t,x1t),(a2t,x2t),…,(amt,xmt))=
mi=1(wixa_index(it))(3)
实际上各种单一预测方法的预测精度不同,因此组合预测的权重系数与单一预测方法时间序列上不同时刻预测精度的大小有关。
设ea_index(it)=xt-xa_index(it),N期组合预测误差的总的平方和为
S=Nt=1xt-mi=1wixa_index(it)2=
mi=1mj=1wiwj
Nt=1ea_index(it)ea_index(jt)(4)
则新的基于IOWA算子的组合预测模型可表示为
min S
s. t.
mi=1wi=1, wi≥0
2.4评价准则
需要对预测模型进行评价以验证其合理性。按照整体评价预测方法的原则和惯例,一般采用5项指标进行评价。实际值序列为(xt,t=1,2,…,N),预测值序列为(x^t,t=1,2,…,N)。根据组合预测效果评价的原则,采用平方和误差、均方误差、平均绝对误差、平均绝对百分误差、均方百分误差这5项误差指标对预测模型进行评价,其计算公式分别为
ESS=Nt=1(xt-x^t)2(5)
EMS=1NNt=1(xt-x^t)2(6)
EMA=1NNt=1xt-x^t(7)
EMAP=1NNt=1xt-x^t/xt(8)
EMSP=1NNt=1(xt-x^t/xt)2(9)
3实例分析
以2001—2014年我国水上交通事故数据为原始数据(见表1),分别建立2个单一预测模型和基于IOWA算子的组合预测模型,进行水上交通事故分析和预测。通过与前人所构建的灰色Verhulst模型和灰色马尔科夫模型的对比,证明基于IOWA算子的组合预测模型的预测精度更高。对长江某流域2012—2016年水上交通事故进行预测,验证本文所构建的组合预测模型的合理性及普遍性。2004—2016年长江某流域水上交通事故数据见表2。
由图2可知,改进的灰色模型的预测结果能满足水上交通事故预测的要求,并且较好地克服了传统灰色模型数据离散、随机等缺点,预测精度更高。根据式(10)对2014年全国水上交通事故数量进行预测,得到2014年的事故数量为252起。同理,按照改进的灰色模型的计算步骤,以表1中2001—2007年的数据为原始数据对2008—2013年的事故数量进行预测,结果见表3。
3.1.2支持向量回归模型
支持向量回归模型通常运用MATLAB进行编程。本文选用LibSVM软件包进行预测数据处理和数值计算。LibSVM是一个简单的、易于使用和快速有效的模式识别与回归的软件包,对所涉及的参数调节相对比较少,提供了很多的默认参数。
以表1中2001—2007年的数据为训练数据集,以2008—2014年的数据为测试数据集,模型预测过程如下:
(1)利用FormatDataLibsvm.xls将原始训练数据集和原始测试数据集转化为所需要的格式。
(2)利用LibSVM对数据进行归一化处理,消除变量间的量纲关系,使数据具有可比性。
(3)利用gridregression.py函数进行参数寻优。参数主要有惩罚函数C、核函数g和损失函数ε。
(4)利用svmtrain对最优参数进行模型训练。
(5)利用svmpredict对测试数据集进行预测。
通过上述5步最终确定,这个模型采用径向基函数为核函数时的回归效果最佳,其中C=2.2, g=2.8,ε=0.01,预测结果见表3。
3.1.3基于IOWA算子的组合预测模型
根据式(2),计算改进的灰色模型和支持向量回归模型对2008—2014年我国水上交通事故数量的预测精度,结果见表3。
设x^t为基于IOWA算子的组合预测模型的预测值,根据式(3),则有
x^t=fw((a1t,x1t),(a2t,x2t))=
w1xa_index(1t)+w2xa_index(2t), t=1,2,…,7(11)
将表3中计算得到的预测值代入式(11),得到
x^1=w1×348+w2×335, x^2=w1×352+w2×344,
x^3=w1×338+w2×342, x^4=w1×301+w2×305,
x^5=w1×274+w2×286, x^6=w1×264+w2×269,
x^7=w1×252+w2×269
将上述公式代入式(4),整理得到基于IOWA算子的组合预测模型。
min S=min(102w12+832w22+352w1w2)
s.t.
w1+w2=1
wi≥0, i=1,2
将上述公式利用MATLAB最优化工具箱求解,得到w1=0.982 2,w2=0.017 8,将其代入式(11),可得到基于IOWA算子的组合预测模型的预测值。
为验证本文所建立的组合预测模型的预测精度,选用灰色Verhulst模型和灰色马尔科夫模型对2008—2014年我国水上交通事故数量进行预测,将预测结果与组合预测模型的预测结果进行对比。
3.2灰色Verhulst模型
灰色Verhulst模型建模過程如下:(1)取X(1)=(342,359,331,298,270,262,260),见表1中2008—2014年我国水上交通事故数量历史数据。(2)对X(1)进行累减得到X(0)=(342,17,-28,-33,-28,-8,-2)。(3)对X(1)做紧邻均值生成,则Z(1)=(350.5, 345.0, 314.5, 284.0, 266.0, 261.0)。(4)x(0)+az(1)=b(z(1))2为灰色Verhulst模型,求解方程为
x^(1)k+1=ax(0)1bx(0)1+(a-bx(0)1)eak
根据MATLAB求得
=(0.145 40.000 3)T,x^(1)k+1=49.730.102 6+0.042 8e0.145 4k。(5)取x(1)0=x(0)1=342,根据上述公式得到灰色Verhulst模型的预测值。
3.3灰色马尔科夫模型
用2001—2007年全国水上交通事故的历史数据预测2008—2014年全国水上交通事故数量。灰色马尔科夫模型建模步骤如下:
(1)建立GM(1,1),经过检验后得a=0.115 3,b=842.785 6。白化方程的解为
x(1)(k+1)=x(0(1)-bae-ak+ba
y=x(1)(k+1)-x(1)(k)=814.524 3e-0.115 3k
(2)状态划分。根据2007年的拟合值来修正2008年的预测值,计算得到2001—2009年全国水上交通事故数量的相对残差分布区间为(-11%,5%]。将拟合序列按照相对残差值划分为4个状态N1~N4,其分别对应残差值区间(-11%, -7%]、(-7%, -3%]、(-3%, 1%]、(1%, 5%]。各年全国水上交通事故所处的状态见表4。
2007年全国水上交通事故所处的状态为N3,因此经过一年的状态转移,可以认为2008年的全国水上交通事故最可能处于状态N1或N4。根据x(0)(k)=x^(0)(k)1-ω(0)(k),求得2008年的全国水上交通事故数量为353起。
将2001年的事故数量去掉并加入2008年的事故数量求得2009年的事故数量,其他年份的求解步骤同上,预测值见表5。
由表5可知,以改进的灰色模型和支持向量回归模型预测值为结果而构建的基于IOWA算子的组合预测模型预测精度较高,相对误差小,数据波动性相对较小,拟合效果更好,证实了基于IOWA算子的组合预测模型预测效果优于单一预测模型和传统的预测模型的预测效果,能更为全面真实地反映水上交通事故的发展趋势。
3.4长江某流域水上船舶交通事故的组合预测
为验证本文所建立的组合预测模型的普遍实用性,以长江某流域2004—2009年的水上交通事故历史数据为原始数据对2010—2016年的交通事故数量进行预测。各模型的预测值见表6。
3.5模型评价
根据上述预测的结果,对全国及长江某流域水上交通事故预测中所选用的3种预测模型的预测误差进行比较,对各模型预测结果的准确性进行检验。
根据组合预测效果评价的原则,按照式(5)~(9)分别计算各预测模型的5项误差指标,结果见表7和8。
从5项误差指标结果看:本文建立的基于IOWA算子组合预测模型的5项误差值均小于灰色Verhulst模型和灰色马尔科夫预测模型的5项误差值;全国水上交通事故预测的效果优于长江某流域水上交通事故预测的效果。全国与长江某流域预测效果的差别与数据的波动性不同存在一定的关系,但综合比较其他的预测方法,本文建立的组合预测方法在整个预测过程中预测性能最佳。
4结论
较为准确地预测水上交通事故数量对水上交通风险的防控具有重要的指导作用。灰色模型能够反映水上交通事故的整体发展趋势,再通过引入新的弱化算子降低原始数据序列的波动性,其适用性更好。支持向量机能从未知分布的小样本中抽取最大的有用信息,解决样本空间中的高度非线性分类和回归等问题,利用回归做预测能取得很好的预测效果。本文通过构建基于诱导有序加权平均(IOWA)算子的组合预测模型,克服了传统的组合预测模型中各单一预测模型在整个时间序列区间上赋权系数不变的局限。通过对全国和长江某流域水上交通事故数量的预测,进行全局和局部实例分析,证实本文所构建的组合预测模型能有效降低预测误差,可作为水上交通事故预测的一种新方法。
参考文献:
[1]WU Chaozhong, MA Lili, ZHANG Baogang, et al. Study on indicators choosing for navigation safety assessment of Three Gorges Reservoir Areas based on Delphi method[C]//2009 AsiaPacific International Conference on Information Processing, 2009(2): 282285.
[2]BEZUGLOV A, COMERT G. Shortterm freeway traffic parameter prediction: application of grey system theory models[J]. Expert Systems with Applications, 2016, 62: 284292.
[3]陳咫宇, 胡甚平, 郝严斌. 基于分形理论的水上交通事故预测[J]. 上海海事大学学报, 2009, 30(3): 1821.
[4]赵佳妮, 吴兆麟. 基于灰色马尔可夫模型的水上交通事故预测[J]. 大连海事大学学报, 2005(4): 1720.
[5]牛佳伟, 李连博. 灰色加权理论在海损事故分析与预测中的应用[J]. 中国航海, 2016, 39(3): 6367.
[6]陈海山, 危强. 灰色Verhulst模型在水上交通事故预测中的应用[J]. 中国航海, 2013, 36(2): 6769.
[7]李铃铃, 仇蕾. 基于灰色神经网络组合模型的水上交通事故预测[J]. 交通信息与安全, 2014, 32(3): 111113. DOI: 10.3963/j.issn.16744861.2014.03.022.
[8]孙轶轩, 邵春福, 计寻, 等. 基于ARIMA与信息粒化ARIMA组合模型的交通事故时序预测[J]. 清华大学学报, 2014, 54(3): 348353. DOI: 10.16511/j.cnki.qhdxxb.2014.03.004.
[9]薛明浩, 端木京顺, 甘旭升, 等. 基于DS证据理论的飞行事故预测模型[J]. 安全与环境工程, 2015, 22(3): 117121. DOI: 10.13578/j.cnki.issn.16711556.2015.03.022.
[10]刘香云. 基于灰色关联度的道路交通事故组合预测方法研究[D]. 北京: 北京交通大学, 2015.
[11]陈昌源, 戴冉, 冯纪军, 等. 改进灰色模型在海上交通综合安全指数预测应用[J]. 中国航海, 2017, 40(1): 5863.
[12]陈昌源, 戴冉, 牛佳伟, 等. 改进的灰色理论在海上交通事故预测中的应用[J]. 船海工程, 2016, 45(6): 6771. DOI: 10.3963/j.issn.16717953.2016.06.015.
[13]CHEN Yibo, TAN Hongwei. Shortterm prediction of electric demand in building sector via hybrid support vector regression[J]. Applied Energy, 2017, 204: 1363137.
(编辑赵勉)
摘要:
为提高水上交通事故的预测精度,将引入弱化算子序列的灰色模型和支持向量回归模型的预测结果进行组合,进而构建基于IOWA算子的组合预测模型。以全国和长江某流域水上交通事故历史数据为预测样本,將组合预测模型的预测结果与其他预测模型的预测结果进行对比。结果显示:组合预测模型的预测精度更高,能更好地反映水上交通事故的发展趋势。
关键词:
事故预测;灰色模型;支持向量机;IOWA算子
中图分类号: U698
文献标志码: A
Abstract:
In order to improve the prediction accuracy of waterway traffic accidents, the prediction results of the grey model based on weakening operator sequence and the support vector regression model are combined, and a combined prediction model based on the IOWA operator is constructed. Based on the historical data of waterway traffic accidents in China and a certain basin of the Yangtze River, the prediction results of the combined prediction model are compared with those of other prediction models. The results show that the combined prediction model is of higher prediction accuracy and can better reflect the development trend of waterway traffic accidents.
Key words:
accident prediction; grey model; support vector machine; IOWA operator
0引言
近年来,水上交通事故得到了相应的控制,但仍然是水上交通安全保障面对的较为突出的问题。水上交通事故数量是评价水上交通安全的重要指标,也是衡量水上交通管理水平的重要因素。水上交通系统较为复杂,受通航环境、船员、船舶等多因素的影响,事故发生又具有一定的偶然性和模糊性。因此,通过建立有效的预测模型对水上交通事故发生趋势进行定量分析,对控制水上交通风险、保证船舶航行安全具有重要意义[1]。
目前,对水上交通事故预测方法的研究主要是基于灰色模型进行的,在此基础上结合其他模型进行优化,进而建立精度更高的预测模型[2]。陈咫宇等[3]将分形理论用于水上交通事故的预测,利用分形插值方法对离散的时间序列数据进行处理,构建了基于给定时间序列的预测模型。赵佳妮等[4]在GM(1,1)模型预测的基础上,运用马尔科夫模型对预测结果进行优化,进而建立了灰色马尔科夫预测模型。牛佳伟等[5]运用灰色系统理论和加权灰色关联原理对船舶交通事故进行分析,通过建立事故总数预测模型,对不同水域未来的交通形势进行了预测;陈海山等[6]引入灰色Verhulst预测理论,建立了水上交通事故灰色Verhulst模型;李铃铃等[7]先运用灰色模型对水上交通事故数量进行预测,将预测结果与原始数据进行对比,计算出残差,再运用BP神经网络模型对残差进行修正,得到最终预测结果。实践表明,单一的预测方法都有其自身的特点和缺陷,因此组合预测方法成为预测水上交通事故的新思路[89]。本文在预测方法适用性研究的基础上,先分别建立引入弱化算子的灰色模型和支持向量回归模型,再选用IOWA算子将这2种预测模型的预测结果进行组合,建立组合预测模型。预测结果表明,本文提出的基于IOWA算子的组合预测模型能够有效地提高预测精度,增强预测的合理性和有效性[10]。
1水上交通事故预测单一模型
1.1改进的灰色模型
水上交通系统因其复杂性可将其视为一个灰色系统。众多学者利用灰色系统的思想进行水上交通事故的预测,并将传统的灰色模型加以改进。本文根据弱化算子理论和GM(1,1)的原理,构造一种改进的灰色模型。引入弱化算子对数据进行弱化处理可以更好地克服数据的波动性,从而使模型的预测效果更好。建模过程[1112]如下:
设水上交通事故的原始数据序列为
X(0)=(x(0)(1),x(0)(2),…,x(0)(n))
式中:x(0)(k)≥0,k=1,2,…,n。
引入一阶弱化算子D,作用于原始数据序列,得到X(0)D。
X(0)D=(x(0)(1)d,x(0)(2)d,…,x(0)(n)d)
x(0)(k)d=ni=kx(0)(i)x(0)(n)n-i+1,
k=1,2,…,n
对X(0)D进行累加处理,可得
X(1)=(x(1)(1),x(1)(2),…,x(1)(n))
式中:x(1)(k)=ki=1x(0)(i)d, k=1,2,…,n。
X(1)的紧邻均值生成序列为
Z(1)=(z(1)(2),z(1)(3),…,z(1)(n))
式中:z(1)(k)=12(x(1)(k)+x(1)(k-1)),k=2,3,…,n。
X(1)为呈近似指数变化的序列,其白化方程为
dx(1)(t)dt+ax(1)(t)=b
其中a、b为待定系数。用最小二乘法求解可得
=(a b)T=(BTB)TBTY
式中:
Y=(x(0)(2)x(0)(3)…x(0)(n))T
B=
-z(1)(2)1-z(1)(3)1
-z(1)(n)1
预测模型为
x(1)(k+1)=x(0)(1)-bae-ak+ba(1)
经过累减还原,得
x(0)(k+1)=x(1)(k+1)-x(1)(k)
1.2支持向量回归模型
支持向量回归(SVR)是支持向量机(SVM)在非线性回归估计和曲线拟合中广泛应用而发展起来的[13]。其基本思想是:利用非线性变换,即确定适当的核函数,将需要解决的实际问题转到高维特征空间,进而进行线性估计构造最优线性决策函数。
给定训练数据集T={(xi,yi),i=1,2,…,l},xi∈Rm,yi∈R。若可以用Rm上的线性函数f(x)=wx+b来推断x所对应的y值,可将回归问题转化为如下的优化问题:
minw,b,ξ12
w2+Cli=1(ξi+ξ*i)
s.t.
yi-(wxi+b)≤ε+ξ*i
(wxi+b)-yi≤ε+ξi
ξi,ξ*≥0,i=1,2,…,l
式中:C为惩罚函数;ξi、ξ*i为松弛变量;ε为不敏感函数阈值。
采用Lagrange乘子法,引入它的对偶问题:
min12li,j=1(a*i-ai)(a*j-aj)(xi·xj)+
εli=1(a*i+ai)-li=1yi(a*i-ai)
s. t.
li=1(a*i-ai)=0
0≤ai≤C, 0≤a*i≤C, i=1,2,…,l
对于a*i-ai≠0的训练样本,Lagrange乘子为支持向量机,得到回归估计函数:
f(x)=li=1(a*i-ai)K(xi,x)+b
2基于IOWA算子的组合预测模型
2.1组合预测理论
1969年Bates等人首次系统阐述了组合预测的概念。组合预测能够最大限度地利用各种单一预测模型的信息,比单一预测模型更系统、全面。先根据数据特征,运用多种单一预测模型进行预测,选择其中预测精度最高的预测方法;鉴于不同的预测方法有其各自的特点和优势,将不同的单一预测模型进行合理组合,形成组合模型。组合预测模型的一般流程见图1。
2.2IOWA算子
IOWA算子的定义如下:设有m个二维数组
(v1,a1),(v2,a2),…,(vm,am),满足
fw((v1,a1),(v2,a2),…,(vm,am))=
mi=1wiav_index(i))
则fw是由v1,v2,…,vm所产生的m维诱导有序加权平均算子,记为IOWA算子,其中:vi为ai的诱导值;av_index(i)为v1,v2,…,vm按从大到小顺序排列的第i个数所对应的a值;W=(w1,w2,…,wm)T是IOWA算子的加权向量,其中
mi=1wi=1, wi≥0
设实际值为xt(t=1,2,…,N),共有m种单一预测方法进行预测,xit为第i种单一预测方法第t时刻的预测值。若
ait=
1-(xt-xit)/xt,(xt-xit)/xt<1
0,(xt-xit)/xt≥1
(2)
则称ait为第i种单一预测方法在第t时刻的预测精度,同时满足ait∈[0,1]。预测精度ait视为预测值xit的诱导值,第t时刻m种单一预测方法的预测精度和其相应的预测值就构成了m个二维数组
(a1t,x1t),(a2t,x2t),…,
(amt,xmt)。
2.3基于IOWA算子的組合预测模型建立
在传统的组合预测模型中,各单一预测模型在整个时间序列区间上赋权系数不变,但组合预测模型中单一预测模型在不同时点的预测精度可能不同,IOWA算子能够弥补不同单一预测模型在不同时点预测精度不同的这一局限。
设W=(w1,w2,…,wm)T为各单一预测方法在组合预测中的有序加权平均向量,将m个单一预测方法在第t时刻的预测精度a1t,a2t,…,amt按从大到小的顺序排列,根据上述定义可得组合预测模型的预测值公式为
fw((a1t,x1t),(a2t,x2t),…,(amt,xmt))=
mi=1(wixa_index(it))(3)
实际上各种单一预测方法的预测精度不同,因此组合预测的权重系数与单一预测方法时间序列上不同时刻预测精度的大小有关。
设ea_index(it)=xt-xa_index(it),N期组合预测误差的总的平方和为
S=Nt=1xt-mi=1wixa_index(it)2=
mi=1mj=1wiwj
Nt=1ea_index(it)ea_index(jt)(4)
则新的基于IOWA算子的组合预测模型可表示为
min S
s. t.
mi=1wi=1, wi≥0
2.4评价准则
需要对预测模型进行评价以验证其合理性。按照整体评价预测方法的原则和惯例,一般采用5项指标进行评价。实际值序列为(xt,t=1,2,…,N),预测值序列为(x^t,t=1,2,…,N)。根据组合预测效果评价的原则,采用平方和误差、均方误差、平均绝对误差、平均绝对百分误差、均方百分误差这5项误差指标对预测模型进行评价,其计算公式分别为
ESS=Nt=1(xt-x^t)2(5)
EMS=1NNt=1(xt-x^t)2(6)
EMA=1NNt=1xt-x^t(7)
EMAP=1NNt=1xt-x^t/xt(8)
EMSP=1NNt=1(xt-x^t/xt)2(9)
3实例分析
以2001—2014年我国水上交通事故数据为原始数据(见表1),分别建立2个单一预测模型和基于IOWA算子的组合预测模型,进行水上交通事故分析和预测。通过与前人所构建的灰色Verhulst模型和灰色马尔科夫模型的对比,证明基于IOWA算子的组合预测模型的预测精度更高。对长江某流域2012—2016年水上交通事故进行预测,验证本文所构建的组合预测模型的合理性及普遍性。2004—2016年长江某流域水上交通事故数据见表2。
由图2可知,改进的灰色模型的预测结果能满足水上交通事故预测的要求,并且较好地克服了传统灰色模型数据离散、随机等缺点,预测精度更高。根据式(10)对2014年全国水上交通事故数量进行预测,得到2014年的事故数量为252起。同理,按照改进的灰色模型的计算步骤,以表1中2001—2007年的数据为原始数据对2008—2013年的事故数量进行预测,结果见表3。
3.1.2支持向量回归模型
支持向量回归模型通常运用MATLAB进行编程。本文选用LibSVM软件包进行预测数据处理和数值计算。LibSVM是一个简单的、易于使用和快速有效的模式识别与回归的软件包,对所涉及的参数调节相对比较少,提供了很多的默认参数。
以表1中2001—2007年的数据为训练数据集,以2008—2014年的数据为测试数据集,模型预测过程如下:
(1)利用FormatDataLibsvm.xls将原始训练数据集和原始测试数据集转化为所需要的格式。
(2)利用LibSVM对数据进行归一化处理,消除变量间的量纲关系,使数据具有可比性。
(3)利用gridregression.py函数进行参数寻优。参数主要有惩罚函数C、核函数g和损失函数ε。
(4)利用svmtrain对最优参数进行模型训练。
(5)利用svmpredict对测试数据集进行预测。
通过上述5步最终确定,这个模型采用径向基函数为核函数时的回归效果最佳,其中C=2.2, g=2.8,ε=0.01,预测结果见表3。
3.1.3基于IOWA算子的组合预测模型
根据式(2),计算改进的灰色模型和支持向量回归模型对2008—2014年我国水上交通事故数量的预测精度,结果见表3。
设x^t为基于IOWA算子的组合预测模型的预测值,根据式(3),则有
x^t=fw((a1t,x1t),(a2t,x2t))=
w1xa_index(1t)+w2xa_index(2t), t=1,2,…,7(11)
将表3中计算得到的预测值代入式(11),得到
x^1=w1×348+w2×335, x^2=w1×352+w2×344,
x^3=w1×338+w2×342, x^4=w1×301+w2×305,
x^5=w1×274+w2×286, x^6=w1×264+w2×269,
x^7=w1×252+w2×269
将上述公式代入式(4),整理得到基于IOWA算子的组合预测模型。
min S=min(102w12+832w22+352w1w2)
s.t.
w1+w2=1
wi≥0, i=1,2
将上述公式利用MATLAB最优化工具箱求解,得到w1=0.982 2,w2=0.017 8,将其代入式(11),可得到基于IOWA算子的组合预测模型的预测值。
为验证本文所建立的组合预测模型的预测精度,选用灰色Verhulst模型和灰色马尔科夫模型对2008—2014年我国水上交通事故数量进行预测,将预测结果与组合预测模型的预测结果进行对比。
3.2灰色Verhulst模型
灰色Verhulst模型建模過程如下:(1)取X(1)=(342,359,331,298,270,262,260),见表1中2008—2014年我国水上交通事故数量历史数据。(2)对X(1)进行累减得到X(0)=(342,17,-28,-33,-28,-8,-2)。(3)对X(1)做紧邻均值生成,则Z(1)=(350.5, 345.0, 314.5, 284.0, 266.0, 261.0)。(4)x(0)+az(1)=b(z(1))2为灰色Verhulst模型,求解方程为
x^(1)k+1=ax(0)1bx(0)1+(a-bx(0)1)eak
根据MATLAB求得
=(0.145 40.000 3)T,x^(1)k+1=49.730.102 6+0.042 8e0.145 4k。(5)取x(1)0=x(0)1=342,根据上述公式得到灰色Verhulst模型的预测值。
3.3灰色马尔科夫模型
用2001—2007年全国水上交通事故的历史数据预测2008—2014年全国水上交通事故数量。灰色马尔科夫模型建模步骤如下:
(1)建立GM(1,1),经过检验后得a=0.115 3,b=842.785 6。白化方程的解为
x(1)(k+1)=x(0(1)-bae-ak+ba
y=x(1)(k+1)-x(1)(k)=814.524 3e-0.115 3k
(2)状态划分。根据2007年的拟合值来修正2008年的预测值,计算得到2001—2009年全国水上交通事故数量的相对残差分布区间为(-11%,5%]。将拟合序列按照相对残差值划分为4个状态N1~N4,其分别对应残差值区间(-11%, -7%]、(-7%, -3%]、(-3%, 1%]、(1%, 5%]。各年全国水上交通事故所处的状态见表4。
2007年全国水上交通事故所处的状态为N3,因此经过一年的状态转移,可以认为2008年的全国水上交通事故最可能处于状态N1或N4。根据x(0)(k)=x^(0)(k)1-ω(0)(k),求得2008年的全国水上交通事故数量为353起。
将2001年的事故数量去掉并加入2008年的事故数量求得2009年的事故数量,其他年份的求解步骤同上,预测值见表5。
由表5可知,以改进的灰色模型和支持向量回归模型预测值为结果而构建的基于IOWA算子的组合预测模型预测精度较高,相对误差小,数据波动性相对较小,拟合效果更好,证实了基于IOWA算子的组合预测模型预测效果优于单一预测模型和传统的预测模型的预测效果,能更为全面真实地反映水上交通事故的发展趋势。
3.4长江某流域水上船舶交通事故的组合预测
为验证本文所建立的组合预测模型的普遍实用性,以长江某流域2004—2009年的水上交通事故历史数据为原始数据对2010—2016年的交通事故数量进行预测。各模型的预测值见表6。
3.5模型评价
根据上述预测的结果,对全国及长江某流域水上交通事故预测中所选用的3种预测模型的预测误差进行比较,对各模型预测结果的准确性进行检验。
根据组合预测效果评价的原则,按照式(5)~(9)分别计算各预测模型的5项误差指标,结果见表7和8。
从5项误差指标结果看:本文建立的基于IOWA算子组合预测模型的5项误差值均小于灰色Verhulst模型和灰色马尔科夫预测模型的5项误差值;全国水上交通事故预测的效果优于长江某流域水上交通事故预测的效果。全国与长江某流域预测效果的差别与数据的波动性不同存在一定的关系,但综合比较其他的预测方法,本文建立的组合预测方法在整个预测过程中预测性能最佳。
4结论
较为准确地预测水上交通事故数量对水上交通风险的防控具有重要的指导作用。灰色模型能够反映水上交通事故的整体发展趋势,再通过引入新的弱化算子降低原始数据序列的波动性,其适用性更好。支持向量机能从未知分布的小样本中抽取最大的有用信息,解决样本空间中的高度非线性分类和回归等问题,利用回归做预测能取得很好的预测效果。本文通过构建基于诱导有序加权平均(IOWA)算子的组合预测模型,克服了传统的组合预测模型中各单一预测模型在整个时间序列区间上赋权系数不变的局限。通过对全国和长江某流域水上交通事故数量的预测,进行全局和局部实例分析,证实本文所构建的组合预测模型能有效降低预测误差,可作为水上交通事故预测的一种新方法。
参考文献:
[1]WU Chaozhong, MA Lili, ZHANG Baogang, et al. Study on indicators choosing for navigation safety assessment of Three Gorges Reservoir Areas based on Delphi method[C]//2009 AsiaPacific International Conference on Information Processing, 2009(2): 282285.
[2]BEZUGLOV A, COMERT G. Shortterm freeway traffic parameter prediction: application of grey system theory models[J]. Expert Systems with Applications, 2016, 62: 284292.
[3]陳咫宇, 胡甚平, 郝严斌. 基于分形理论的水上交通事故预测[J]. 上海海事大学学报, 2009, 30(3): 1821.
[4]赵佳妮, 吴兆麟. 基于灰色马尔可夫模型的水上交通事故预测[J]. 大连海事大学学报, 2005(4): 1720.
[5]牛佳伟, 李连博. 灰色加权理论在海损事故分析与预测中的应用[J]. 中国航海, 2016, 39(3): 6367.
[6]陈海山, 危强. 灰色Verhulst模型在水上交通事故预测中的应用[J]. 中国航海, 2013, 36(2): 6769.
[7]李铃铃, 仇蕾. 基于灰色神经网络组合模型的水上交通事故预测[J]. 交通信息与安全, 2014, 32(3): 111113. DOI: 10.3963/j.issn.16744861.2014.03.022.
[8]孙轶轩, 邵春福, 计寻, 等. 基于ARIMA与信息粒化ARIMA组合模型的交通事故时序预测[J]. 清华大学学报, 2014, 54(3): 348353. DOI: 10.16511/j.cnki.qhdxxb.2014.03.004.
[9]薛明浩, 端木京顺, 甘旭升, 等. 基于DS证据理论的飞行事故预测模型[J]. 安全与环境工程, 2015, 22(3): 117121. DOI: 10.13578/j.cnki.issn.16711556.2015.03.022.
[10]刘香云. 基于灰色关联度的道路交通事故组合预测方法研究[D]. 北京: 北京交通大学, 2015.
[11]陈昌源, 戴冉, 冯纪军, 等. 改进灰色模型在海上交通综合安全指数预测应用[J]. 中国航海, 2017, 40(1): 5863.
[12]陈昌源, 戴冉, 牛佳伟, 等. 改进的灰色理论在海上交通事故预测中的应用[J]. 船海工程, 2016, 45(6): 6771. DOI: 10.3963/j.issn.16717953.2016.06.015.
[13]CHEN Yibo, TAN Hongwei. Shortterm prediction of electric demand in building sector via hybrid support vector regression[J]. Applied Energy, 2017, 204: 1363137.
(编辑赵勉)