季节性ARIMA模型对社会消费品零售总额的建模和预报

    肖学培

    

    

    

    摘 要:近年来,我国消费品市场总量不断扩大,消费持续发挥着经济增长第一驱动力的作用。时间序列领域,季节性ARIMA模型是一种较为有效的预报模型。本文对近年的社会消费品零售总额做简要的分析并通过建立季节性ARIMA模型来预测2019年各月的社会消费品零售总额情况。

    关键词:社会消费品零售总额;季节性ARIMA模型;预报

    0 引言

    2019年春节期间,“车厘子自由”这个话题引起了人们相当高的讨论度。网友们把随心所欲消费高端水果的能力称之为“车厘子自由”。曾经作为高价水果代表的进口车厘子,今年频频出现在了三、四线城市老百姓的餐桌上,成为了消费升级的典型样本。来自国家统计局的数据显示,2018年社会消费品零售总额超过38万亿元,市场总量稳步增加,扣除价格因素实际增速达6.9%。社会消费品零售总额指的是国民经济各行业直接售给居民住户和社会集团的消费品总额,能反映出居民生活水平、社会零售商品购买力等的情况。本文将对近年的社会消费品零售总额情况做简要的分析并通过建立季节性ARIMA模型来预测2019年各月的社会消费品零售总额情况。

    1 社会消费品零售总额

    社会消费品零售总额的定义是企业通过交易直接售给个人、社会集团,非生产、非经营用的实物商品金额,以及提供餐饮服务所取得的收入金额。社会消费品零售总额既包括售给个人用的生活消费品和修建房屋用的建筑材料,也包含售给社会集团用作非生产、非经营的商品,不包括企业用于生产经营、固定资产投资所使用的原材料、燃料和其他消耗品,也不包括城市居民用于购买商品房的支出和农民用于购买农业生产资料的支出。[1]

    近年来,网上零售业发展迅猛。随着智能手机的普及以及电商在三四线城市的下沉式发展,网络零售市场持续扩大。社会消费品零售总额包括实物网上零售额,但不含非实物商品网上零售额。2015年,实物商品网上零售额占社会消费品零售总额已达到15%,2018年占比18.4%,其零售额同比上年增长25.4%。

    随着消费市场总量的稳步提升,消费对经济增长的贡献率不断提高。目前,社会消费品零售总额是表现国内消费需求最直接的数据。但社会消费品零售总额不能反映除餐饮外的服务性消费的支出情况。而旅游、文化、信息等服务消费这几年较快增长,国内整个消费形态由实物向服务型消费转变。在这样的形势下,社会消费品零售总额对全社会消费趋势变化的贡献正在减弱。

    2 季节性ARIMA模型对社会消费品零售总额的预测

    2.1 模型的理论知识

    在时间序列分析领域,Box-Jenkins提出的ARMA模型、ARIMA模型以及季节性ARIMA模型提供了比较有效的手段来对实际问题做建模和预报。虽然它们可能不是最优的,但它们的适应面和手段比较广,容易掌握,且预报结果也有一定准确性[2]。

    2.2 建模

    此次分析的数据来自国家统计局官网,2000~2018年各月的社会消费品零售总额的当期值。由于各年1~2月的当期值未被公布,因此我们目前共有19×10=190个样本数据。使用的软件是R。作以时间为横轴,消费量为纵轴的时序图,呈明显的上升趋势。可以看到各年社会消费品零售总额当期值有几个明显的变化趋势。从2015年开始,10、11月的当期值出现了较明显的提升,而2015年的时候,10月当月零售总额还远低于12月的数值,相信是受到了国庆假期、“双11”的影响迎来的消费潮。另外,2012年起社会消费品零售总额呈现3月增长4月回落的模式,4月基本是每年数量最低的月份。

    对于各月的零售总额这一时间序列,其自相关系数图呈现明显的拖尾性,即非平稳的。为了消除这种趋势,做一阶差分。为消除季节相关,进一步做周期为10的季节差分。从图2看,序列基本平稳。

    用软件做一下单位根检验,看一下是否存在单位根来测试序列的平稳性,经检验,在5%显著性水平下拒绝存在单位根,因此可以说,经过一阶差分及季节差分后的时间序列满足平稳性。

    现在我们有d=1,D=1,s=10,接下来需要确定阶数p,q,P,Q的值。一般我们可以根据平稳时间序列的自相关和偏自相关图来确定。对于MA(q)模型来说,其自相关函数是q步截尾的;对于AR(p)模型来说,其偏自相关函数是p步截尾的。从图2看,可以认为p=2,q=2,从Lag10,20的位置来看,可以认为P=2,Q=2,从而选择模型ARIMA(2,1,2)×(2,1,2)10。可以发现,这种确定方法较为主观,面对同样的问题,往往可能会有多个模型适用。我们还可以根据信息准则来确定模型。有几种信息准则可以使用,比如赤池信息准则,即AIC信息准则,AIC的校正版AICc准则,以及贝叶斯信息准则,即BIC信息准则。其统计量如下:

    这些准则所遵循的统计思想基本都是选择最好的解释数据但包含更少自由参数的模型,即选择统计量更小的模型。

    这里用R软件中的auto.arima函数来自动确定p,d,q,P,D,Q。auto.arima函数会通过选取最小AIC、AICc、 BIC的值来确定模型,最终选择的模型是ARIMA(2,1,2)×(2,1,2)10。auto.arima函数默认先用条件最小二乘法求参数的初始值,然后再用极大似然估计法求得参数,最终得到φ1=-0.1844,φ2=-0.2559。

    对于季节性ARIMA模型,其残差必须满足白噪声序列,因此还需要对残差的估计序列进行检验,如果不是白噪声,那么其拟合是有问题的。我们做Ljung-Box检验,LB统计量用来检验样本的多个自相关系数是否同时为0,以判断序列总体的相关性是否存在。做滞后1-10的检验,Ljung-Box统计量的p值为0.6,修正后的Ljung-Box统计量的p值为0.4[4],因此没有证据说明残差存在着显著的前后相关性,可以认为其符合白噪声序列。

    2.3 预报

    3 总结

    通过上面的分析和预报,我们看到各月的社会消费品零售总额当期值存在明显的季节性波动。一年之中整体呈上升趋势,近四年来都保持着4月零售总额较低,7月小幅回落,10月迅速增长的模式。数据波动的背后都有复杂的社会因素,有的有规律可循,有的属于偶然突发。季节性ARIMA模型的预报是基于一定规律下的预测,无法应对外生的随机干扰。对国民经济发展趋势进行分析,除了要善用模型,还要对市场发展、政策形势有足够深入的了解。

    参考文献:

    [1]国家统计局官网:贸易统计,2018.

    [2]谢衷洁. 应用概率统计研究实例选讲.北京大学出版社,2011.

    [3]Gerda Claeskens. Model Selection and Model Averaging. Cambridge University Press,2008.

    [4]Ruey S.Tsay. 金融數据分析导论:基于R语言.机械工业出版社,2013.