标题 | 上市公司财务危机预警研究 |
范文 | 张志敏
[提要] 本文以A股上市公司作为研究对象,运用python中的sklearn模块,以随机森林算法对上市公司财务危机预警指标进行选取,并与依据显著性相关性选取出的指标进行对比,找出两者在指标选取上存在的差异,并依据选取的财务指标分别建立随机森林模型;与此同时,还分别构建Logistic回归模型、SVM支持向量机模型、决策树模型,并进行展开比较。分析表明:充分利用随机森林展开上市公司财务危机预警研究比传统的方式更准确,更能够精确预判上市公司财务危机。 关键词:特征递归消除;随机森林;logistic回归;财务危机预警 中图分类号:F23 文献标识码:A 收录日期:2020年7月2日 一、引言 近年来,我国A股市场每年都会出现许多被特殊处理的公司,且上市公司在资本市场上占有很重要的地位,因此,对上市公司的财务危机预警展开研究有着重要的战略意义。上市公司作为推动经济发展的重要主体,对其进行财务危机预警规避财务风险显得尤为重要,出现财务危机既不利于公司的稳定发展,还减少了经营管理者及投资人的合法利益,通过财务危机预警分析模型可以对公司财务展开预估,给扭转财务危机局面提供充裕的空间,减少公司倒闭的概率。随着机器学习算法、大数据、人工智能的发展,越来越多的学者将其引入到风险识别及危机预警中,并有研究表明机器学习算法在风险识别及危机预警方面具有较大的优势。 二、随机森林概述 随机森林算法是有由Leo Breiman和Adele Cutler(2001)最早提出的,是一种集成学习算法,它将不同的决策树进行组合,利用这种组合降低单一决策树有可能带来的片面性和判断不准确性,它也是目前机器学习算法和数据挖掘算法最为热门的研究领域之一。他的基本思想是:首先利用Bootstrap重抽樣方法从N个原始训练样本中抽取n(n 本文会用到随机森林的一大特点,即利用OOB评估来评估模型的分类效果。所谓OOB评估是指:当采用Bootstrap重抽样方法时,原始训练样本中每个样本未被选取的(1-1/N)N,N表示训练集样本的个数。当N足够大时,根据重要极限的推到,(1-1/N)N将近似收敛于1/e≈36.8,这表示原始训练集中会有将近37%的样本不会出现在Bootstrap样本中,这些数据被称为袋外数据。由于有接近37%的误差不会出现在训练集中,所以OOB数据也可以起到测试集作用,检验模型预测效果。 另外,本文还利用随机森林模型的另一个特点变量重要性的度量来对原始变量做筛选,从而建立合理的指标体系。 鉴于以上对随机森林的介绍,本文建立基于随机森林遗传算法的财务危机预警模型。在已有文献研究中,充分利用组合分类算法进行研究的学者还较少,而随机森林作为一种集成学习算法,具有不易过拟合、善于处理高维度数据、对存在噪声和缺失的样本具有很好的鲁棒性、具有较高的预测精度等优点。 三、研究样本、研究变量和研究设计 (一)研究样本。为保证数据的真实性和可靠性,所选数据全部来自于国泰安数据库。以公司是否被特殊处理即是否被ST及*ST为标识,选取2019年首次被特殊处理的82家公司及1990~2019年上市以来从未被特殊处理过的2,859家公司为研究对象。由于企业在第T年被宣布ST或者*ST是由于公司在第T-1年及第T-2年财务上出现较差的情况,所以选用公司在第T-3年财务数据指标基础上进行建模,当公司在2019年被特殊处理时赋值为1,否则赋值为0。即,选择2,941家样本公司在2016年所有可以获取的财务数据指标进行建模。 (二)研究变量。财务危机预警模型包含两个主要工作:一是从初始财务指标中筛选出危机预警指标,即存在财务危机的企业都含有怎样的特征组合;二是进行预警模型算法的选择。前者是对企业财务危机预警信息进行深层次的挖掘,后者是对财务危机预警算法技术的应用,两者同时对企业财务危机预警产生影响。目前,危机预警理论还缺乏系统的理论支持,学者们对企业危机预警的研究大都是从可获得的实际数据出发,采用实际经验进行研究讨论,用试错的方法,逐个考察变量的组合在实际训练样本数据中的体现,挑选出能够突出判断能力的变量组合来构建最终的预估分析模型。 本文借鉴已有学者的研究,选取了能代表企业偿债能力、经营能力、盈利能力、发展能力、企业现金流量、比率结构这六类指标下29个具体的财务指标,具体变量如表1所示。(表1) (三)随机森林模型的构建。分析预警模型构建之前应该对于数据展开预处理,包括异样系数缺失系数的处理、训练样本不太平衡的处理、经济指标正态性检验、相关性显著性检验。 1、样本缺失值异常值的处理。对于缺失值,一般可以选择用这一列数据的“平均值”、“中位数”、“众数”进行填补,也可以对缺失数据进行整行删除。但由于本文是以机器学习算法进行建模,是在大数据的基础上进行建模,如果样本量过少,会造成模型精度的降低,所以对于缺失值,本文没有进行删除,而是以样本均值对缺失值进行填补。 2、类别不均衡的处理。由于2019年首次被ST公司只有82家,只占所选样本的2.8%,出现数据偏斜,即样本不均衡。样本不均衡会造成样本量低的分类所包含的特征过少,并很难从中提取规律,即使得到分类模型,也很容易产生过度依赖于有限的数据而导致过拟合的问题,当模型应用到新的数据上时,模型的准确性将会很差。本文通过利用python中的SMOTE算法对样本不均衡进行过采样处理。SMOTE算法的基本原理为:合成新的少数类样本,合成的策略是对少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。进行SMOTE处理后的样本分布如图2。(图1、图2) 3、随机森林模型的构建。在构建危机预警分析模型时,不能将所选用的所有初始财务指标均作为预警模型的输入变量,倘若初始指标很多,反而可能由于指标间的相关关系等问题降低模型的预测性能。 特征递归消除的随机森林算法(RFE-RF)把需要的特征集合初始化为整个数据集合,每次去掉一个排序准则分数最小的数据,直到取得最后的特征集,由此可知RFE-RF应是一个基于RF的最大间隔原理的序列后向选择算法。 在本文中,首先根据各指标对模型的贡献程度进行排序,可以看到排在最前面的指标即贡献度最大的指标为X27全部现金回收率,排在最末尾的是X16营业利润率。然后,我们利用python中的序列后向选择算法逐一删除指标,并计算出在该指标下的模型精确度。由图3我们可以看出,当随机森林的输入变量为9个时,此时所挑选的指标最少且模型的精确度较高,由图4我们可以看出,每个指标对上市公司危机预警的重要程度及重要性排名。(图3、图4) 本文选取图4中排名前9位的财务变量作为随机森林的输入变量,分别为X27、X5、X28、X4、X13、X26、X8、X24、X6,模型的输出结果为0.95979,说明他的识别精度为0.95979。 4、进一步检验。为了进一步验证随机森林在进行上市公司财务危机预警时的准确性,本文又进行了进一步的研究。在选择企业财务预警指标时选用传统的相关性显著性方式选取指标,比较其与充分利用随机森林展开指标选取时的差异,进而进一步验证随机森林的精确性。 (1)财务指标的正态性检验。在展开显著检验之前,应当考察样本的分布情况,并以此来确定使用哪种方法来进行预警指标的差异显著性检验。本文使用算法来做K-S检验,来判断各个财务指标是否服从正态分布,检验结果在所有的P值均小于0.05,说明所有的财务指标均不服從正态分布。对于不遵从正态分布的财务指标的差异显著性检验应当选用非参数的检验方法。 (2)财务指标的差异显著性检验。选用Mannwhitneyu检验法,对2个独立样本进行非参数检验。找出对于分辨ST公司和非ST公司有贡献的财务指标。检验结果如表2所示。可以看出,财务指标X1、X2、X3、X4、X5、X6、X7、X8、X10、X12、X14、X15、X16、X23、X24、X26、X28的P值均小于0.05,通过了显著性检验,剩余其他指标均予以剔除。(表2) (3)财务指标的相关性显著性检验。通过Mannwhitneyu显著性检验的指标可能存在相关关系,且本文的财务指标数据均不服从正态分布,因而本文选择用斯皮尔曼相关性检验方法。通过检验,发现X1、X2、X3具有高度关联性,去掉X2、X3;X4、X5具有高度关联性,去掉X5;X7、X8具有高度关联性,X8、X10具有高度关联性,去掉X8;X12、X14、X15、X16具有高度关联性,去掉X1、X15、X16;X23、X26具有高度关联性,去掉X23。最后剩余的指标为X1、X4、X6、X7、X10、X12、X24、X26、X28。其中,X1、X4为偿债能力指标,X6、X7、X10为经营能力指标,X12为盈利能力指标,X24、X26为发展能力指标,X28为企业的比率结构。 (4)随机森林模型的构建。将通过显著显著性检验的指标输入到随机森林中建模,得到模型的识别精度为0.94732。将此结果与利用随机森林的递归特征指标筛选法筛选的指标的建模结果进行比较,发现利用随机森林筛选出的指标识别率更高些,而且利用随机森林筛选特征更简单些。 四、模型比较 现阶段,关于危机预警的分析模型已有很多,但是以往的分析模型一多半采纳的是多元线性判断分析模型,少部分开始采纳机器学习算法分析模型,如决策树模型、支持向量机模型等,因此为了进一步验证随机森林在危机预警识别上的优势及准确性,本文又分别建立了Logistic、svm向量机、决策树模型。并比较各个模型在accuracy_score、precision_score、recall_score、f1_score、auc_score上的差异,其中accuracy_score表示模型精度,precision_score表示模型准确率,recall_score表示模型召回率,f1_score表示模型F1得分,auc_score表示ROC曲线下面积。(表3) 表3结果表明,在所有财务指标度量中,随机森林也体现出较高的精确性,从而意味着随机森林分析模型可以将尽量多的存有企业财务经营风险的公司找出来。 五、结论 本文的财务危机预警是针对我国A股市场所有上市公司开展的,在借鉴已有学者研究的基础上,从偿债能力、发展能力、经营能力、每股指标、盈利能力及比率结构这6个方面构建财务危机预警指标,并采用随机森林算法构建财务危机预警模型。一方面指标的选用对于企业财务危机预警具有至关重要的影响,本文统计已有研讨文献中选用频次较高的办法,一定程度上可以提升企业财务预警指标的可靠性。与此同时,研讨中不但考虑到预警的正确率,并且重点剖析了特性指标的选用,得知随机森林在妥善处理高维数据指标上具备很大的优势,而且通过实证得知随机森林遗传算法比Logistic回归、svm方程机、决策树分析模型更适合展开危机预警,原因是随机森林遗传算法是一种集成学习遗传算法,在对我国所有上市公司样本展开危机预警时,不但能够确保不会预警过分。另一方面对处于危机中的公司有较高的准确率。研究表明,随机森林算法在企业财务危机预警中具有较高的性能,为学术界进行危机预警及风险识别的研究提供了一种新方法,也为股东、债权人、企业经营管理者和监管层的决策分析提供了一种合理的技术手段。 主要参考文献: [1]石先兵.基于PCA-SVM的企业财务危机预警模型构建[J].财会通讯,2020(10). [2]张培荣.基于XGBoost模型的企业财务危机预警研究[J].财会通讯,2019(35). [3]宋彪,朱建明,李煦.基于大数据的企业财务预警研究[J].中央财经大学学报,2015(06). |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。