基于神经网络集成的财务舞弊识别方法

    高媛媛

    摘 要:为提高财务舞弊识别的精确度及泛化能力,本文以Spss Modeler14.2为平台,利用bagging和Boosting算法构建神经网络集成分类器,建立财务舞弊识别数据流,并对结果进行了分析。结果表明,Boosting算法构建的神经网络集成分类器精确度高,泛化能力强,能更有效的识别财务舞弊。

    关键词:财务舞弊;神经网络集成;Bagging;Boosting

    0 引言

    近年来上市公司的财务舞弊案频繁发生,打击了公众对上市公司和资本市场的信心,成为资本市场健康发展的一块顽石,因此寻求有效并能迅速识别舞弊的方法成为资本市场和会计执业界面临的问题之一。随着人工智能和计算机技术的发展,许多数据挖掘算法应用到财务舞弊识别领域,神经网络由于对数据分布假设没有要求,且非线性拟合能力较强,这使得其在舞弊识别方面具有较强的适用性。国外应用神经网路识别财务舞弊的研究开展的较早,Ethridge和Brooks早在1994年就提出人工神经网络是甄别管理舞弊的理想方法[1]。Green和Choi (1997)利用原始财务数据建立神经网络(ANN)舞弊判别模型[2]。Lin、Hwang和Becker (2003) 融合模糊回归、神经网络等方法构建了集成的模糊神经网络[3]。国内学者的代表性研究主要有:梁杰等(2006)提出了模糊神经网络混合模型[4]。刘君、王里平(2006)建立径向基概率神经网络的财务舞弊识别模型[5]。蔡志岳和吴世农(2006)证明遗传神经网络预测准确度高于逻辑回归模型和BP神经网络预测模型[6]。

    从上述研究可以看出前人的研究主要采用单一分类器构建模型,在实际应用中单一分类器存在一些缺陷,如分类精确度较低、预测性能不稳定等问题。针对财务舞弊识别建模数据样本量较少、数据维度高、信噪比低等诸多难题,本文提出采用神经网络集成的思想来提高舞弊识别模型的泛化能力和预测效果。

    1 神经网络集成

    根据1996年Sollich和Krough的定义:“神经网络集成是用有限个神经网络对同一个问题进行学习,集成在某输入示例下的输出由构成集成的各神经网络在该示例下的输出共同决定”[7]。简单来说,通过建立多个神经网络并将其结论结合,以提高学习系统的泛化能力。在生成集成的个体网络方面,Bagging和Boosting是集成学习中两种常用的算法。

    1.1 Bagging 算法

    Bagging 是1996年Breiman在Bootstrapping和aggregating概念的基础上提出的。Bagging算法的核心思想是可重复取样。该方法通过对原始数据集进行放回抽样,产生训练数据集的副本,创建大小与原始数据集相同的 bootstrap 样本。然后,在每个副本上构建“成分模型”,得出预测函数序列,最终的预测结果将按照一定的集成方法来得到。

    2 实证检验

    2.1 研究设计

    本文以Spss Modeler 14.2为建模平台,首先利用Pearson相关算法对舞弊识别指标进行特征选择,形成次优特征集,在此基础上利用Bagging算法和Boosting算法构建神经网络集成分类器作为挖掘模型,建立舞弊识别数据流。Spss Modeler 14.2的神经网络建模工具是一种完全的黑盒模型,不需要自己构建数学函数,完全通过机器的学习完成建模。

    2.2 样本选取

    本文所用数据来源于国泰安上市公司数据库,选取2008~2012年因虚构利润、虚列资产、误导性陈述、重大遗漏、推迟披露等原因被证监会、上交所、深交所公开处罚的违规样本作为舞弊样本,以与舞弊样本相同行业、相同年度、相近规模为标准选取非违规公司为配对样本。共获得样本1100个。

    2.3 指标选择与数据预处理

    (一)舞弊识别指标

    舞弊识别指标通常作为舞弊识别的分类特征,因此甄选适当的识别指标是构建模型的前提。根据以往的研究经验,财务指标被普遍应用,并证明在舞弊识别方面是有效的。此外,会计信息的真实性有赖于公司外部监督和内部治理机制的保障,因此研究选择了涵盖企业偿债能力、营运能力、盈利能力、发展能力、风险水平、现金流量能力等方面的财务指标;同时也将选择公司治理、股权结构、审计意见等非财务信息指标作为舞弊识别的备选指标。具体如下:

    (1)偿债能力:资产负债率、利息保障倍数、营运资金与借款比、产权比率、流动比率、速动比率、现金比率、营运资金比率

    (2)营运能力:存货周转率、存货与收入比、应收账款周转率、应收账款与收入比、总资产周转率

    (3)盈利能力:营业毛利率、息税前利润与营业收入比、资产报酬率、总资产净利率、净资产收益率、管理费用率、财务费用率、销售费用率

    (4)发展能力:应计项目总资产比、总资产增长率、利润总额增长率、营业收入增长率、每股收益增长率

    (5)风险水平:财务杠杆系数、经营杠杆系数

    (6)现金流量能力:营业收入现金比率、自由现金比率、营运指数

    (7)公司治理指标:董事长与总经理兼任情况、董事会会议次数、监事会会议次数、股东大会会议次数、

    (8)股权结构:股权集中度、控制权竞争程度、高管持股比

    (9)外部监督指标:审计意见类型、会计师事务所变更

    (二)数据预处理

    由于原始数据存在缺失的情况,会对深层次数据分析和构建模型带来不利影响,因此在进行指标筛选前要对数据进行清理。删除缺失值比例大于30%的特征变量,对于缺失比例较小的变量,连续类型的变量利用均值对空值进行插补,标志类型的变量则将整条个案删除,形成建模的样本数据。每股收益增长率因为缺失比率超过30%被过滤出去,最终共39个特征变量,1056条记录(其中舞弊样本597个,非舞弊样本459个)形成建模数据。

    (三)特征提取

    在建模之前首先对舞弊识别备选指标进行筛选。常用的对指标进行降维的方法包括两类,一是选择指标的子集来代替原有的指标体系;二是对原有指标进行变换转化成新的综合性指标,如主成分分析[8]。研究首先选择了主成分分析法,利用SPSS对建模数据进行主成分分析,KMO和Bartlett检验值为0.569(<0.7),提取公因子14个,累计贡献率66.86%,由此看来利用主成分分析会损失部分信息,所以本文采用子集选择法筛选指标。利用Spss Modeler14.2的征选择节点,选择Pearson相关性分析对备选指标筛选,将重要性大于0.9的指标作为次优特征集,如表1所示。

    2.4 建模及结果分析

    利用Spss Modeler的“分区”,按照5:5的比例将样本随机划分为训练分区和测试分区。在本文中,将单一神经网络、boosting神经网络分类集成与bagging神经网络分类集成进行对比实验。实验中,采用3层MLP神经网络结构。首选确定神经网络隐含层节点的数目。隐含层的节点数太少,则神经网络学习误差大,泛化能力差;隐含层节点数目太多,则会延长网络的学习时间,且学习过程“记住”噪音等非规律内容,网络易出现过度拟合现象,即系统可以很好地拟合训练数据集,但泛化能力很差。对隐含层节点数目的确定理论上没有很好的方法,通常由实验测试得出,通过反复实验发现隐含层节点为6个时性能较好,由此神经网络的结构为输入层19个节点,隐含层6个节点,输出层1个节点。选择Spss Modeler建模中的“神经网络”进行设置,具体参数如下:

    (一)字段选项:“目标”选择“舞弊否”字段,“预测变量”对应特征选择后的19个财务及非财务指标值。

    (二)构建选项:

    (1)“目标”选择“创建新模型”建立单一分类器;选择“增强模型的准确性”创建boosting分类器集;选择“增强模型稳定性”创建bagging分类器集;

    (2)“基本”中设置神经网络模型为MLP,隐藏层设置为1层,自定义单元数目为6;

    (3)“停止规则”中设置停止时间为5.0分钟;

    (4)“整体”中设置分类目标的合并规则为“投票”方式,用于Bagging和Boosting的组件模型数量为15个;

    (5)过度拟合防止集合百分比为30%。

    (三)其他参数采用系统默认值

    在Spss Modeler中构建舞弊识别与检验模型数据流,检验结果如表2,单一神经网络能够识别财务舞弊,在训练集和测试集上表现稳定,但是精确度较低;Bagging算法和Boosting算法的精确度都高于单一神经网络的精确度,Boosting算法构造的神经网络集成分类器精确度高于bagging算法构造的集成分类器,但其稳定性略逊于bagging算法构造的集成分类器。

    3 结论

    由于公司舞弊受到多种因素影响,且作用机制复杂,运用单一神经网络较难提高舞弊识别的精确性和稳定性。因此本文提出应用神经网络集成技术对识别财务舞弊进行识别,以克服当前识别财务舞弊建模过程中存在的样本量少,维度高、非线性、噪音干扰以及数据缺失等诸多难题。本文以Spss Modeler 14.2 为平台,采用Bagging和Boosting算法建立模型,结果表明Boosting算法构建的神经网络集成精确度最高,稳定性较强,优于Bagging算法构建的神经网络集成和单一神经网络模型。

    参考文献:

    [1] Etheridge,Harlan L.,Richard C. Brooks. Neural Networks: A New Technology[J]. The CPA Journal, 1994, 64(3):36 - 39,52 - 55.

    [2] Green B.P.,Choi J.H.. Assessing the risk of management fraud through neural network technology[J]. Auditing: A Journal of Practice &Theory;,1997,16:14-28.

    [3] Jerry W. Lin,Mark I. Hwang,Jack D. Becker,A Fuzzy Neural Network for Assessing the Risk of Fraudulent Financial Reporting[J]. Managerial Auditing Journal,2003,18(8): 657-665.

    [4] 梁杰,位金亮等. 基于神经网络的会计舞弊混合识别模型研究[J]. 统计与决策,2006(2):152-153.

    [5] 刘君,王里平. 基于概率神经网络的财务舞弊识别模型[J]. 哈尔滨商业大学学报,2006(3):102-205.

    [6] 蔡志岳,吴世农. 基于公司治理的信息披露舞弊预警研究[J]. 管理科学,2006,19(4):79-90.

    [7] Sollich P, Krogh A.Learning with ensembles: How over-fitting can be useful[M]. Advances in Neural Information Processing Systems 8.MA: MIT Press,1996: 190-196.

    [8] 习勤,米帅军. 指标筛选技术在神经网络数据挖掘中的应用[J]. 统计与决策,2011(10):163-165.

相关文章!
  • 融资融券对日历效应的影响:来

    王璐摘 要:过去的研究表明,中国股市的运行效率受到政府监管与干预并存在非对称交易的现象。2010年3月31日,中国股票市场实行了融资融券

  • 小桥老树的“官场江湖”

    张凌云凭借一部《侯卫东官场笔记》,他红遍大江南北,接连几年闯入国内作家富豪榜;他神龙不见首尾的低调一度引发全国大搜索。因他的作品而

  • 公司治理、内部控制对盈余管理

    金玉娜柏晓峰摘 要:按照形成原因——作用机理——解决机制的路径,对抑制盈余管理有效途径的实证研究表明:机会主义偏误和技术性错误是盈余