数据分析挖掘技术在审计中的运用
廖智玮 袁静
摘? 要:随着信息化水平的不断提高,被审计单位的数据呈现出海量化趋势的特征,数据分析方法和分析工具也层出不穷,能够直接运用到审计实践的方法和工具同样比较多。熟悉各种工具的优缺点和适用范围,有利于审计人员在不同审计环境下选择合适的方法和工具进行审计工作,同时可以辅助审计人员在海量数据中发现疑点,为数据式审计提供重要途径。
关键词:数据审计;数据分析挖掘;方法工具
随着信息化水平的不断提高,被审计单位数据海量化的趋势越来越凸显。运用大数据分析技术,探索被审计单位数据海量化形势下适当的审计方法和应用技巧,是当前审计工作领域面临的重要挑战。数据分析作为一种新的计算机审计方法,熟悉并掌握数据分析技术,能够辅助审计人员在海量数据中发现疑点,可为数据式审计提供重要途径。
常用的数据分析挖掘方法
数据分析挖掘方法有很多种,如聚类分析、关联分析、序列模式等,下面将逐一介绍。
1.聚类分析,或称分类分析、数值分类,指將集合按照类似原则把具体对象分组为多个类的过程。如在对物资采购业务进行审计时,为检查采购业务各环节的内部控制执行情况,可以用聚类分析方法将被审计单位的所有采购业务,并按相似特征进行分析,而不需要逐一鉴别采购业务,以此达到减少重复工作的同时提高审计工作效率的目的。
2.关联分析,或称关联挖掘,指在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。如在对某产品成本核算进行审计时,面对海量的人、材、工、费等众多数据,可采用该方法分析发现产品生产数据之间的关联性,并结合存货盘库、出入库记录等数据信息,推断出产品成本是否合理。
3.序列模式,指挖掘相对时间或出现频率高的方法。如在对某单位经费管理进行审计时,可利用序列模式挖掘出被审计单位经费账目数据中,一些经常以某种规律出现的事件序列模式,通过分析这些频繁发生的时间序列模式,可帮助审计人员发现其中的异常现象。
常用的数据分析挖掘工具
当前可用的数据分析挖掘工具比较多,常见的有K- Miner、Excel、SQL Server、IBM SPSS 等。
1.Excel软件工具。Excel是审计人员最为熟悉和接受程度较高的软件,以其简单性、易操作性在计算机审计工作中已经得到了广泛应用。除了基本的统计分析,借助Microsoft公司为 Excel2007以后版本提供的外接程序Dmaddin.msi,还可以进行数据分析挖掘。
2.SQL Server分析服务。Microsoft SQL Server分析服务是与数据库SQL Server 服务并列的服务,其整合了后台数据库服务和前台商业应用程序,充分发挥了数据库服务器对关系数据的管理能力和分析服务对数据分析挖掘结构的管理能力。审计人员可以通过导入、导出数据工具以及查询分析器,进行对数据的清洗、转换和抽取等步骤。
3.IBM SPSS软件工具及SPSSAU。SPSS是IBM公司推出的“统计产品与服务解决方案”软件,也是目前运用比较广泛的一款工具。另外,北京青丝科技有限公司开发了网页版数据科学算法平台工具——SPSSAU[[[]北京青丝科技有限公司.帮助手册[DB/OL].https://spssau.com/front/spssau/index.html.]],该平台工具包含了IBM SPSS软件的大部分功能,但其操作更加简单、分析更加智能,只需导入数据,即可实现“傻瓜式”操作,对于没有SPSS软件运用基础的审计人员而言是一种更好的替代工具。
4.神通K- Miner。该软件是神舟通用数据技术有限公司的商务智能数据分析挖掘工具,以数据挖掘标准CRISP-DM为基础,可对数据分析挖掘过程进行扩展和增强,使得审计人员能够建立和实施以模型生命周期管理为核心的审计数据分析挖掘项目。
5.Python程序设计语言。Python是一种面向对象的动态类型计算机程序设计语言,因其数据处理速度快、功能强大且简单易学,在数据分析与处理中被广泛应用。Python拥有IPython、NumPy、SciPy、pandas、Matplot-lib、scikit-learn和Spyder 等功能齐全、接口统一的数据库,能为数据分析工作提供极大地便利。
数据分析挖掘的基本步骤
数据分析挖掘的基本步骤包括:数据收集、数据预处理、选择方法工具、建立模型、评估模型及运用。
1.收集原始审计数据。收集原始审计数据的前提是要明确审计目标以及审计的重点内容,在此基础上采集内部数据和外部数据,常用方法包括数据接口采集、直接复制以及通过备份文件恢复等。内部数据指被审计单位信息系统中的电子数据,如财务系统数据、业务流程数据等。外部数据指与被审计单位业务相关的其他数据,如银行流水、企业信息、政府指导价等。
2.数据预处理。由于收集到的原始数据中既可能包含有价值的审计数据信息,还可能包含噪声信息,因此要对原始审计数据进行预处理。通过对审计数据进行清理、集成、变换和归约等处理,可以大大提高数据质量,提高审计分析的挖掘效率。
3.选择分析方法工具。在对数据进行预处理后,审计人员应该根据获取的数据,结合需要审计的业务类型,选择适当的分析方法和工具。比如,需要对某个单位的车辆维修费用进行审计,在收集到车辆数量、维修开支明细、车辆保险等数据后,初步判断可以采取数据分挖掘中的关联分析法,然后再选择较为简单的Excel进行分析,或者利用SQL Server直接实现导入数据、分析数据、输出结果的“一条龙”操作。
4.建立分析挖掘模型。该步骤是数据挖掘的核心,由于建立模型并不是一蹴而就能完成的,需要模型设计人员和审计人员不断尝试各种分析挖掘技术方法,总结出其中的规律,从而选择合适且安全的模型。
5.模型评估及运用。可以采用与现在使用的数据非常相似的历史数据,或将数据分成训练集和测试集两组,第一组用来训练或评估模型,即用于建立模型,之后使用第二组数据来测试模型,即测试集用于验证模型。当训练和测试周期完成之后,再利用一部分真实数据进行检验,主要检查模型得出的数据误差率是否在可接受的范围内。如果数据误差率超过可接受范围,则需要重新评估分析方法、工具、已建立的模型和数据源等,直到数据误差率达到可接受范围之内。