大数据时代下数据质量的挑战探析

    陈文娟

    【摘 ?要】数据质量是人们生活和企业发展的信息基础,推动着社会主义现代化的进程。大数据环境下的企业管理、数据存储和使用都发生了相应变化。通过数据传播和分析,企业可以就行业状态和国际趋势第一时间作出判断和部署,提高企业竞争力。所以,论文通过对大数据特点的分析,列举出大数据时代下数据质量存在的问题,并据此提出相应的创新方案,使大数据更好地应用和服务于现代企业。

    【Abstract】Data quality is the information basis of people's life and enterprises' development, which promotes the process of socialist modernization. In the big data environment, enterprise management, data storage and use have changed accordingly. Through data dissemination and analysis, enterprises can make judgment and deployment in the first time according to the industry status and international trend, so as to improve the competitiveness of enterprises. Therefore, through the analysis of the characteristics of big data, this paper lists the problems existing in data quality in the big data era, and puts forward corresponding innovation schemes based on these, so that big data can be better used in modern enterprises and serve them.

    【關键词】大数据;数据质量;管理分析

    【Keywords】big data; data quality; management analysis

    【中图分类号】TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文献标志码】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章编号】1673-1069(2020)09-0098-02

    1 引言

    网络信息技术的快速发展和应用,改变了人们获取信息和交流工作的方式,将人们带入大数据时代。但是,随着社会发展的快速变化和数据的高速更新,对数据的一致性和稳定性提出了更高的要求。所以,本文从流程环节、技术角度、管理方面三个维度进行研究,推动数据质量的管理,以应对大数据环境的挑战。

    2 大数据的特点

    2.1 量大

    TB、PB、EB、ZB是目前数据储存方面的专业计量单位,从TB到PB的跨越说明了数据体量不断增长的发展趋势[1]。据相关报告统计,部分企业的数据存储量已经超过7EB字节,用户在相关媒体设备上也有了6EB字节以上的新数据。还有报告指出,部分企业的日常交易数据高达2.5PB/h,社会整体数据量已经达到2.5EB/d,几乎呈几何式增长。可以说,当今社会处处都充斥着数据,这也是时代赋予企业的重大特征。

    2.2 高速

    大数据时代背景下,前一秒有用的信息可能下一秒就会“过期”,数据处于不断更新和完善的状态,这也是企业大数据发展和数据质量保障必须面临的问题[2]。可以说,互联网上每秒钟都在产生数据,且增长速度飞快,整体存储量也在不断扩大。

    2.3 多样化

    各行各业、不同设施设备每天都在产生数据,如社交平台上的文字、图片、视频,各信息系统中的实时数据等。随着网络信息技术的发展和新型产业的兴起,数据来源还在不断扩大。在数据类型方面,非结构化数据的出现丰富了数据方式,同时,对传统的存储技术和分析方式也提出了更高要求。

    3 大数据时代下数据质量存在的问题与对策

    3.1 流程环节

    数据质量管理包括收集、存储和使用三个环节,这也是一条数据完整的生命周期,所以流程环节的数据质量挑战也分为以下三个方面:

    第一,在数据收集环节,大数据的获取渠道通常较为复杂,数据结构也呈多元化趋势发展,企业要保障这一复杂环境下大数据的有效性和完整性,就需要较大的人力和物力支出。因为大数据的数量庞大及获取的渠道不尽不同,各信息间的差异性、矛盾性问题较为凸显。一般情况下,如果数据量较小,可以利用相应的筛选程序或人力资源进行数据的检测和定位,找到存在的问题数据,但是随着数据量持续扩大,这种方式显然是不合适的。获取环节数据的完整性、一致性是后期信息使用的重要保证,也是目前行业内面临的最大挑战。此外,数据“有效期”是数据质量管理中亟待解决的问题。

    第二,在数据存储环节,目前的数据呈现非结构化、非系统化发展趋势,原有的数据库技术和数据存储设备已经与大数据存储出现脱轨现象。在相关数据研究中,结构化数据是目前采取的主要运行模式,与之匹配的是传统的数据存储架构,而非结构化数据则不能直接进行存储,而是需要先进行结构转化以适应存储条件,这不仅增加了数据存储的时间,而且可能受转换方式的影响,破坏数据完整性和一致性。此外,非结构化的数据量正不断增长,随着视频、图片、音频等形式的迅速发展,非结构化数据在整体运营数据中的占比高达九成,数据结构的改变决定了存储架构随之进行创新和变革。

    第三,在数据使用环节,数据收集和存储的目的是最后阶段的分析和使用。大数据环境下,存在多数人对同一数据的选取、分析、整合和应用,这一阶段环环相扣,任一操作出现问题,都会改变大数据库中的信息有效性,进而影响企业的重大决策和方针制定。例如,企业对收集的数据没有及时进行处理和应用,作出重大决定时这些数据就可能“过期”了,这样制定的方案是不具有指导意义的。所以,企业应该着眼于数据的使用价值,在有效期内及时分析和应用,最大限度地发挥数据的价值,实现最后环节的质量把控,为企业抢先占领市场和提高自身竞争力提供信息支持。

    3.2 技术角度

    数据技术的发展和创新改变了数据的收集、存储和使用方式,为大数据质量保障提供技术支持。通过高效的数据分析和预测,市场情况、行业状态和企业发展现状都被直观、具体地反映出来,进而优化企业的决策和发展方式。但是如果数据质量得不到保障,这些优势都无法实现,甚至出现错误决定,为企业带来巨大的经济损失。

    一般规模较小的企业,流通的数据量也相对较少,所以大多數配备是关系型数据库。大数据背景下,数据不仅具有量大的变化,其结构类型也表现出多样化特点,非结构化数据的占比越来越高,由原来的单一化、简单化趋向复杂化、融合化,利用传统技术完成扫描和检测工作,所花费的时间往往较长,这就对数据技术的创新和管理提出了更高要求。所以大数据环境下,企业发展和运行需要更高效的处理速度和分析能力,需要通过改变原有的数据库技术、数据分析技术,来应对大规模数据的处理,以实现最短时间内完成检测和识别任务,进而达到数据质量保障的目标。

    大数据变革在国际上掀起了技术创新的浪潮,处于发展前端的数据公司就特别提出,非结构化数据和新型数据分析技术的引进将会成为企业提高自身竞争力的重要方式。相较国外,我国的技术革新起步较晚,大部分企业的规模和数据技术都相对落后,数据类型以结构化数据为主,使用的是与之匹配的存储、分析技术,对新的数据类型与数据分析技术的应用较少。

    3.3 管理方面

    数据质量不仅受到技术力量的影响,而且与企业管理的方向和重视程度有关。例如,高层管理者对相关技术研发的支持力度、技术分析人员的专业素养等。

    第一,在企业高层管理者方面。企业管理者要转变落后的思想观念,了解和重视大数据的发展,结合社会发展方向和企业经营状况制定相关的战略规划,健全管理制度和优化工作流程来确保大数据相关项目的开发和推进。如果企业管理者未能洞察大数据的价值和市场前景,在相应的政策扶持、资金支持、人员配备方面就会比较滞后,出现已经发现数据漏洞但是无力保证的局面,不仅会影响大数据效用的发挥,而且可能使企业流失掉大量客户,阻碍企业的可持续发展。所以,企业的重视和支持是大数据质量得以保障的重要动力。

    第二,在专业数据管理人员方面。大数据属于前沿科技,对专业人才的知识储备和技能要求比较高,同时,要求其了解企业的各项业务和管理政策,如经常提到的首席数据官(Chief Data Officer,CDO),CDO在大数据开发和应用、数据质量管理方面发挥着重要作用。企业应该引进CDO来管理大数据项目的运行,根据行业发展情况和国际趋势来制定并实施一系列的活动和方案。就国内目前的大数据发展情况而言,企业规模和数据处理量都相对较少,利用数据挖掘技术创造经济价值的情况也比较少,所以,大部分企业未重视相关人才的引进和储备,以至于数据规模较大的企业的管理成效一直较低,组织架构分散,部门地位被动化。此外,CDO的专业度较高,需要各种技能集于一身,属于稀缺类人才,在国内人才市场中处于缺失状态。国内企业的人才重视程度低、相关专业人才短缺都直接影响着大数据质量的管理和保障。

    4 结语

    数据质量管理工作是大数据应用的信息基础和工作顺利进行的重要保障。但是在目前发展中还存在较多需要改进的地方,如管理方面的疏忽、技术人才的缺失、数据生命周期的把控等。所以,本文列举出数据质量在流程环节、技术角度、管理方面三个维度受到的挑战,通过为数据质量管理提供技术和人力支持来营造安全的发展环境。

    【参考文献】

    【1】戚斌.大数据时代下数据质量的挑战[J].信息记录材料,2018,19(06):74-75.

    【2】肖杰.大数据时代下数据质量的挑战与应对策略研究[J].数字化用户,2018,24(52):147.