利用大数据对数据质量进行验证研究
王樱潼
中图分类号:F253.3 文献标识:A 文章编号:1674-1145(2019)6-147-02
摘 要 大数据在当今时代背景下占据着主导性的地位,若大数据由于数据质量不够精准而导致最终决策错误将带来毁灭性的后果,本文将分析大数据以及数据质量的基本特征,基本特点以及在容易出现问题的方面以大数据为根本对数据质量进行验证研究。并对大数据以及数据质量会出现问题的方面一一列举出来并提出解决方案。
关键词 大数据 数据质量 特点 性质 问题 原因
一、大数据与数据质量
“大数据”是必要新处置模式才氣具备更强的决议计划力、洞察发明力和流程优化本领来顺应海量、高增长率和多样化的信息资产。——研究机构Gartner
一种规模大在获得、存储、办理、阐发方面大大超越了传统数据库软件东西本领规模的数据调集。——麦肯锡全球研究所
而且,它从发生便具备海量的数据范围、快速的数据流转、多样的数据类型和代价密度低四大特色和5V特色(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低代价密度)、Veracity(真实性)。“大数据”中的“大”并不仅仅代表着数据量之大,也代表了其潜在的数据价值之大。根据研究显示,更多增强企业生产能力和竞争能力的机会以及巨大的潜在商业价值均来自于有效地管理、使用大数据。例如在制造领域,大数据被嵌入在产品中的传感器所传输,可以为企业开发新型的售后服务项目,以及为开发下一代新产品提供了数据基础。又如在医疗领域,患者的临床和行为数据往往是最能体现患者需求的数据,对此数据进行有效的分析,可以更深入地了解患者的病症并对其病症做出更准确的判断,给予更舒适的护理计划。
而大数据的潜在价值又是怎样做才能被挖掘出来呢?随着云时代的到来,大数据与云计算逐渐形成一种密不可分的关系,大数据作为企业决策的基础不能只有单纯的数据量,更有配合适当的分析模型以及相应的技术手段,对大量数据进行有效的深加工深处理,才可挖掘出大数据的潜在价值。往往潜在价值中的信息更容易帮助企业作出相关决策发挥大数据的真正效用。
作为大数据必然用有着庞大的数据量,而如此庞大的数据量自然无法用单台的计算机进行处理,只能采用分布式架构,对海量数据进行分布式数据挖掘,这是它所拥有的独一无二的特色。但若是没有云计算的分布式处理、分布式数据库和云存储、虚拟化技术,它也无法发挥它原本的作用更无法为企业带来优势。
以云时代为背景,大数据的快速发展很有可能成为新一轮的技术革命。随着互联网的快速普及,信息技术逐渐和人类生活相互融合,导致全球的数据呈现爆发增长,海量聚焦的一面。而数据作为本世纪最珍贵的财产,并不比石油逊色半分。在信息化发展到目前这一阶段,大数据对经济发展、社会秩序、国家治理、人民生活都有着不同程度的影响。在当前这个局势下,数据就等于主动权,世界各国都把推进经济数字化作为实现创新发展的重要动能,在技术研发、数据共享、安全保护等方面进行前瞻性布局。
“数据质量:数据对其在操作、决策支持和规划中扮演角色的适应程度。”——维基百科
数据质量作为信息系统的主要组成部分,它的质量问题是影响信息系统运行的关键因素,信息系统扶植的成败也取决于数据质量的黑白。根据“垃圾进,垃圾出(garbage in,garbage out)”这一原理,若是想让信息系统的建设取得预期效果,达到理想的目标,就应保证有良好的数据质量,能够准确反映客观事实,对信息系统所提供的数据具有可信度,可靠度和真实度。如果是据质量达不到标准值,不管数据分析的工具如何先进,模型如何合理,算法如何优良,都达不到预期目标。在充满着“垃圾”的环境里得到的也都是没有意义的垃圾信息,对后续将要做出的政策的制定和实行都有着毁灭性影响。而高质量的数据来源于数据收集,因此,信息系统数据质量的管理便显得尤为重要。成立一个有用的数据质量管理体系是进步数据质量的一个体例,可以使数据质量获得有用的进步,使“垃圾”数据尽量多的削减,使挖掘出的数据信息尽量多的到达精准,进而使政策的拟定和实施更可以或许到达目标。使“垃圾”数据尽可能多的减少,使挖掘出的数据信息尽可能多的达到精准,进而使政策的制定和实行更能够达到目的。
按照数据质量问题估算查询拜访表现:数据毛病每一年对美国工业界造成的经济损失信占GDP的6%。在医疗事故中因数据统计而出现的决策性失误导致了近98000名患者丧失生命,在金融企业中因数据质量问题导致的信用卡欺诈失察在2008年即造成48亿美元的损失。由此可见,数据质量对大数据产生毁灭性的影响进而影响进一步所做出的判断与决策,更使决策在实施时出现偏差导致无法挽回的后果。
二、出现问题的原因以及发展趋势下的解决方案
(一)出现问题的原因
1.由于大数据的规模较大且环节较多,在获取、存储、传输和计算的过程中容易出现很多错误,而又因为数据量的庞大是我们无法采用人工错误检测与修复或简单的程序匹配处理,所以,大数据容易出现不精准这一问题。
2.由于大数据的高速性,整个过程更容易产生不一致数据,并且由于目前经济以及国内形势发展迅速,市场庞大,厂商众多,直接产生的数据便有很多遗漏、出错以及有偏差等数据的产生也为整个人工错误检测与修复带来了巨大的困难。
3.在数据搜集时,大数据的多样性来历也致使了数据质量的误差。来源于众多地区、结构均不相同、数据量大且都不统一的数据源之间存在着冲突、不一致和相互矛盾的现象。随着时代的进步,生活节奏的加快,生产源头也不断增加,产生数据的来源便多不胜数,系统的更新升级以及应用技术的更新加快也间接的导致了相同的或是不同的数据源之间都有可能存在着冲突以及不一致的现象,而数据的整理以及集成都由很多组的人员来操作,这也加大了数据质量的误差以及出错率。
(二)发展趋势下的解决方案
在当前数据资源化的背景下企业必须要依靠大数据提前制定大数据营销战略方案,对市场有足够的敏锐度,与云计算的深度结合、科学理论的变革以及数据科学的建立都将被大数据进一步影响,也是大数据走到今天所带来的影响与达到的效果。而近几年,数据大量泄露,安全措施已出现问题,客户以及企业本身的信息得不到保障導致很多企业由于数据的泄露而被迫倒闭。可近几年,数据管理成为核心竞争力,直接对财务表现产生巨大影响。数据管理在近几年逐步成为企业焦点竞争力,企业数据的办理焦点逐步由战略性计划、应用数据资产和持续发展的空间所构成,而数据质量则是让企业持续发展的主要指标,数据质量不达标将致使企业焦点竞争力弱化,管理焦点逐步散漫,终究使企业破产。企业数据的管理核心逐渐由战略性规划、运用数据资产以及持续发展的空间所组成,而数据质量则是让企业持续发展的重要指标,数据质量不达标将导致企业核心竞争力弱化,管理核心逐渐涣散,最终使企业破产。在当下这个环境背景下,可以从完整性,一致性,准确性和及时性四个方面来评估数据质量,通过量化指标我们可以了解到当前的数据质量,以及采取修正措施后的修正程度。而对于海量的数据,质量指标无法通过人工来获取,我们需要有一个对应的流程以及精确的步骤,并将每一步会出现的差错几率降到最小,在保证数据完整,一致的前提下确定精准及时的数据来分析并构成大数据,得出大数据中隐含的信息,为企业助力。
三、利用大数据验证数据质量
大数据经过一系列的程序会看出隐藏在数据中的信息,若是数据质量不够高或是过程不够精准都会对最终结果产生不可估量的影响。而用大数据最后得出的结论或是决策来验证数据质量是再适合不过的了。
首先,若数据质量出现问题,那么最后的决策便会出现偏差,在实施的时候更是会导致无法挽回的后果。而在实施之前先用结果对数据质量进行验证便会减少出问题的几率,也会减少出现无法挽回的后果的几率,在当今时代,大数据作为企业的核心,更是不能出半点差错,而数据质量则对大数据有着至关重要的作用。
其次,每个企业都有着自己固定的数据源但是从不同的数据源中传出的数据有可能会产生不一致以及对冲。所以有可能本公司的大数据结论与国家政府的大数据结论出现不一致的现象。所以应先根据得出的决策进行验证研究,在确保数据质量的前提下,将垃圾数据筛除,重新建立大数据,重新得出结论以及决策。
最后,由大数据来反验证数据质量可以说是验证数据质量最精准的方式了,在大数据的慧眼下,数据质量的一切小毛病都将无处遁形,为了更精准的数据质量,为了更准确的做出决策,为了使决策更完好的实施,用大数据对数据质量进行验证研究是必不可少的,在当今环境下,大数据的比拼逐渐激烈化,只有掌握最精准的数据,才能做出最精确的决策,才能在当今时代立稳脚跟,否则,被淘汰、被落下甚至于倒闭推出都不是没可能的。
四、结语
根据上文所述,数据质量对大数据来说至关重要,良好的数据质量可以使企业更上一层楼,而“垃圾”数据则将会影响大数据的隐含信息并对最终得出的结论产生不可估量的影响,带来无法挽回的后果。所以,我们应尽快解决数据质量的问题,使数据质量有一定的保障,利用大数据对数据质量进行验证是最能体现数据质量的方法,决策经过验证后便会更加完善得体,实施时也会减少出现意外的概率。
参考文献:
[1]张翠红,刘毅.财务管理[M].西南财经大学出版社,2017(7).
[2]李建中,王宏志.数据质量:大数据的新侧面[N].科技日报.