标题 | 数据仓库概述 |
范文 | 何志明 李显峰 苗水清 摘 要:数据仓库是联机数据分析及数据挖掘的基础,是一个热门研究领域。本文主要绍了数据仓库的产生、定义和主要特点。并在本文结尾部分简单阐述了数据仓库的发展趋势。 关键词:数据仓库;数据分析;数据挖掘 DOI:10.16640/j.cnki.37-1222/t.2019.21.110 1 从数据库到数据仓库 在1961年,世界上产生了第一个数据库管理系统。随后,数据库开始不停地往前发展。传统的数据库技术主要是用单一的数据进行批处理、联机事务处理(即我们常用说的OLTP)、决策分析等各种数据处理工作。传统数据库系统的主要工作是企业的日常事务处理,例如查询、增加、删除、日志等。所以它难以满足高层用户对数据的统计分析需求,难以实现数据处理中的多样化要求。因此,传统数据库就逐步分离成了操作型数据库和分析型数据库两大类。操作型数据库也就是OLTP一般用于业务支撑:例如一个公司由于业务需要,会建立及使用一、两个甚至多个数据库,这些数据库的主要功能不一样,它们可能分别保存着企业的日常数据:比如销售记录、商品预订情况、员工基本情况分析等;它们相互独立,偶有联系,不利于数据分析。而分析型数据库的侧重点则完全不一样,它主要进行历史数据分析;分析型数据库一般会将企业的日常操作数据单独存储,然后有目的地选择历史数据对针对具体主题进行分析。因为这两类数据库主导功能的不同,就产生了很多细节上的差异。其主要差异如下表所示。 2 数据仓库概念 近年来,随着数据库技术的广泛应用和迅猛发展,决策者需要对数据库中的数据进行深层次的加工处理,然后形成一个综合的,全面的、面向主题的环境,主要为决策支持提供服务,从而催生了数据仓库技术的诞生。 数据仓库是:英文名称为Data Warehouse(DW或DWH)。它是一个集成的、面向主题的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。 仅看数据仓库的概念,还是比较晦涩难理解的。但我们结合应用实例,那么就比较好理解了,因为大多技术都是为实际应用服务的。我们就以超市的事务处理为例来看看数据仓库与数据库有什么不同。事务系统的数据平台主要是数据库,主要记录每位客户在超市的每笔交易。这里,我们可以将超市的数据库系统比作记账系统。那么数据仓库是用来分析超市的交易数据的,它从超市的事务操作数据库中获取各种交易数据,然后进行汇总、加工、分析,并给超市管理层或是决策者提供决策依据。例如,统计分析超市一个月有多少交易量,什么时间交易量比较大,什么商品不但交易量大而且利润高。什么商品虽然交易量少,但利润高等等。当交易量大、利润高,那么该超市就应该考虑增加营业面积了。 很明显,超市的交易量比较大,而且涉及商品、顾客都比较广,如果一个顾客购买一件商品需要花费几分钟的时间来交易,那么顾客是无法接受的,所以它要求系统应该在极短的时间内给予响应。而超市的营业分析,则不需要在几分钟内完成,它需要对大量甚至是海量的交易数据进行汇总、分析,所以会需要较长的时间,但是只要它的数据分析结果是有效的,可用的,那么时间长些,决策者也是可以接受的。因为决策者更关注的是信息的汇总程度及其价值。 3 数据仓库主要特点 3.1 面向主题 传统型数据库的主要任务是数据处理,即事务操作。所以该数据库一般是以事务相关性进行存储,而不会按照主题进行存储数据;数据仓库的主要任务是数据分析,故而主要按主题相关进行存储。所以数据仓库是面向主题的;操作型数据库的数据组织方式事物处理任务。主题是指决策用户在使用数据仓库进行决策时所关心方面。一般,一个主题通常与多个操作型数据库相关。也就是是否面向主题是数据仓库和传统操作型数据库的本质区别。 3.2 集成性 数据仓库的数据大多数情况下,会从各企业原有的数据库系统中进行提取,但它并不是简单的拷贝原有数据,而是提取出来后必须经过抽取、筛选、清理、转换、综合等工作然后再进行存储、使用。 3.3 随时间而变化 数据库在保存数据时,一般不强调数据的具体时间信息。而数据仓库则不一样,数据仓库中的数据基本都要求标注数据的时间特性,这主要是出于决策需要。比如,在决策过程中,时间属性也是非常重要的。例如,同样是统计购买过某品牌汽车产品的顾客,A是最近三个月内购买的,B则是在几年前购买的,那么这个信息这对决策者意义是不一样的。所以数据仓库的数据是随时间不断变化的。数据仓库中的数据不可更新主要是针对应用操作来说的,换句话说,数据仓库在进行数据分析处理时,一般不进行数据更新。但并不是说,数据仓库中数据都是永远不变的,永不更新的。只是,数据仓库的数据一般更新时间间隔会比较长一些。不如事物数据库更新快。所以数据仓库的数据是随时间的变化而不断变化的。 3.4 数据不易丢失 数据仓库中的数据主要反映的是数据的历史性,并不是操作型数据库的那种日常事务操作处理数据。所以,数据仓库中的数据基本不修改,或是极少修改,一般只是定期增加或是删除数据,以保证数据仓库的中数据的完整性及时效性,同时控制数据仓库的存储规模。数据仓库中数据基本都是综合数据,这些综合数据中大多与跟时间相关,所以要经常按照时间段进行综合整理,或是间隔一定时间片就要进行抽样整理等。因此,数据仓库中的数据是随着时间的变化而不断地进行重新综合整理的。 4 发展趋势 随着计算机技术的日益精进,特别是数据库技术的发展以及应用需求的增大,数据仓库也在发展。主要发展方向为: (1)并行化与可扩展性:在这个追求速度与效率的时代,数据仓库的发展也在向并行化方向发展,最明显的就是在硬件上,采用多处理器提高并行处理能力。同时,在研发时,也考虑数据仓库的可扩展性,以增强数据仓库的生存期。 (2)集中化:目前,数据仓库项目也是越来越大,很多决策、信息管理也都依赖于数据仓库。并且,随着网络技术的发展与广泛应用,数据仓库必将与网络应用进行集成,即前台是Web服务器及应用,后台则是数据仓库系统。 (3)通用数据库仓库:将来的数据仓库将向支持多媒体技术、支持结构化和非结构化数据的数据仓库发展,也将具有面向对象处理的能力。 (4)数据仓庫打包应用:数据仓库将集成一些实用工具及应用,并将它们打包后推向用户。 5 小结 在这个海量数据存在,数据过剩的时代,数据仓库显示出了无与伦比的重要。因为,它是数据分析,数据挖掘的基础及质量保证。在国内,许多电商、互联网公司,比如阿里、腾讯,其数据引擎、推荐引擎基本都是建立数据仓库基础上的。许多数据仓库人员认为只要高质量的数据仓库建立起来了,数据分析、数据挖掘以及其相关应用才能得到保障,如果相关业务数据没梳理好,那么各种脏、乱、差得数据不光会搞得人焦头烂额,苦不堪言,而且以此作为基础的挖掘、分析质量也会大打折扣。 参考文献: [1]郝雅萍.计算机数据仓库的构建原理及发展趋势[J].延边教育学院学报,2018,32(06):121-124. [2]王定吉.探讨移动互联网 APP 数据仓库的应用[J].建筑工程技术与设计,2018(32):4101. [3]陈宏.浅谈数据仓库与数据挖掘技术及应用[J].科技广场,2011(09):90-93. [4]李春葆.数据仓库与数据挖掘实践[M].电子工业出版社,2014. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。