网站首页  词典首页

请输入您要查询的论文:

 

标题 决策支持系统中数据仓库的设计
范文

    收稿日期]2009-01-11

    [作者简介] 李雅莉(1973-),女,陕西宝鸡人,宝鸡文理学院电子电气工程系讲师、硕士,主要研究方向:计算机应用技术。

    [摘 要]研究如何根据决策主题创建数据仓库,并在SQL Server 2000中实现数据仓库的物理模型及利用DTS数据转换服务设计实现数据提取、转换、加载和自动更新的DTS包。

    [关键词]数据仓库;SQL Server 2000;DTS包

    doi:103969/j眎ssn1673-0194200917030

    [中图分类号]F2707;TP311[文献标识码]A[文章编号]1673-0194(2009)17-0084-04

    1 引 言

    决策支持系统(DSS)是在管理信息系统的基础上发展起来的,是一个基于计算机的支持系统。传统的决策支持系统是基于数据库和模型库的,由于数据库只能对原始数据进行一般的加工和汇总,致使决策所需信息不足,模型库很难适应决策本身的动态性和复杂性,而且两库被独立设计,缺乏内在的统一性[1] 。随着计算机的普及和信息技术的迅速发展,兴起了三项决策支持新技术,即数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)。数据仓库是在数据库的基础上发展起来的,是为决策分析服务的,联机分析处理把数据的组织由二维平面结构扩充到多维空间结构,并提供了多维数据分析方法,数据挖掘则是利用一系列方法,从海量数据中提取隐含在其中的有用信息和知识的过程[2] 。目前开发的DSS是以数据仓库技术为基础,以联机分析处理和数据挖掘工具为手段,这三者的结合创立了决策支持系统的新方向,弥补了传统决策支持系统中数据组织的不足和数据不一致问题,正在被广泛地应用于各行各业的管理决策中。

    数据仓库为决策支持系统提供充分可靠的数据基础,因此,数据仓库建立得是否完善直接影响决策的质量。本文主要研究如何根据决策主题创建数据仓库,并在SQL Server 2000中实现数据仓库的物理模型及利用DTS数据转换服务设计实现数据提取、转换、加载和自动更新的DTS包。

    2 基于数据仓库和数据挖掘的决策支持系统体系架构

    基于数据仓库和数据挖掘的决策支持系统结构框图如图1 所示。数据仓库为数据挖掘提供了广阔的活动空间,确保数据挖掘中数据来源的广泛性和完整性。而数据挖掘面对的是经过初步加工的数据,使得数据挖掘更专注于知识的发现。OLAP从数据仓库中的集成数据出发,提供面向分析的多维数据模型,并使用多维分析方法从多个角度、多个侧面及多个层次对多维数据进行分析、比较,使用户以更接近自然的方式分析数据。

    

    3 数据仓库的设计

    销售预测是企业市场营销管理中最重要的因素之一,也是企业供应链的关键环节,根据销售预测的结果,企业可以制订科学合理的采购计划、生产计划、人员计划、库存计划以及营销计划。因此,销售预测决策支持系统对企业的经营决策具有重要的研究意义。本文以零售企业销售预测为切入点,重点研究销售预测决策支持系统中的数据仓库的设计和具体实现。

    数据仓库中的数据是为决策分析服务的,因此必须以决策需求为基础来构建数据仓库。数据仓库的设计包括:需求分析、概念模型设计、逻辑模型设计和物理模型设计4个步骤[3-4] 。

    31 需求分析

    日趋激烈的市场竞争要求零售企业经营者更加准确了解企业的经营状况,更加合理组织企业的经营活动。零售企业数据库中存储了大量的销售记录,而决策者并不关注每一笔的销售情况,而是需要知道这样一些信息:

    (1)每一年、季、月、日的销售情况分析,某段时间内销量的变化情况。

    (2)每个商品或每类商品的销售情况分析,哪种商品销售最多、获利最大;商品的未来销售情况。

    (3)哪类顾客购买力最强,商品销售的主要顾客群。

    (4)各个连锁商店的销售业绩分析,未来各连锁商店的销售前景。

    (5)预测分析。

    这些信息可以从不同的角度来分析和预测,如通过不同种类的商品之间的销售情况对比,不同连锁商店的业绩对比,同一商品在不同时间、不同地点的销售情况的变化以及根据商品在某地区、某时间、某价格下的销售历史记录对商品的未来销售情况进行预测等得到决策者需要的信息。这些信息需求已经超出了数据库所能提供的信息范围,要想从销售数据库中提取这些信息,满足信息需求,实现决策支持,必须建立销售数据仓库。

    针对零售业销售的业务特点,利用企业POS销售系统的数据记录及营销系统的顾客资料、商品资料、外部数据等创建用于销售分析和销售预测的数据仓库,通过数据仓库技术对销售情况进行全面分析,设计目标使用户能够直接访问数据,按照预测和分析的主题来组织数据。

    32 概念模型设计

    通过需求分析可知,要反映一个企业某段时间内的销售状况,可以用商品的销售量、销售额、销售成本、销售利润等指标进行评价;决策者需要从时间、商品、顾客和地区这几个角度进行分析、计算。为此,确定商品、顾客、商店、时间4个基本维度实体,其星型结构如图2所示。

    

    商品数据的分析可以说明顾客买了什么和没买什么,从而用畅销的商品替代滞销的商品;顾客分析主要是对顾客的基本情况,如购买商品、顾客分布、顾客的价值等进行分析;分析商店的数据可以知道顾客的购物地点,进而估计固定商店的综合销售情况;对时间数据的分析可以知道交易发生的时间、时间段或季节,通过这些信息可以发现特定商品在一年中某个特定时间销售情况,既可以了解历史销售状况,也可以对当前的销售状况进行分析、统计,从而对以后的销售情况进行预测,并相应地调整商品的采购和库存量。

    商品、顾客、商店和时间4个基本维度实体可以构成销售数据仓库的维度信息。

    33 逻辑模型设计

    目前,数据仓库一般都建立在关系数据库基础上,因此,数据仓库设计过程中所采用的逻辑模型主要是关系模型。其基本框架通常由事实表和一些维表组成,目前较为流行的是星型模式。

    通过对数据仓库的需求分析和概念模型设计,将模型数据划分为顾客、商店、商品、时间4个粒度,每个粒度具有不同的粒度级别。通过对粒度以及粒度级别的详细研究,进行事实表和维度表的设计。

    销售数据仓库包含1个事实表和4个维度表。在事实表中确定度量数据为商品的销售量、销售额、销售成本。对于时间、商品、顾客、商店4个维度表,每个维表都有自己的属性,将其层次划分如下:

    

    34 物理模型设计

    数据仓库的物理模型就是逻辑模型在物理系统的实现模式,依据确定的逻辑模型建立对应的物理表结构来存储数据,确定索引策略、数据存放位置等,使用数据仓库开发工具完成数据仓库的物理模型创建。

    目前,市场上有多种数据仓库开发工具,但相比而言,微软的数据仓库解决方案,在快速、经济地建立中小型企业数据仓库系统方面有明显的优势。微软为创建数据仓库提供了一系列工具[5] :提供的OLE DB数据接口,可用于连结多个异构数据库和相互传递数据;提供的数据转换服务(DTS)和SQL Server代理服务能帮助用户实现数据仓库数据的自动获取,在数据传输过程中可以完成数据的验证、清理和转换等操作;OLAP Analysis Service能开展多维数据的在线分析和数据挖掘,发现数据之间的规律和潜在关系,提高数据分析和处理能力,使数据直接面向决策分析。此外,数据挖掘支持由第三方开发的算法。可以说微软数据仓库解决方案可以对数据仓库进行创建、操作、管理与应用的全方位支持,使快速开发数据仓库系统成为可能,因此,选用微软提供的SQL Server 2000来开发销售数据仓库。

    销售数据仓库以SQL Server 2000为平台,采用星型模型设计事实表与维度表,并在所有表的主要字段上建立索引。其物理模型设计如图4所示。

    

    4 数据仓库的实现

    数据仓库设计好后,如何将企业网络中不同站点的各个POS系统数据,包括顾客数据、商品数据、时间数据、连锁商店数据的营销数据,以及其他数据从各种不同类型的操作型数据库系统中抽取出来,完成一系列转换,最后将数据加载到数据仓库,是整个数据获取中关键的也是最困难的一步。

    41选择数据源

    销售数据仓库中的数据来自企业网络中不同连锁店的多个营销点的POS系统数据、营销数据和一些外部数据,这些数据分布在不同的地区,记录着来自不同地区的顾客的基本信息和详细的交易细节。把这些数据集中在一起就可以组成用来进行决策分析的数据基础。源数据可能是多种类型的数据库,如Access、Foxpro、Oracle、Sybase、DB 2、SQL Server和一些文本文件等。

    42 数据的提取、转换与加载

    (1)数据提取。

    数据库中的数据是操作型数据,不符合数据仓库数据的面向分析要求,某些数据还因集成度太低而需剔除。提取是将所需的数据源移入数据仓库的过程。已经建立的物理数据仓库仅仅提供一个供用户访问的数据存储结构,其中并没有任何数据资源,为了能在数据仓库中使用数据资源,数据的提取必须既满足决策的需要,又不影响业务系统的性能,所以应制定相应的提取策略,对于不同类型的数据源设计不同的数据提取接口、提取方式、提取时机和提取周期等内容。

    (2)数据转换。

    对从业务系统中提取的数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据的一致性和完整性,并按要求装入数据仓库。这种转换包括了数据类型转换、数据格式转换、数据汇总计算、数据拼接等。

    (3)数据加载。

    数据加载就是将从数据源系统中提取、转换和清洗后的数据加载到数据仓库的事实表和维表中。数据的加载策略根据数据的提取策略以及业务规则确定,主要有两种加载技术:使用数据仓库开发商提供的数据加载工具进行数据加载;通过数据仓库开发商提供的编程接口进行数据加载。

    Microsoft公司的数据转换工具DTS通过OLE DB接口能够在关系数据源、非关系数据源以及ODBC数据源之间转移数据;可以自动或交互地从多个异构数据源向数据仓库装入数据;DTS支持使用VBScript或JavaScript等脚本语言创建自定义的转换脚本,也允许使用编程语言(如Visual Basic或Visual 〤++)编写自定义的组件,能够在转换中对数据进行包括校验、清理等的各种操作。集成在SQL Server 2000中的DTS可以自动调度导入或操作任务,也可以使用SQL代理服务来进行调度[6] 。

    采用SQL Server 2000的数据转换服务DTS作为提取、转换和加载工具,DTS通过OLE DB接口连接数据源并提取数据。为了能够顺利地对准备装入数据仓库的数据进行抽取、清理和转换,创建了数据准备区,利用DTS工具将选定的数据库表根据数据抽取原则抽取到SQL Server 2000中的数据准备区,在数据准备区用SQL语句或ActiveX 脚本语言编程实现数据的清洗、汇总、统计、转换处理,检查数据的一致性和完整性等工作后,将数据加载到SQL Server 2000的数据仓库中。

    数据抽取、清理、转换和加载可以通过DTS设计器创建DTS包而自动完成。DTS包含3种类型的对象:连接对象、任务对象和步骤对象。连接对象定义关于源和目标数据源的连接属性和条件;任务对象定义了转换过程中要执行的动作,例如执行SQL语句,拷贝一个表的内容或执行一段ActiveX脚本;步骤对象定义任务对象执行的顺序。

    由于事实表的时间ID、商品ID、顾客ID、商店ID数据依据相关的维表,根据关系规则,数据导入要先导入维表,然后再导入事实表,整个DTS包工作流的执行步骤如图5所示。

    执行这个定义好的DTS包,数据将按照设定的步骤和规则导入到数据仓库的维表和事实表中。

    43 数据的更新

    当源数据库中数据发生变化时,数据仓库中的数据要能及时更新,以保证用于决策分析的数据是完整、有效的。在实际应用中利用SQL Server代理服务提供的作业调度功能,将DTS包设置为自动执行方式,定期地进行数据更新维护。为了不影响用户白天工作时正常使用系统,将DTS包的执行时刻设置为夜里无人工作时间,如图6所示。

    

    5 总 结

    本文对零售企业销售预测决策支持系统中数据仓库的设计和实现进行了详细的研究,主要包括数据仓库的结构设计和数据源的加载,构建了用于销售分析的数据仓库,设计了实现数据提取、转换、加载和自动更新的DTS包。

    主要参考文献

    [1] 杨卫民笔据仓库和数据挖掘在林业决策支持系统中的应用研究[D].长沙:中南林学院,2005豹

    [2] 陈文伟本霾咧С窒低臣捌淇发[M].北京:清华大学出版社,2004豹

    [3] 潘珩逼车营销决策支持系统数据仓库的设计与实现[J].石河子大学学报:自然科学版,2005,23(5):658-660豹

    [4] 李瑞华,李霞笔据仓库在中小型企业决策支持系统中的应用[J].山西广播电视大学学报,2005,10(6):24-25豹

    [5] 罗运模盨QL Server 2000数据仓库应用与开发[M].北京:人民邮电出版社,2001豹

    [6] 武彦峰,朱仲英被于DTS组件的数据仓库的数据抽取工具的设计与实现[J].微型电脑应用,2004,20(3):1-4

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/21 19:56:53