标题 | OLAP在软件著作权登记数据分析中的应用研究 |
范文 | 何丽++刘改平 摘要:数据仓库和OLAP技术已经大量应用在金融业和商业管理中并取得了良好的效果。如何从海量软件著作权登记数据中发现有用的信息,是软件版权登记主管部门迫切关心的问题,也是软件登记者和拥有者十分关注的问题。围绕这一问题创建了一个ETL(Extract-transform-load)工程用于从原始OLTP数据库中获取数据,并且构建适合OLAP分析的数据仓库,最后用OLAP多维分析思想实现了数据分析功能,为管理决策人员提供快捷、简单、直观的查询分析。 关键词:OLAP;OLTP;数据仓库;多维数据分析 中图分类号:TP311 文献标识码:A DOI: 10.3969/j.issn.1003-6970.2015.10.022 引言 自实行软件著作权登记以来,各大版权登记单位都累积了十多年的登记数据,这些数据中包含了大量的登记者和管理者关注的信息。传统的统计方法对这些数据不能进行有效的分析利用,如何对这些海量的登记数据进行有效分析得出对管理决策有用的结论,是版权登记主管部门和软件设计者拥有者迫切关心的问题。大量的历史数据反应出的信息,也可作为软件设计者和软件所有者制作软件寻找创意的重要依据。 OLAP技术近年来在各个行业都有应用,充分说明了OLAP分析海量数据的优越性和准确性,并且国际各大数据库公司也相继开发了用于OLAP分析的工具软件。在国内,OLAP技术也引起广大科研人员的兴趣。本文结合软件著作权登记系统中的大量数据,对OLAP技术进行了详细应用。 1 0LAP技术概述 OLAP是数据仓库的主要应用,并且已经用在很多商业和金融业中用以挖掘历史数据背后的知识。OLAP主要用于对大量数据的分析,OLTP(在线事务处理)主要是保存当前事务的数据到数据库中,底层数据库系统是OLAP与OLTP的数据源,数据仓库则构成了二者共同的基础,OLAP和OLTP关注的角度都有很大的不同。数据仓库、OLAP以及数据挖掘技术针对这类问题为管理人员提供了解决方案。数据仓库(data warehouse)是将联机事务处理累积的大量数据经过重新加工进行存储管理,并且可以进行数据分析和挖掘,数据库由大量的数据表组成,数据仓库则是由数据库中的数据和大量的索引,存储过程,视图等等组成。 OLAP主要是基于多个维度进行数据查询和分析的,达到决策支持的目的。OLAP能使分析人员管理人员从不同的角度对企业数据进行快速、一致和交互的存取。OLAP的多维操作方法有切片,切块,旋转和钻取,其中切片是基于某一维度进行数据展现,切块可以看作是多次切片的叠加,旋转是交换了行或者列。钻取分为上钻或下钻,上钻是得到汇总性数据,比如原结果是季度数据,上钻可以得到年内数据,下钻是得到更详细的数据。 2 0LAP实施方案选取 目前企业主要分两种方案应用OLAP:一是利用已有的OLAP 工具创建,二是利用开发工具根据用户关注的维度白行开发分析工具。这两种方案各有特色,第一种方案可以从现有的规则上创建和管理用于OLAP分析的数据库,由于采用著名数据库厂商的现有工具所以能够创建完善的DSS系统,缺点是不够灵活,需要用户熟练此类软件的一些操作,而且其英文界面不方便国内用户操作,另外还需重金购买。第二种方案因为功能有限,只能进行小型应用,但优点是可根据用户的实际需求定制,比较灵活。所以本文定制开发了适用于著作权数据分析的OLAP系统,底层数仓据库使用雪花型组织模式。本系统的整体设计结构如下图1所示: 3 系统结构设计 a)构建适合OLAP分析的数据仓库 本系统沿用了数据仓库中的ETL过程,但主要功能是完成对业务系统数据的抽取、清洗和装载,即ECL过程,并没有遇到转换过程。从原始OLTP数据库中抽取所需数据到数据仓库中以只读形式保存,抽取过程中对原操作数据库中的数据进行清洗。因为原始数据库中的数据已经是按照关系数据库的规则结构化存储,所以仅需要对某些字段进行清洗操作。本数据仓库的可扩展性实现方法是增量进行加载新的数据。对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。先从原数据库抽取所需数据,直接将抽取数据生成的文件装入数据仓库的操作型数据层,在数据仓库中尽可能少做转换以保证原始数据的原貌。因登记系统的登记量巨大,而且原登记系统用的是关系数据库组织数据,本系统考虑到ROLAP在处理关系数据库方面的优势和MOLAP处理多维数据的优势,所以采用HOLAP方式存储抽取的的数据。 b)维度表和事实表的连接 本文组织软件细节数据的组织形式如图2所示,由一个主信息表和六个维表组成,其中申请人维表里边有著作权人信息和代理人信息,所以采用了雪花模型。 4 系统实现 a) ETL 工程的创建 在eclipse下创建web 工程用于数据的抽取和加载,把原OLTP事务数据库中的数据提取到支撑OLAP系统的数据库中,系统流程如下图3本系统ETL结构图。 (1)先在本地数据库中根据已经设计好的雪花模型创建数据库和数据表。 (2)创建数据库连接,使本地数据库与原事务数据库连接成功。 (3)用程序调用批处理函数抽取数据到本地数据库 b) OLAP分析工程的创建 本系统采用开发工具创建工程进而多维化处理登记数据分析需求,数据分析工程的创建也是基于Javaweb。本系统在IntelliJ IDEA12平台上创建,效果展示在web页面上。利用开发工具开发针对软件登记系统的分析系统,并且采用能分层次处理大规模数据的HOLAP技术,手动构建底层关系数据库和高层多维立方体,并构造专属的OLAP多维引擎,以设计适合分析版权登记系统的灵活的OLAP系统。本系统结构如图4: 整个OLAP系统采用B/S模式,大致分为4层,第一层是源数据层数据都来自原始的登记系统,存储了整个登记系统五年内的业务数据。第二层是OLAP数据仓库层。源数据层的数据是面向登记应用的需要将这些数据进行结构化处理之后保存到OLAP数据仓库中便于OLAP多维分析。第三层是OLAP服务器层,保存了底层聚集和高层聚集的结果,用户的多位分析请求进入OLAP服务器后会先匹配是否已经存在聚集分析的维度,如果有把这个聚集结果返回给用户如果没有系统再对用户需求的维度进行聚集分析。第四层是应用层主要用于跟用户交互,用户通过这层传递自己关注的维度也通过这层看到返回的结果。本系统的核心是OLAP服务器,这块主要有立方体计算和多维引擎组成,下边主要针对这两点进行分析,并给出优化策略。 5 结论 本文介绍了OLAP技术在软件版权登记领域的运用,与以往的OLAP分析不同,因为以往的大多OLAP分析都会运用sqlserver和Oracle自带的OLAP工具进行数据分析。本文提出了一个新的多维立方体模型和算子模型,并将这个模型应用于软件著作权登记数据分析中,为这类数据分析提供了应用实例。并设计了一个完善的OLAP系统。在以后的工作中,我们将进一步完善这一OLAP分析模型,探讨其在各种大数据多维分析领域的实现。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。