标题 | 基于开源的数据汇聚与可视化技术研究 |
范文 | 江接宝 余卫红 摘要:数据中心汇聚企业生产活动的各类数据,是企业生产过程管理和决策的依据;文章针对数据中心建立的系统架构图,采用开源的Kettle工具实现数据汇聚和ECharts工具实现数据可视化;从数据中心的建设思路、Kettle特性与ECharts的体系架构来介绍各自的工作原理;在实际研发的项目中,表明了Kettle和ECharts应用的可行性与良好的功能特性。 关键词:开源; 数据汇聚; 可视化; Kettle; ECharts 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)10-0235-02 开放科学(资源服务)标识码(OSID): Research on Data Aggregation and Visualization Technology Based on Open Source JIANG Jie-bao1, YU Wei-hong2 (1.Jiangxi Industry Vocational and Technical College,Nanchang 330022, China;2.Baihuazhou Primary School, Nanchang 330022, China) Abstract: Data center gathers all kinds of data of enterprise production activities, which is the basis of enterprise production process management and decision-making. According to the system architecture diagram of data center, this paper uses open source Kettle tools to realize data aggregation and ECharts tools to realize data visualization. The paper introduces their working principles from the construction idea of data center, Kettle characteristics and ECharts architecture. In the actual projects, it shows the feasibility and good functional characteristics of Kettle and ECharts applications. Key words:open source;data aggregation;visualization;kettle;E Charts 数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。通过建立健全大数据辅助决策的机制,推动形成“用数据说话、用数据决策、用数据管理、用数据创新”的决策新方式。充分利用大数据平台,综合分析各种风险因素,提高企业对风險因素的感知、预测、防范能力。只有不同系统、不同领域的数据实现大范围的流通与融合,才能实现多源数据的融合分析,从而赋予人类观察事物的全方位视角。由复杂的数据源环境内获得合理有效的数据与可视化的展示数据,是很值得研究的问题。本文提出的基于开源的数据汇聚与可视化技术,可适用于轻量级的数据中心应用。 1 关键技术 Kettle是一款使用Java 编写的开源ETL工具,可以在Windows、Linux、Unix 等多个操作系统平台上运行,它支持多种异构数据源:包括关系数据库(oracle,mysql,sqlServer等)、XML文件、文本文件等多种格式的输入和输出。ETL(Extract Transform Load)代表数据抽取、数据转换和数据加载,是实现异构数据的汇聚和共享的有效方法。 ECharts(Enterprise Charts)是一款开源的数据图表工具,它可以在PC和移动设备上运行,在浏览器上兼容性好,提供直观、生动、可交互、个性化定制的数据可视化图表。它支持拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。 2 基本工作原理 数据中心库是汇聚了企业各类数据,其中各类数据是来源于生产活动中的不同业务的系统库。通过Kettle(ETL)工具实现数据库A,数据库B,数据库C等多个异构数据的汇聚与清洗。首先:分别配置各个数据源的IP与用户名,密码,能够通过账号和密码查询到源系统数据;第二步:根据具体的业务表需求,确定抽取的详细数据字段、数据抽取的周期与数据清洗的规则;第三:结果数据入数据中心库;第四:异常检测功能:根据结果数据,配置异常波动告警机制,及时发现数据异常,保证数据质量。数据中心成了学校数据档案馆系统架构图如下: 其中:Kettle的核心是作业(Job)和转换(Transformation)。作业基于业务流程, 协调数据源、执行过程和相关依赖关系,形成一个能够被调度和执行的逻辑顺序队列,实现对整个工作流的控制。转换是负责处理抽取、 转换加载各种对数据行的操作;他包括一个集齐以上的步骤 (step),如读文件、 过滤输出、 清洗数据或加载数据到目标数据库。 转换的步骤通过跳(hop) 连接,跳定义一个单向通道,允许数据从一个步骤流向另一个步骤。 以数据中心库为基础,可以进行关联分析与针对性的挖掘分析。分析出的结果数据,可以通过数据可视化开源工具ECharts很好的图表展示。ECharts体系架构图如下: 3 功能特性 本文中的数据汇聚采用开源的Kettle工具,实现对多个数据源的数据汇聚,能够适配各种数据源,满足基本的业务需求,很好的解决信息孤岛问题;Kettle工具简化了异构数据源的数据汇聚复杂性,工具安装使用方便,通过拖拽界面实现配置,是一款优秀的ETL工具。 开源Echarts可视化图表工具的数据图表种类丰富,使用方便。以前的WEB页面中使用的图表都是用静态的图片,通过Echarts工具可以将动态的读取数据展示,从而解决了由静态图片展示成动态的数据图表。 4 小结 本文旨在为数据中心的数据汇聚与数据可视化展现提供一种轻量级开源的解决方案,开源工具的使用简单,具有良好的跨平台性,可以安全有效地实现异构数据汇聚与数据可视化展示。熟悉Kettle和ECharts两款开源工具在实践使用方法后,各个场景使用只需要把业务流程梳理清楚,明确输入、输出, 确定转换细节和具体数据图表选择,就能够快速实现多个信息系统间的数据集成,实现数据的共享与数据可视化,提高业务系统的协同与管理者决策能力。 参考文献: [1] 刘梦苏.ETL技术在数据分析系统中的应用初探[J].信息通信,2018(8):202-203 [2] 李磊.ETL任务集群调度方法[J].计算机技术与发展,2018(11):35-38 [3] 王晓虹,刘莹,张艳凤.高校数据集成系统的ETL设计与实现[J].计算机技术与发展,2011(7):186-189 [4] 王珍玲.ETL 技术在实现数据分析系统中的应用研究[J].信息与电脑(理论版),2014(9):115-116 [5] 赵海国.Ajax支持下的ECharts图形报表技术的应用[J].电子技术设计与应用,2018(4):66-69 [6] 宋佳慧,刘远刚,林琳,等.基于eCharts的动态统计图表绘制技术研究[J].电脑知识与技术,2014(9):202-204 [7] Baidu公司.开源项目ECharts官方网站.http://eCharts.baidu.com/index.html. [8] 路川,胡欣杰.ORACLE 11g 宝典[M].北京:电子工业出版社,2009. [9] 阎宏.JAVA与模式[M].北京:电子工业出版社,2002. [10] (美)格尔克, 周立柱. 数据库管理系统[M].北京: 清华大学出版社,2002. [11] (美)Erich Gamma, Richard Helm, Ralph Johnson,等.设计模式:可复用面向对象软件的基础[M]. 机械工业出版社,2004. [12] 温昱. 软件架构设计[M]. 电子工业出版社,2007. [13] 姚文琳,王存刚,刘世栋,等.基于 Oracle 的分布式数据库设计与技术[J].计算机工程,2006(20):89-91. [14] 任磊,杜一,马帥,等.大数据可视分析综述[J].软件学报,2014(9):1909-1936. [15] (美)Deepak Alur, et al. J2EE 核心模式[M].北京: 机械工业出版社,2002. 【通联编辑:唐一东】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。