标题 | 大理计量、调度数据接入阿里云平台的研究和实现 |
范文 | 施洪美+徐华+徐源 [摘 要] 随着电网数据的海量增多,数据的集中式处理开发已是趋势。本文以大理计量、调度数据接入阿里云平台的实现为例,以数据采集、解析、上传、存储等过程为基础研究,实现云南电网有限责任公司生产、GIS、营销、调度、计量、气象、人资、财务、协同办公、综合等数据的统一数据模型的构建及配置,为设备状态评价、负荷预测等场景算法的研究及应用验证,大屏可视化的设计、开发及应用提供了有益的尝试。 [关键词] 数据同步;OSS;OSPS; DataHub;数据开发 doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 01. 061 [中图分类号] TP391 [文献标识码] A [文章编号] 1673 - 0194(2018)01- 0149- 03 0 引 言 目前,大数据相关技术日趋成熟,各行各业趋之若鹜,党的十九大期间,步步高集团总裁陈志强也提出“推动互联网、大数据、人工智能和实体经济深度融合等”,大数据时代到来可见一斑,但自建大数据平台的成本和可行性也存在诸多问题,一套相对完善的大数据开发平台集中在几家大型企业,租用云平台反而成为很多企业的更优选择。 2016年12月云南电网有限责任公司信息中心引入阿里云计算,着眼电力大数据平台的建设,主要从数据采集融合、数据算法研究与应用、大屏可视化展现等方面开展研究建设,为了有效推进各方面工作开展,开始进行相关数据的接入。 1 可行性研究 1.1 经济可行性 阿里云平台作为一个商用平台,部分软件都有自己的收费标准,但平台集成了各种程序开发组件,使用者租用阿里云搭建企业云平台,一则可减少运维成本,二来免去服务器等硬件成本以及类似于Oracle一类商业软件的开支。 1.2 技术可行性 阿里云平台作为一个新兴的大数据平台,提供大数据计算服务、分析性数据库等服务,集成了各类丰富的大数据开发套件,提供了Java、Python、PHP、C#等丰富的SDK,使得开发者可以选择开发语言进行相关的开发,在云平台上部署程序。 1.3 应用可行性 以趋势和事实而论,荷兰皇家飞利浦公司、Schneider、Strikingly等公司都选择了阿里云,并且获得成功,以企业自身而言,一个技术型公司都有企业的技术团队,可以根据官方文档进行相关技术开发。 综合经济、技术、应用方面的分析,阿里云大数据库平台搭建可行。 2 数据同步模型 2.1 概述 阿里云大数据平台由大数据计算服务(MaxCompute)、分析型数据库(Analytic DB)、流计算(StreamCompute)共同组成了底层强大的计算引擎,且提供了丰富的云端数据开发套件,包括数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控等在内。本文数据接入方案依赖于阿里云平台: (1)数据文件存储采用OSS。 (2)数据通道采用DataHub通道。 (3)数据模型解析和处理依赖于Maxcompute和Streamcompute。 (4)数据存储采用OTS库等。 2.2 数据同步模型 同步模型从数据的采集到存储,采用架构式的解决方案,如图1所示。 OSS是阿里云对外提供的海量、安全和高可靠的云存储服务,用来存储实时数据文件;RDS是阿里云关系型数据库服务,用来存储数据文件附件和地址信息;DataHub服务是阿里云提供的流式数据(Streaming Data)服务通道,它提供流式数据的发布 (Publish)和订阅 (Subscribe)的功能,用来构建基于流式数据的分析和应用;OSPS运行在阿里云平台上的流式大数据分析平台,提供给用户在云上进行流式数据实时化分析工具;ODPS是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案;OTS是构建在阿里云飞天分布式系统之上的 NoSQL 数据库服务,提供海量结构化数据的存储和实时访问。 3 数据同步实现 3.1 数据采集、解析和推送 3.1.1 数据源 数据采集模块根据数据源的不同有不同的解决方案,本案例中的数据源有: (1)实时类數据源。 (2)CIM模型/调度业务数据的数据源。 (3)SVG图片文件数据源。 3.1.2 采集、解析和推送方案 根据数据源的不同,对应的解析模块也有相应的变化。 (1)实时类数据解析。 解析程序: 解析程序以OSS对象服务的Java-SDK打通文件通道,以Java语言为基础进行相关解析。涉及主要概念说明如下: Bucket(存储空间); Object(对象/文件); Endpoint(访问域名); AccessKey(访问密钥)等。 然后创建连接对象OSSClient 即可对OSS进行相关操作。 解析任务: 调度数据提供方或系统厂家通过调度系统或其他辅助系统,将基于调度系统数据库生成规定格式的数据文件上传到OSS指定Bucket上指定的目录下,将实时数据按采集周期(5min/次)生成最新数据文件并上传至私有云OSS,数据接入方在云服务上开发数据集成-数据同步任务,采用shell任务方式定时调度执行私有云OSS中文件下载及文件解析程序,将解析后的数据发送至DataHub数据通道。 (2)CIM模型/调度业务数据解析。 数据提供方导出CIM模型/调度业务数据文件,通过上传至私有云OSS,数据接入方开发数据文件解析程序解析文件数据,并将文件数据上传至RDS数据服务,如图2所示。 (3)SVG图片文件数据解析。 文件提供方导出SVG文件,上传至私有云OSS,数据接入方开发数据文件解析程序从OSS获取文件,并将OSS文件地址信息存储至RDS服务器的OSS_FILE_INFO表中。如图3所示。 3.2 数据模型转换 数据接入方在云服务上基于调度CIM模型数据初始化主题实例模型以及基础数据配置,并在OSPS上开发流式计算脚本实现原始数据加工转化为主题实例模型。 3.2.1 转换模型配置 构建数据模型:模型信息纬表、检测数据流表、OTS结果表以及相关流式计算引擎。调度和计量的主题实例模型表如表1所示。 CIM数据模型表如表2所示。 3.2.2 转换 将数据模型换成对应的StreamSQL配置到OSPS和ODPS中。 3.3 数据存储 OSPS和流式计算从DataHub数据通道中获取原始数据,引入主题实例模型在OSPS配置数据,通过关联计算,生成K-V(K以主题实例ID+主题属性ID+主题项记录时间的格式配置)格式的主题实例存储数据,并写入OTS表格存储。 ODPS从DataHub数据通道中获取原始数据,引入主题实例模型在ODPS上做数据归档。 4 结 语 本文着眼于企业数据的云端在線,企业海量数据的云端同步,为企业数据在线模型化管理以及后续的相关设计和开发提供有力支撑和保障,对于搭建数据云平台也有一定的借鉴和参考意义。 主要参考文献 [1]崔伟,汪诗林.分布式系统中数据同步机制的研究与实现[J]. 计算机工程与设计,2007,28(10):2259-2261. [2]孙是君.大数据时代企业经营管理中的挑战与对策[J]. 网友世界:云教育,2014(14):103. [3]2017年底云南省健康数据上“云”跨地共享共用[J]. 时代风采, 2016(22):16. [4]王翔.拿些数据,放云上 取些数据,从云上[J]. 程序员,2009(5):20. [5]王喜.基于阿里云平台的云计算专业建设的思考与探索[J]. 福建电脑, 2016,32(11):162. [6]李心蕊.MaxComputeSQL的应用与发展研究[J]. 信息技术, 2017(5):144-146. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。