网站首页  词典首页

请输入您要查询的论文:

 

标题 以电力数据为例浅谈数据质量的重要性及优化方法
范文

    许骏龙 葛志松 陈琪 穆志君 周方

    

    

    

    摘要:随着信息系统的快速发展,数据的重要性越来越凸显,身处大数据时代,数据质量在数据交互、数据应用中也成为重点关注对象,并且数据质量的含义也在悄然发生改变。该文对数据质量的概念及常见的导致数据质量不高的异常情况进行了讨论,并介绍了在数据获取及数据清洗等阶段加以干预提高数据质量的方法,结合供能机构采集的电力数据实际情况探讨了提高数据质量的手段。

    关键词:电力数据;数据质量;数据清洗

    中图分类号:TP311 ? ? ? ?文献标识码:A

    文章编号:1009-3044(2019)13-0271-02

    当今节能降耗这一主题已经变得越来越重要,工业企业是节能降耗的主体,而计量则是节能效果量化的基础,是科学用能的基本条件。通过能源计量,企业确保能耗统计信息和相关数据资料的准确性,保证能源消耗量的可比性,进而制定合理的用能计划。在此基础上许多供能机构或用能单位通过对能源计量表具安装数据采集装置或构建远程集抄系统实现了能耗数据在线采集,但是能耗数据的获取仅仅是最基础的第一步,确保数据的准确可靠、实时有效才是实现数据价值的重要前提,但实际上大部分在线采集的能耗数据都存在各种质量问题,因此,本文以供能机构获取的电力能耗数据为例,探讨如何通过科学合理的手段对大批量的数据进行处理分析,避免过多人工干预,提高工作效率。

    1数据特点

    传统的数据质量指的是数据的准确性、及时性、一致性和完整性这几个指标在信息系统中得到满足的程度[1],这四方面数据特性也是数据质量的基本体现。

    数据准确性指的是数据本身所包含的内容是否准确,是否存在异常或者错误的信息。准确性关注的是数据本身的逻辑归纳,要保证其准确就必须保证数据来源的真实,这也是能耗数据在线采集逐渐取代人工填报的重要原因。

    及时性通过获取数据延时的时长反应,指的是数据从产生到最终使用一般都会有的一段时间间隔,是影响数据质量的一个隐形因素。以功能机构电力数据为例,由于用户量庞大,从巡抄指令下达到最终数据获取一般都存在一个小时以上的延时。

    数据一致性通常指关联数据之间的逻辑关系是否正确和完整,而数据存储的一致性模型则可以认为是存储系统和数据使用者之间的一种约定[3]。

    数据的完整性是指数据的信息是否完整,是否存在缺失。数据的缺失主要为某个字段信息的缺失,完整性是数据质量的重要体现和基本保证,信息的缺失会导致应用时的不准确,也是数据质量评估的一项重要考核指标。

    但是随着信息系统的快速发展,数据的来源越来越丰富,数据体量和覆盖面也越来越广,对数据质量的定义也从狭义走向了广义,以上四个指标不再是衡量数据质量的唯一指标,在大数据的时代背景下,个人认为数据的可用程度成为评价数据质量的更关键因素。

    2 数据异常情况

    供能机构现行的方式是通过采集终端获取包括表具信息、终端信息、运行状态信息、能耗数据及变更信息在内的各种数据,由于各地采集终端数量庞大,需要实现采集的数据源种类繁多,采集频次高,传输方式多样,且各类数据对用戶重要程度存在差异,导致最终采集的数据质量参差不齐,导致数据质量不高的主要原因包括:

    1) 现场的采集设备出现故障,造成远程抄表系统采集的现场数据丢失或者偏离正常值;

    2) 在更换设备的时候,由于规则不同导致,或者有些数据需要人工独立维护时出现的数据同步不及时;

    3) 各个供能机构内部的数据库分类繁多,采集筛选出的源数据不一定可靠,没有将更准确或者完善的数据推送过来;

    4) 传输网络故障,导致现场数据无法传输到主站,虽然现场设备有存储功能,但还是会导致数据应用大范围滞后[4]。

    以2017年全年采集的上海市重点用能单位关口电力数据为例,反应电力消耗的数据为冻结数据和负荷数据两类,采集频次分别为1天/次及15分钟/次,覆盖表头冻结累计电量,日峰、平、谷电量、最大需量、有功功率、无功功率及平均电力负荷。针对数据缺失的情况,某个采集终端全年传输冻结数据统计情况如下图所示:

    对于数据异常的情况。观察某些采集终端某一时段采集到的表头冻结值曲线,可以发现如下异常情况:

    1) 表头读数出现反向变化,突然变为0值;

    2) 表头读数在很长时间内无变化;

    3) 表头读数在一定时间内出现反复变化;

    可以看出常规数据采集中存在毛刺值、零值、缺省值等多种异常情况,且时常存在表头读数长时间无变化的情况,考虑到用能单位存在季节性停产的可能性,此种情况需要经验判断是否属于异常情况。

    3 数据质量控制

    针对数据质量的定义,提升数据质量的方式大致相同,主要是在数据获取及数据清洗等阶段加以干预。在数据获取阶段,采取的手段主要针对硬件设备或网络传输设备,增加其可靠性,减少产生的偶然结果对后续数据使用产生影响。在数据清洗阶段提升数据质量的主要方式是去除不相关的指标、异常值、缺省值等。同时根据数据的实际情况,设计数据识别校验的方法,如分段设定阈值判别法、数据横向对比法、数据纵向对比法、置信区间估计法、多数据来源校验、基于数据间关联关系的校验或针对非结构化数据的结构化模型表示与多源多尺度数据的融合[7],达到提升数据质量以便数据应用。

    同样以2017年全年采集的上海市重点用能单位关口电力数据为例,冻结电量的采集频次为1日/次,使用相邻两天的冻结电量相减可以得到当天的用电量,对于供能机构而言,结算日的冻结电量由于要进行月度费用结算,采集优先级很高,相对而言非结算日的冻结电量采集的优先级就比较靠后,时常出现缺失,针对此种情况,可以设计算法用能够计算出来的月度用电总量对日用电量数据进行修正,即可满足日用电数据的展示及分析。

    针对计算出单日用电数据为负值的情况,参考终端b的异常情况,判断为由换表导致的单日用电数据为负值,应该直接予以剔除,用算法对此日用电数据进行补充。

    针对计算出单日用电数据为零值的情况,参考终端c的异常情况,此时需要结合终端采集的负荷数据判断企业是否存在停产等特殊情况导致的暂停用电。对于计算所得单日用电量数据明显大于平均值的情况,也应结合采集的负荷值判断是否为企业停产后恢复用电,设定阈值并结合相邻日用电量进行判断。

    对于成对出现的绝对值相近但符号相反的异常日用电量数据,参考终端d的异常情况,考虑为毛刺值导致的相邻两天日用电量异常,应该成对剔除后用算法进行补充。

    4 结论

    随着网络技术的和大数据技术迅猛发展,信息系统的连接越来越紧密,也朝着智能化、逻辑复杂化、自动化、数据爆炸式的方向发展,数据质量的重要性越来越凸显。同时对数据处理速度也提出了更高的要求。数据质量的定义在海量数据面前也在悄然改变,准确性、及时性、一致性和完整性等指标在数据质量中的权重都在下降,可以被越来越丰富、全面的数据来弥补其他指标的不足,从整个系统的角度来看待整个系统的数据质量,增加数据的可读性,让海量的数据在系统中流转,提高整个系统的性能,也提高了数据最终应用的準确性。

    参考文献:

    [1] ?Aebi Daniel, Perrochon Louis, Towards Improving Data Quality[M]. 1993:278-281.

    [2] 赫佳,杨海成,阎艳, 等. 面向产品设计任务的可配置知识组建技术[J]. 计算机集成制造系统,2012, 18(4):705-712.

    [3] 江疆,黄剑文,杨秋勇.基于广东电网大数据的数据质量管理方法[J]. 现代计算机(专业版),2016(7).

    [4] 杨通国.智能电网大数据技术的发展策略分析及研究[J]. 科技展望,2016(14).

    [5] 黄慧,朱齐亮,智能电网数据质量控制的发展分析与展望[J]. 科技信息,2012(7):92-93.

    [6] 曹建军,刁兴春,汪挺,等.数据质量控制研究中若干基本问题[J]. 微计算机信息,2010(3).

    【通联编辑:代影】

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/22 18:27:39