网站首页  词典首页

请输入您要查询的论文:

 

标题 电力设备信息智能理解与匹配的方法研究及应用
范文

    陈张帆 庞帆 张婷 田昀

    

    

    

    摘要:坚强智能电网需要强大的信息通信技术支撑,通过“电力流、信息流、业务流”的高度融合实现设备间的互联互通。项目建设和设备档案管理信息需要各环节协调一致,得以保障电力企业经营、监测的数据信息。然而,传统的项目/设备信息实行部门化管理,管理职责割裂,信息系统脱节,缺少全链条综合管理,电网设备资产档案与设备运行信息难以对应一致,统计分析数据不规范、考虑设备实时运行的电网性能评估理论不完善、项目管理系统数据不贯通等问题日益凸显。本文针对这些问题,提出了一种从项目立项、投产建设到设备运行的全部过程信息综合汇总统计,并将项目与设备信息相关联匹配的方法,该方法将多源系统信息集成、汇总,并将项目、设备信息进行关联、匹配,实现了项目与设备档案的全过程贯通,为项目/设备统计提供基础。项目/设备快速高效匹配,降低了人工成本投入,大大提高了匹配效率和准确率。

    关键词:电力设备信息;数据溯源;中文分词;TF-IDF;关联匹配

    中图分类号:TP391 ? ? ? ?文献标识码:A

    文章编号:1009-3044(2019)15-0250-02

    1 引言

    坚强智能电网[1]是以特高压为骨干网架、各级电网协调发展的坚强网架为基础,以信息通信平台为支撑,具备信息化、自动化、互动化特征,包含电力系统各环节,覆盖各电压等级,实现“电力流、信息流、业务流”的高度一体化融合。其中,信息化是坚强智能电网的基本特征,体现为实时和非实时信息的高度集成和挖掘能力。可以通过数据采集、数据传输、信息集成、分析优化和信息展示五个方面,实现对电力系统各环节的全面监测。

    电力建设项目和设备档案信息作为电网企业经营、监测的主要数据信息[2][3],需要保证数据的可靠性在各环节协调一致,一方面能够实现设备资产的统计汇总,另一方面能够对设备运行信息实施监测和分析。随着电网建设流程逐步优化,管理精益化水平显著提高,各专业对明细数据、实时信息等需求越来越迫切,对坚强智能电网建设、企业高效协同经营管理等提出了更高要求。

    然而,传统的项目/设备信息实行部门化管理,管理职责割裂,信息系统脱节,缺少全链条综合管理,电网设备资产档案与设备运行信息难以对应一致,统计分析数据不规范、考虑设备实时运行的电网性能评估理论不完善、项目管理系统数据不贯通等问题日益凸显。针对上述问题,本文提出了一种从项目立项、投产建设到设备运行的全部过程信息集成、汇总统计,并将项目与设备信息相关联匹配的方法,该方法全面梳理了电网项目及设备的全过程综合统计指标体系,根据项目/设备信息的不同情况,制定了辅助项目与设备的智能匹配方法。本方法在国家电网公司电网设备运行信息统计分析系统中已得到应用,对于项目建设、设备运行全过程实时信息统计提供了可能性,通过多业务系统溯源集成,贯通了各个业务系统信息,为项目/设备统计提供基础。项目/设备快速高效匹配,降低了人工成本投入,大大提高了匹配效率和准确率。

    2 设备信息智能匹配关键技术

    2.1 中文分词

    中文分词(Chinese Word Segmentation) [4]指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多[5]。

    中文分词是文本挖掘的基础,对于输入的一段中文,成功地进行中文分词,可以达到电脑自动识别语句含义的效果。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单純分词方法和分词与标注相结合的一体化方法。在中文分词中,有两大难题一直没有完全突破:歧义识别与新词识别。歧义是指同样的一句话,可能有两种或者更多的切分方法。新词[6]指在分词词典中没有收录,但又确实能称为词的那些词。包括人名、机构名、地名、产品名、商标名、简称、省略语等。分词系统中的新词识别十分重要,新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

    基于人工智能的中文分词技术研究[7-9]要求我们以机器学习和模式识别的方法改善传统分词算法的不足,实现对歧义的准确识别与新词的更新,使分词结果更精确、语义更明确、结果更具可信度。

    2.2 TF-IDF方法

    TF-IDF(term frequency–inverse document frequency)[10]是一种用于信息检索与数据挖掘的常用加权技术,用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。

    TF-IDF的思想主要是:若一个词语的词频越高,则该词语越重要;若包含某词语的文本数量越少,则这个词语的类别区分能力越强,反之若某词语出现在很多文本中,则它的类别区分能力就很弱。最终计算出某个词语[tij]的TF与IDF的乘积即得到特征权重。式(2-1)中,[tfij]代表词[ti]在文档[Dj]中的TF权重,[ni,j]代表词[ti]在文档[Dj]中出现的次数(频度),[ Maxnj]代表文档[Dj]中出现频度最高的词的频度;[idfij]代表词[ti]在文档[Dj]中的IDF权重,|D|代表语料库所含文本数量。[{j:ti∈dj}]代表语料库中包含词语[ti]的文档数量。词语[ti]的TF-IDF权重[wij]等于其TF权重与IDF权重的乘积。

    TF-IDF是一种经典而有效的文本表示分析方法,也是本项目的一个重要部分。如何改进算法、使提取的TF-IDF权值更精确是本项目一个研究的重点。

    2.3 余弦相似度

    文本的相似度[11]一般是指语义的相似度。相似度计算是进行文本聚类的依据和关键。文本表示为计算机可以运算的数学模型后,以模型在数学上的相似度来近似文本语义的相似度。在向量空间模型中,文档被视为空间中的向量或是点,一般可以使用两向量的余弦或两点的距离来计算。

    余弦相似度度量公式如下。其中,Cos(X,Y)取值范围为[0,1],当Cos(X,Y)=0时,两文本不相关,即正交;当Cos(X,Y)=1时,两文本相似度最高。

    Sim(X,Y) = Cos(X,Y) = [ixi*yi(ix2i)*(iy2i)]

    余弦相似度是本项目考虑的首要相似度评价方法,我们需要根据具体的、海量的电网设备信息来优化、更新该方法。以该算法为基础,以数据为驱动,通过大量试验找到最准确、最客观的评价方法。

    3 基于TF-IDF的电力设备信息智能匹配

    3.1 基于TF-IDF的辅助智能匹配

    根据项目/设备信息不同情况,制定了辅助智能匹配方法[12-14],如流程图1所示,首先,选取设备,查看该设备是否完成关联,对于未实现关联的设备通过设备的“所属单位”、“电压等级”、“变电容量”、“项目投产日期”等设备属性进行查询,如果存在一条或若干条查询结果时,进行人工校验实现匹配。如果结果为0,则使用基于TF-IDF的匹配方法进行二次匹配,最终会选取5-10个余弦相似度最接近的信息推荐给校验专责进行确认,完成最终的匹配。

    其中,基于TF-IDF的辅助智能匹配流程图如图所示。

    1)分词:按一定规则将文本进行切分;

    2)学习训练:具体流程见计算流程;

    3)返回匹配结果。

    计算流程如下图所示:

    1)将设备名称切分成词,例如:闫村/工业/园/2#/公用变;

    2)计算线路或设备名称的TF-IDF权值,可以从表中挑选一些辅助字段,与TF-IDF权值共同组成特征向量辅助匹配;

    3)对于某个设备名称,计算另一表中所有向量与其余的弦相似度;

    4)根据数据的情况制定匹配的标准,例如,若相似度最大的匹配项目的相似度大于90%,则作为最佳匹配项;若最大的匹配相似度不足90%则列出相似度排名,作为人工选择的参考。

    3.2 效果应用与验证

    取某省主变设备信息,总计1245条,其中,通过直接关联的设备有1171条信息,针对未匹配中的74条进行基于TF-IDF的方法进行匹配,匹配中55条信息,有效将信息匹配率从原有94.06%提高到98.47%,提升了电力设备信息的统计基础,

    4 总结

    传统信息系统建设中存在的项目/设备信息实行部门化管理,管理职责割裂,信息系统脱节,缺少全链条综合管理,电网设备资产档案与设备运行信息难以对应一致,统计分析数据不规范、考虑设备实时运行的电网性能评估理论不完善、项目管理系统数据不贯通等问题,本文通过提出一种将项目、设备等多源信息集成、汇总、匹配到统计的方法,目前,本方法在国家电网公司电网设备运行信息统计分析系统中已得到应用,对于项目建设、设备运行全过程实时信息統计提供了可能性,通过多业务系统溯源集成,贯通了各个业务系统信息,为项目/设备统计提供基础。项目/设备快速高效匹配,降低了人工成本投入,大大提高了匹配效率和准确率。

    参考文献:

    [1] 李力,曹荣.以创新精神建设坚强智能电网[J].电力需求侧管理,2009,(5):4-5,10.

    [2] 刘文博.供电企业用电信息采集系统研究与应用[D].华北电力大学(北京),2016.

    [3] 刘新超.A电力公司ERP资产管理的应用[D].中国人民大学,2008.

    [4] 刘延吉.基于词典的中文分词歧义算法研究[D].东北师范大学,2009.

    [5] 田学东,吴丽红,赵蕾蕾. 基于多特征模糊模式识别的公式符号关系判定[J]. 计算机工程与应用,2009,(5).

    [6] 蒋建洪,赵嵩正,罗玫. 词典与统计方法结合的中文分词模型研究及应用[J]. 计算机工程与设计,2012,(1).

    [7] 黄翼彪. 开源中文分词器的比较研究[D]. 郑州大学,2013.

    [8] 陈振华,余永权,张瑞. 模糊模式识别的几种基本模型研究[J]. 计算机技术与发展,2010,(9).

    [9] 何苗,全宇. 基于关键词的文本内容过滤算法的改进[J]. 微计算机应用,2007,(8).

    [10] 陈琦,伍朝辉,姚芳,等. 基于TF*IDF的垃圾邮件过滤特征选择改进算法[J]. 计算机应用研究,2009,(6).

    [11] 朱命冬,徐立新,申德荣, 等.面向不确定文本数据的余弦相似性查询方法[J].计算机科学与探索,2018,(1):49-64.

    【通联编辑:唐一东】

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/11 6:40:29