标题 | 基于模糊关联空间的有效大数据过滤方法 |
范文 | 李玮瑶
摘 要:传统的大数据过滤方法,其降噪处理和过滤效果都会对最终结果产生一定影响,导致过滤效率低下。基于此,本文提出基于模糊关联空间的有效大数据过滤方法,利用动态编译实现数据采集过滤,进行分布式离群点检测,通过网闸过滤对数据信息进行过滤。经对比试验,该方法能够实现有效大数据的高效过滤,而基于区域划分的数据过滤方法,无法充分利用试验环境中所有实体的数据信息,因此不可能实现较高的过滤效率,由此证明了本研究所提方法的实用性和有效性。 关键词:模糊关联空间;有效大数据;过滤 中图分类号:TP312 文献标识码:A 文章编号:1003-5168(2019)29-0011-03 An Effective Big Data Filtering Method Based on Fuzzy Correlation Space LI Weiyao (School of Computer Science, Pingdingshan University,Pingdingshan Henan 467000) Abstract: The traditional big data filtering method, its noise reduction processing and filtering effect will have certain influence on the final result, resulting in low filtering efficiency. Based on this, this paper proposed an effective big data filtering method based on fuzzy associative space, used dynamic compilation to realize data collection and filtering, performd distributed outlier detection, and filterd data information through gatekeeper filtering. Through comparative experiments, this method can achieve efficient filtering of effective big data, and the data filtering method based on region division can not fully utilize the data information of all entities in the experimental environment, so it is impossible to achieve high filtering efficiency, which proves the practicality and effectiveness of the method proposed in this study. Keywords: fuzzy association space;effective big data;filtering 在空间数据挖掘研究领域,空间关联规则具体指的是空间对象彼此间的空间和非空间的相互关系[1]。因為空间对象彼此间的关系一般会利用空间和非空间的定语来表示,与之相对应,挖掘空间的关联规则就必须借助两类层次进行充分表达,即概念层次与空间关系层次[2]。其中,空间关系层次主要包括空间拓扑构造、空间方位层次以及空间度量关系层次[3]。这些层次的类别构造并不具备硬性标准,这就需要适当引进模糊隶属度来对边界进行软化,产生模糊概念层次以及模糊空间关系层次,在这个基础上所研究的空间关联规则就是人们常说的模糊空间关联规则(FSA Rs)[4]。本文以有效大数据信息为关键,对其处理和过滤方法进行了研究,希望可以在某些方面给予研究人员一定启发。 1 基于模糊关联空间的有效大数据过滤方法 1.1 利用动态编译实现数据采集过滤 动态编译数据采集工具的主要功能是采集数据在运行过程中产生的信息,以特殊的格式完成存储,为后续分析与过程回放提供有效的数据源。首先利用系统配置向导去选取合适的匹配信息,有关匹配信息的内容主要包括数据类别、系统相关运行信息。其次,配置完成以后,按照具体的配对信息自动生产一组动态代码,将动态代码组编为动态编译,形成一个正式结构。此结构就是针对系统动态生成的数据采集信息。最后,用户可以在形成的数据树表中选取合适对象的有关信息。 1.2 构建虚假无效数据的识别规则库 对大数据下的有效数据样本进行统一归类和处理,利用聚类算法对虚假无效数据进行必要的聚类集成,得到虚假无效数据的全部类别信息,完成虚假无效数据的具体分类,按照聚类中心建立的虚假无效数据识别规则库,建构一个完整的虚假无效数据识别模型,具体过程如下。 假设[Z1,Z2,…,ZN]表示大数据下有效数据样本,[j=1,2,…,N]表示有效数据样本内的具体数量,为了最大限度地规避大数据环境下数据样本内最大值和最小值的影响,就必须对有效数据样本进行统一归类处理,有些虚假无效数据极有可能属于同一类型,所以就需要把每一个流量数据看作是一个聚类中心。对于流量数据,其属于聚类中心的基本概率计算公式为: [Di=j=1exp(-δZi-Zj)]? ? ? ? ? ? ? ? ? ? ? ?(1) 式中,[δ=4r2a]为一个标准情况下的参量;[Zi-Zj]为其具体的欧式距离大小;[ra]表示其属于非负数范围,表示其邻域,假设一个正常运行过程中出现的数据出现了多个近邻数据,那么该数据就极有可能成为聚类中心;[Di]为标准运行数据[Zi]和[Zj]之间的欧式距离。 选择[Di]中概率最大的数据作为聚类中心,假设1代表虚假无效数据的规定类别,其出现概率就以[D1]来表示,可借助式(2)对其余正常运行数据被称为聚类中心的概率进行具体计算。 [?=Di-D1exp(-γZ1-Y1)]? ? ? ? ? ? ? ? ? ?(2) 式中,[γ=4r2b]为一个常数参量,表示其邻域属于[rb]。 分析式(2)可知,[Z1]表示标准状态下运行数据出现的第一个类别。当得到第[K+1]个聚类中心时,其余数据均可以视为第[K+1]个聚类中心的概率可借助式(3)获得: [χ=Di-Dkexp(-γZi-Yk)]? ? ? ? ? ? (3) 式中,[Yk]为第[K]个虚假无效数据类别属性;[Dk]为其出现概率。 对正常运行状态下出现的数据概率大致设定一个范围,当上述过程没有超过该范围时,[Dk<0.15D1],就需要停止换代,获得全部虚假无效数据的类别,实现虚假无效数据的实时分类。假设聚类中心[Ck]相对应的虚假无效数据类别为[C1],那么就可获取其余虚假无效数据识别的运行规则,即 [RK=??(yk/ak)]? ? ? ? ? ? ? ? ? ? ? ? ? (4) 式中,[?]为正常运行状态下数据向量的一般维度;[yk]为相对应的空间关联模糊规则;[ak]为一标准常数。 虚假无效数据识别规则的触发可通过式(5)对其进行计算[10],即 [uk=exp(-δ?-Ck)rd]? ? ? ? ? ? ? ? ? ? (5) 式中,[rd]为虚假无效数据的聚类半径。上述虚假无效数据的识别规则转换为以下公式: [Rk=xop×Akp(-δyk-ak)]? ? ? ? ? ? ? ? ? ? ?(6) 式中,[xop]为大数据下第[p]个正常运行数据的特征;[Akp]为第[k]条检测规则的第[p]个数据特征的隶属度函数。选用高斯函数作为隶属函数,则有 [Akp=exp-12xop-ckp?kp2uk]? ? ? ? ? ? ? ? ?(7) 式中,[ckp]为聚类中心作为[Ck]的第[p]个正常运行状态下出现的常规数据;[?kp]为聚类中心的扩展范围。 按照式(7)的计算,对剩余的聚类中心组建相对应的识别规则库,由此构建用于虚假无效数据识别的规则库,从而获得该规则库下的虚假无效数据识别规则: [y=K=1UykuKK-1UuK]? ? ? ? ? ? ? ? ? ? ? ? ?(8) 式中,[yk]为第[k]条识别规则相配置的识别结果;[u]为识别规则的总数。 1.3 实行分布式离群点检测 如果数据集合中存在一定数量的[pct]部分对象和对[o]的距离超过[DT]限定,对象[o]就作为基于距离的有关参数[pct]与[DT]的离群点而存在,即[DB(pct,DT)=Out lie]。如果假设[k]代表用户所要求的离群点下的数目相同,那么其偏离度就是最大的,假设[k]个对象均属于离群点,那么其检测过程大致如下。 确定[k]个簇、[n]个数据,对[s]个离群点进行叙述,使[out lie Set =K],其中相对离群点集合就被赋予空集的定义,将输出的簇集视为[KCo];当[KCo=OKCo]时,能够保存涵盖所有离群点的候选微聚类集合,按照计算结果获得数据聚类的信息熵以及偏离度,再依次取出各元素,进行计算,根据结果判断出信息熵的值是否在阈值范围内,如果计算结果超出阙值范围,说明此数据不列入离群点内,排除这类数据聚类;在输出过程中,将离群点重置到[out lie Set ]中。 1.4 利用网闸过滤进行数据信息过滤 网闸过滤组织主要用于对不同符号型属性进行有效分类,如此能够针对不同的数据类型实行更为精准的过滤程序。假定[Fu,v]为过滤组织的过滤阀值,那么[fx,y]就是对应条目下Web网络内所有数据含有的甄别属性,[uπ]则代表数据信息提取系数的对照比,这样就能够利用符号型属性完成公式的建立,即 [F(u,v)=c(u)c(v)4x=0ny=0nf(x,y)+cos(2x+1)uπ16cos(2y+1)vπ16]? (9) 借助式(9)可以有效区别Web网络内的数据信息,可以降低部分过滤组织的任务量,也有效提高了过濾组织对数据的准确度。通过初级过滤后,将其输入条件矩阵内完成矩阵过滤。假定携带符号型属性的信息数据矩阵为[Tij],其需要与条件矩阵[T′ij]进行数据转换。 实际运行过程中,对信息数据矩阵[Tij]和运行条件矩阵[T′ij]进行对比,实现初级过滤。初级的数据过滤不能完全满足实际需要,因而需要对其阈值进行二次过滤,阈值的二次过滤必须具备一定的对应预处理,如下所示: [Rk=1IZFYLK+FY2KLa-FY3K+FY4KLB(T)+rk-1](10) 式中,[FYLK]为数据信息的双重权属系数;[FY2K]为条件矩阵的符号型属性;[La]为符合阈值过滤范围内的符号型属性;[1IZ]为甄别系数;[LB]为数据信息属性中的只读属性;[rk-1]为预处理状态下的数据参数;[Rk]为预处理状态下的属性参数整集。通过预处理设置后的数据输入阈值范围,就能够实现阈值的二次计算,而阈值选择公式为: [minW=12i,j=1iyiyj?i?jKxi,xj]? ? ? ? ? ? ? ?(11) 式中,[yi]、[yj]分别为数据信息内所有的专属阈值以及特定状态下的识别指数;[?i]、[?j]分别为调取参数和调取阈值;[K(xi,xj)]为所属粒子集群。 如此一来,数据信息就能够完成阈值的二次过滤,大大提高数据信息的过滤逻辑性,计算公式如下: [S=DT+DDB+nΔt]? ? ? ? ? ? ? ? ? ? ?(12) 式中,[T]为数据识别的基本属性;[D]为可以实现数据分组操作的数据集合;[Δt]为数据实际运行状态下的转变值,这样就可以实现其快速分类;[B]为数据信息的序列号。 通过上述过程,人们就可以完成对数据信息的分类过滤。 2 试验与效果分析 为了更加直观地展现基于模糊关联空间的有效大数据过滤方法的实际应用效果,特与传统的基于区域划分的数据过滤方法进行对比,对其过滤能力进行比较。 2.1 试验准备 为保证试验的准确性,将两种有效大数据过滤方法置于相同的试验环境中,进行过滤能力的有关试验。 2.2 试验结果分析 试验过程中,两种不同的有效大数据过滤方法同时在相同环境中工作,而在试验环境中,数据过滤的目的就是最大限度地减少冗余数据的产生,其主要衡量指标即数据的过滤效率。试验效果对比如图1所示。 通过试验对比结果可知,采用基于模糊关联空间理论的数据过滤技术后,合理设置K值,能够确保关联体内的每一个实体与该关联体间的关联度均超出某一限定值。在整个试验过程中,数据过滤效率是能够实现控制的,模糊关联空间体现出实体之间基于属性关联度的一种整体关联,这也是数据过滤的本质目的;而基于区域划分的数据过滤方法,无法充分利用试验环境中所有实体的数据信息,因此不可能实现较高的过滤效率。试验证明,本文所提设计方法具有很高的实用性和有效性。 3 结语 本文对基于模糊关联空间的有效大数据过滤方法进行分析,根据模糊关联空间理论和概念,对大数据过滤方法进行优化,实现设计目的。试验论证表明,本文设计的方法具备极高的有效性。希望本研究能够为基于模糊关联空间的有效大数据过滤方法提供理论依据。 参考文献 [1]谢烨,陈熙哲,丁宇.有效大数据信息处理与过滤[J].现代信息科技,2017(5):117-118. [2]罗弦,冯浩,王逸兮,等.Web环境下大数据动态不良信息安全过滤系统设计[J].电子设计工程,2017(24):15-19. [3]趙珂,彭清畅,刘光俊.大数据实时流计算的高铁转向架数据过滤算法研究[J].软件,2018(11):88-95. [4]汪苗苗,焦学磊.概率数学模型在数据过滤中的应用研究[J].科技通报,2019(6):20-23. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。