标题 | 浅析模糊聚类分析在数据挖掘中的相关运用 |
范文 | 王竞哲 【摘要】 数据挖掘是完成数据分析的关键,在数据挖掘中常用的一种方法就是聚类分析,在具体的分类中可遵循一定的原则和规律将重要数据实施分类,从而通过分析发现其应用价值。本文主要探讨的是模糊聚类分析在数据挖掘中的相关运用问题,在具体的分析中首先分析了常用的聚类算法,其次就模糊聚类分析相关内容展开分析,最后重点总结了模糊聚类分析在数据挖掘中的应用。 【关键词】 模糊聚类分析 数据挖掘 数据处理 应用分析 一、常用的聚类算法 聚类顾名思义就是将数据按照一定的规则进行分类整理,因此在数据分类中,不同的聚类方法有着不同的特点,常用的聚类算法主要有以下几种: 1、按照层次为基础的聚类。按照层次为基础的数据分类主要是根据层次将主要数据进行聚类,在具体操作中可以从上向下进行分解,同时也可以从下向上进行合并,这也是基于层次聚类的操作方法。在实际应用中要求假设数据是一次性给定的,属于一种非增量算法,这种聚类方法在单连接、全连接以及平均连接技术的时间以及空间复杂程度为0(n2)。 2、以划分为基础的聚类。通常根据实际需要建立n个划分,通过循环定位技术将研究数据从一个划分向另外一个划分移动,在移动中促进划分质量的改善。 3、以密度为基础的聚类。这种聚类方法主要以密度为基础,主要依据就是研究数据周围密度的不断增长,在具体的应用中有两种操作方法,一种是基于密度分布函数的聚类,另外一种方法就是以高密度连接区域为基础的聚类方法。 4、以网格为基础的聚类。将研究多项根据实际要求划分成若干个有限单位,形成网格机构,根据网格结构实施数据聚类。 5、以模型为基础的聚类。对于每种聚类建立相应的模型,根据这种模型发现与之对应的数据。当然以模型为基础的聚类算法可能需要构建反映数据空间分布的密度函数,进而完成数据的定位。 二、模糊聚类分析概述 常言道“物以类聚,人以群分”,可见聚类问题的研究由来已久,而且伴随着大数据时代的来临,对于聚类分析的要求是越来越高。聚类分析需要掌握不同数据之间的相似性,但是早期的聚类算法大多采用的是硬划分,也就是对于所研究的数据必须有明确的分类,如果不是这一类,那就是另外一类,忽视了数据本身具有的复杂性,在一定程度上忽视了数据的多变性,模糊理论的提出可有效地应对数据的变化性和复杂性,在聚类分析上更加客观真实[1]。 模糊聚类最早是由Ruspin提出的,在提出这一概念后研究了多种聚类方法,多种聚类方法具有一定的共同点,通过多种文献的比较,一个合适的聚类应该满足重要的三个条件,主要是:(1)自反性,也就是在聚类中任何一个研究对象都需要和自己是同一类,数学定义可以表示为Iii=1;(2)对称性,就是说a和b属于同类,那么反过来,b和a也应该术同类,数学表达为Iij=Iji;(3)传递性,就是说a和b属于同类,b和c属于同类,那么a和c也应该是同类。 模糊聚类主要操作步骤为去顶分类对象,抽取因素数据;建立模糊相似关系,主要是模糊相似矩阵,具体的可采用最大最小法,算数平均最小法、相关系数法等;最后是根据模糊相似矩阵完成数据分类。 三、模糊聚类分析在数据挖掘中的应用分析 3.1模糊数据算法分析 模糊聚类算法在实际应用中大多采用基于目标函数的方法,在具体的聚类中主要划分标准为数据之间的相似性或者相异性函数,实际上也就是一种转化思想,将聚类问题最转化为函数极值的优化问题,当然经过多年的研究,在目标函数聚类算法中较为完善的主要是FCM,这种算法是将聚类分析问题转化为非线性规划问题。不过在此基础上已经发展起来了快速模糊C—均值聚类算法,这种算法是将一层硬C-均值算法置于模糊C-均值聚类算法之前,这种聚类方法获取的聚类信息更加丰富,相应的在算法难度上也有所增加。这种算法面对现代大数据时代有明显的优势。 3.2模糊聚类特点分析 模糊聚类分析相对于早期的聚类方法有着明显的优势,具体的有以下几点:(1)高效率,模糊聚类算法相对于K-中心点算法、K-平均值算法计算量相对减少,提高了时间效率。而且在处理中可以将数据形成相似矩阵,通过对相似矩阵的处理完成聚类,提高数据处理工作效率;(2)灵活性高,在聚类中可根据具体要去动态的设置λ值,从而得到不同的聚类结果,这种算法降低工作量的同时还能提高聚类的灵活性;(3)应用范围更广,对于数据边界清晰的,传统方法以及模糊聚类都可应用,但是对于大量数据分界不明显的,则只有通过模糊算法才能取得满意的聚类;(4)在应用中可更好的找出孤立点;(5)有较强的伸缩性[2]。 四、结束语 模糊聚类的提出和应用为解决大数据时代信息技术奠定了基础,这种聚类方法可以更方便快捷的从数据中寻找有重要价值的数据,具有较高的时间操作性和便捷性,在未来的数据处理中将发挥重要的作用。 参 考 文 献 [1]王颖洁.模糊聚类分析在数据挖掘中的应用研究[J].大连大学学报,2011,03:1-4. [2]李晶,杨玚.模糊聚类分析在数据挖掘中的应用[J].漯河职业技术学院学报,2010,05:4-5. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。