数据挖掘算法性能优化的研究与应用
梁霄波
摘要:文章主要以数据挖掘算法的性能优化作为出发点,研究了相关的聚类算法,根据近些年来国际上对于聚类算法的原理、关键技术的研究分析了相关聚类个数K的相关作用和影响。希望通过文章的研究和报道能够对研究数据挖掘提供帮助,使得研究更够朝着更加有效和便捷的方向前进。
关键词:聚类算法;性能优化;k-means
1
k-means经典算法
1.1基本思想
一般来说,k-means算法可以算作是聚类算法中最为经典和有效的算法,k-means算法最早的提出时间在1967年,主要提倡在算法的过程中把k当作算法的基本参数,通过对参数的运用将n个对象分为k个簇,该种分布方法能够让每个簇中的对象具有极高的相似性,但是簇与簇之间的差别性却很高。一般来说,k-means算法的基本思想可以从4个方面加以阐述。
1.1.1随机选取个对象作为初始类的质心
k-means算法具有极高的随机性,这种随机性也是其作为算法最基本的属性,保证了数据的合理运用。由于随机性的选择对象,避免了主观的判断,使数据的后续运用能够有效地进行。
1.1.2计算对象与各个类质心的距离,将对象划分到距离其最近的类
同上文的随机性一样,这种由于算法自行运算而选择的最优方案,能够有效地缩短计算运行的时间,节约成本,提高效率,能够更陕、更方便地进行。
1.1.3重新计算每个新类的均值
一般来说,k-means算法中的这一性能是在上文2个选择的基础上进行的。由于计算机的重新计算,使得算法的步骤得以维系,方便大家的计算和运用。
1.1.4若类的质心无变化,则返回划分结果,否则转步骤1.12
第四步算法从某种程度上来说是经过条件选择后的再次算法运作。通过筛选,使得算法最终的结果显现出来。
1.2 k-means算法的优缺点评价
一般来说,作为算法中的典型算法,k-means算法在算法的运用过程中使用的频率非常高,其突出优点是算法特别简单,能够被人迅速接受和掌握。但是,k-means算法也有着本身问题。而k-means算法最为突出的不足就是具有极强的局限性,往往容易陷入局部最优的场面,初始聚类中心的划分和优化比较麻烦,而且值的选定不够灵活,需要在算法之前先进行选择。
2k-means对初始聚类中心的改进
对于算法中结果的改进就是指借助对于某些方面的改动将算法运行得更高效,更能体现算法最终需要达到的目的。而对于聚类算法的改进,从另外一方面来讲就是为了得到更好的聚类结果和更高效的聚类过程,就是希望能够达到聚类的结果在同类间尽可能相似,不同的类间尽可能地体现出差别。对于k-means算法来说,其改进方法也遵循这样的一个原则。从k-means算法提出至今,已经有很多人对于算法进行过改进,一般来说有以下几个方面的改进方法。
2.1多次选择法
这是一种在算法设计中经常使用到的一种方法,该种方法主要的目的在于通过对于初始类中心点的聚类过程的多次重复,由于重复的次数足够其可以看作是一次随机的偶然事件,所以在选择的时候可以将选择中的某一次看作是一个随机事件。
2.2经验法
经验法相对于多次选择法来说,主观性要更强一些,在进行数据挖掘的过程中通过某种存在的既有经验对数据进行选择,将其中具有某种代表性的点作为初始的聚类中心。
2.3取样法
取样法也是算术中经常使用的一种方法,该种算术方法指的是在算术运算的过程中先将算术进行一次初次的整体分类,这样可以产生一种分类中心。然后多次重复这样的做法,选择出多组的分类中心,通过对分类中心的分类和比较最终选择出最佳的方案进行比较。
2.4密度法
密度法的运用从某种程度来说是最简单的,密度法是指在运算之前为某一个区域中的点提前设置好某一个定值,然后通过转移的方法将这个定值与其他的区域中的点进行比较,如果其他区域中点的密度与这个定值相近则说明这2个区域接近。最后通过相互选择从而确定最符合的初始聚类中心。
2.5递归法
递归法的运用可以看作是最常见的一种初始聚类中心的寻找办法,具体的做法是先把全部样本看成一个类,样本总均值点就是第一类的初始聚类中心;然后,由一类的初始聚类中心和离它最远的一个样本作为两类的初始聚类中心。依此类推,由类的代表点和离它们最远的一个样本点作为类问题的初始聚类中心。
总的来说,k-means的改进方法还有很多,每种方法都具有一定程度的可行性。但是,需要注意到,在对k-means算法进行改进的时候,聚类中心本身就具有一个特性,在各种改进方法运行的时候需要对此予以满足,这个特性就是无论采用何种改进方法,初始聚类中心要在不属于同一个簇的情况下尽量靠近簇中心。
3k-means算法值的确定
k-means算法中,值的确定是具有一定难度的。不仅是因为值的准确程度难以在实际的算法运算过程中加以测定,因为准确值的确定需要一定程度的专业知识。而且,就另外一个方面来说,要确定值就必须对聚类有效性函数(最佳聚类数kopt)有一个较为清楚的认识。一般而言,在如今的世界领域内,确定k-means算法的值依然是一个不断研究的过程。从1997年“kmax”的提出到近些年来“距离代价函数”的概念的广泛运用,关于k-means算法的值的确定一直在进行,也在不断丰富和完善。
4k-means算法在高校评教中的应用
4.1学生评教的基本介绍
在高校对于学生的教学管理这一方面,学生对于教师的评教可以看作是十分重要的回馈环节。评教通常设置在学生查看课程成绩之前,即学生先对任课的教师进行评教,才能查看自己的学科成绩。从某种程度上来说,这种做法有效地避免了学生由于对教师所给成绩的不满意而随意评教的情况,能够客观地对各位教师的教学情况作一个了解。评教的存在对于学生、教师和管理者来说,都提供了相当大的便利。对于管理者来说,学生评教可以看作是一个了解教师以及学生的渠道,通过评教对整体的教学情况进行把握。对于教师来说,起到了一定程度的提醒作用,督促教师履行自己的教师义务,改正自己的教育教学措施,更有效地进行教育教学。对于学生来说,多了一个反馈的渠道,并不是如中小学一样没有一个反馈的对象,被动地学习,这种方法在某种程度上促进了学生的责任意识,有利于学生的成长和学习。
4.2学生评教中k-means算法的重要性
教学过程中学生的评教是一个十分复杂的过程,教师的教学是难以从某一个方面进行界定的。教师的评教一般包含了教师的教学内容是否让学生满意,教师的教学风格是否让学生满意,足够幽默风趣,教师是否严格履行了自己的教学任务,不在教学过程中接电话,按时上课,备课是否充分,观点是否鲜明,能否吸引学生的兴趣等。这些数据的整理是需要分类的,而不是单纯地进行统计就可以得出来的。对于学生来说,教师的行为是多样性的,在很多情况下是难以用是或否进行片面的界定,而是需要运用聚类的算法进行一个大致的衡定。在具体的评教过程中,数据算法要能够根据所掌握的数据分析一些确实能影响学生学习、掌握知识的具体因素,如教师在授课过程中是否还应该多介绍该学科最新发展动态、最新研究成果和启发学生思维、创造良好课堂气氛等,数据的分析要尽可能客观详尽,有理有据,让数据能够尽可能地反映出每一位教师的教学形象,看出每位教师的具体特点,对待工作有没有尽心尽力,是否积极批改作业和辅导学生的进步等。
4.3学生评教过程中k-means算法的运用
k-means算法运用到学生评教的过程中主要是运用其聚类分析的特点,通过确定初始聚类中心将学生评教的数据与初始数据进行核对,从而分析教师的行为是否能够让学生满意,通过对k-means算法中值的确定,确定较为精确的学生综合评价结果,反馈出教师的教学形象从而帮助教师的教学进步。在具体的学生评教过程中,k-means算法可以采用上文所提到的那几种改进方法,使得k-means算法更加方便,更能够为人们所接受,也更加客观、深刻地反映出数据本身所蕴含的强大的规律,便于管理者对于教师学生的管理、教师对于自我教学能力的提高和学生自我责任意识以及主动意识的培养和提高。
5结语
随着社会的进步和发展,已经进入电子信息化的时代。大数据的时代要求人们对数据分析以及算法具有一定的基本常识,从某种程度上来说,k-means与人们的生活息息相关,很多方面都离不开其强大的算法支持。而在另外一个方面,数据挖掘算法是一个比较广泛的概念,其所涉及的方面有很多,k-means算法只是其中较为典型的一种。文章主要根据k-means算法的概念、优点以及需要改进的地方谈起,介绍了k-means算法需要重点关注的2个方面,并结合高校学生评教系统进行概述,阐述了在学生评教系统中k-means算法的运用及其作用。