标题 | 基于属性加权的朴素贝叶斯分类算法改进 |
范文 | 胡胜利+王琦敏 摘要:通过对朴素贝叶斯算法的学习和理解,针对削弱朴素贝叶斯属性条件独立假设的问题,该文提出了一种改进的加权算法,该算法通过对增益率加权和关联度得分加权的思想来确定新的权重系数来提高准确性。最后,在MATLAB软件中使用UCI数据集对模型进行了验证。实验结果表明,相对于传统的朴素贝叶斯算法,改进后的算法提高了分类的准确率。 关键词:贝叶斯公式;朴素贝叶斯算法;MATLAB 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)29-0257-02 贝叶斯算法也叫贝叶斯推理,在18世纪,英国学者贝叶斯曾提出计算条件概率的公式用来解决如下问题:在已经知道某条件概率情况下,怎样得到两个事件交换后的概率,即已知P(A|B)的情况下求P(B|A)。贝叶斯定理的进行分类的一个简单的应用就是朴素贝叶斯算法,它的基本思想就是对给出的等待分类的项,求出在此项出现的条件下各项类别出现的概率,在这些概率中找出最大的,就认为这个等待分类的项属于那个概率最大的对应的类别。 已知集合:C={y1,y2,y3,.....,yn}和I={x1,x2,x3,......,xn},通过构造相应的映射规则y=f(x),使得I集合中的任意元素xi有且仅有一個在C中的元素yi,使得yi=f(xi)成立。在分类问题中集合C就表示类别集合,I集合就表示数据集合,而映射规则f就是分类器。分类算法就是构造相应的分类器。分类算法基本上都是通过相关经验来构造相应的映射,在一般情况下未能构造完全准确的映射是因为分类算法缺少一定量的数据,最后可以通过对我们已经知晓的数据进行分析和整理来求出这一定概率上的分类。文献[1]提出了根据属性的重要性给不同属性赋不同权值的加权朴素贝叶斯(Weighted Naive Bayes,WNB)模型,并通过实验发现它们能改进朴素贝叶斯的分类效果。文献[2]则利用数据本身导出特征加权的方法来提高朴素贝叶斯分类器的分类性能。本文则是通过对增益率加权和关联度得分加权的思想来确定新的权重系数来提高准确性。 1 朴素贝叶斯分类原理 贝叶斯分类是非规则分类,首先通过我们已经分过类的例子集,训练出所需要的分类器,最后没有分类的数据可以使用分类器进行分类,这些分类器算法包含有基于结构的森林扩展、平均树扩展(ATAN)的朴素贝叶斯和基于属性的条件似然对数(CLL)朴素贝叶斯等。 贝叶斯分类具备以下几个特点: (1) 可以对不确定的预测做出假设的特点,确定某一实例从属的类别,计算得出所求那一类的概率,明确不仅仅是把该实例绝对性的指给某一类,最后所求的实例从属的类就是拥有具有最大概率的类。 (2) 属性的类别可以是多样的,如离散、混合甚至是连续型的,实例的全部属性都要加入到联合概率计算中,即分类不止一个的属性决定。 (3) 对实例的预测也可以由多个假设加上权重的概率一起计算出,等等。 贝叶斯定理检验假设h的概率,基于假设的先验概率,给定假设下观察到不同数据的概率以及观察到数据的本身的先验概率。用P(h)表示假设h的初始概率。用P(D)表示即将要观察的数据D的先验概率,P(h|D)代表给定D时假设h成立的概率,P(D|h)表示假设成立的条件下D的概率。贝叶斯规则定义如下所示: 令Dc表示训练集D中第c类样本组成的集合,如果有充足的独立同分布样本,就可以容易的统计出类先验概率: 假设有m个类C1,C2,.....,Cm,给定元组X,在条件X下分类法将预测X属于具有最高后验概率的类,朴素贝叶斯预测X属于类Ci,当且仅当: 由贝叶斯定理易知: 由于P(X)对所有类为常数,所以最大化p(Ci|X)即P(X|Ci)P(Ci)最大即可。而P(Ci)即先验概率,P(X|Ci)即X样本属性的联合概率,计算方式如下: 由于(5)式的计算需要假设样本的n个属性相互独立,而在日常生活环境下,没有完全相互独立的事物存在,即事物之间必定存在着某种普遍的联系。因此在这种现实情况下朴素贝叶斯算法会受到一定的影响,为了削弱这种影响本文通过对(5)式中的属性进行加权,将属性间的相互独立要求削弱。即将(5)式修改如下: 现在就是寻找一个方法来计算这个权重w。 2 加权朴素贝叶斯计算模型 2.1 模型计算方式 在朴素贝叶斯分类器中,属性变量与类变量的关系并不是简单的是/否关系,所以属性加权方法的提出很大程度上弱化了朴素贝叶斯条件独立的假设。属性加权可以看作是属性选择的一个概括化和一般化。2004年zhang和sheng提出了一种基于增益率的属性加权方法,其属性权值的计算公式如下: 式中,GR(i)代表属性变量Ai的增益率,m代表样本所含属性个数。还有一种基于ReliefF的属性加权方法,其主要是将属性的关联度得分结果作为属性的权值,起计算方式如下: 式中,RelevanceScore(Ai)代表基于ReliefF的属性选择方法中属性Ai的关联度得分。为了同时考虑到属性的增益率加权系数和关联度得分加权系数,本文定义了一种新的属性加权计算方式为: 式中wz表示增益率加权系数,ws表示关联度得分加权系数。 2.2 算法步骤如下 (1) 计算属性的增益率加权系数和关联度得分加权系数。 (2) 根据前面的计算结果来计算权重w。 (3) 通过计算出的权重系数来对样本进行朴素贝叶斯分类。 其算法流程图如图1: 3 仿真实验结果 本文所使用的实验工具是美国MathWorks公司出品的商业数学软件MATLAB7.1版。通过从UCI数据集[4]中下载相关数据集来验证提出的加权朴素贝叶斯算法是否比原来的朴素贝叶斯算法好。表1为实验数据,通过从图中的实验数据可以看出本文提出的加权算法比原算法分类效果要好,特别是对于类别数数据集较少的数据。 4 结论 本文针对消若属性条件独立的问题,所提出的加权属性朴素贝叶斯算法。虽然在算法的分类精确度上有了明显的提高,但是通过计算属性增益率权重和关联度得分权重来计算新的加权系数,从算法的复杂度角度分析,明显提高了算法的时间复杂度。接下来的研究就是怎样提高算法的时间复杂度。 参考文献: [1] Harry Z,Sheng S L.Learning Weighted Naive Bayes with accurate ranking[C]//Proceedings of the 4th IEEE Interna-tional Conference on Data Mining(ICDM 04),Brighton,UK,2004:567-570. [2] 程克飞,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94. [3] Friedman N,Goldszmidt M. Building classifiers using Bayesian network[A].Proc Nation Conference on Artifi-cial Intelligence[C]. Menlo Park, CA: AAAI Press,1996,27-1284. [4] Blake C.Keogh E.MerzC.UCI repository of machine learning database[EB/OL].http://www.ics.uci.edu/mlearn/MLRepository.html.1998. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。