网站首页  词典首页

请输入您要查询的论文:

 

标题 决策树典型算法研究综述
范文

    邵晏晖

    

    

    

    摘要:决策树算法是数据挖掘领域的一个研究热点,通常用于提取描述重要数据类的模型或预测未来的数据趋势。该文介绍了决策树及其发展过程,重点阐述了三种典型的决策树算法,分析了它们的优缺点,并对三种算法进行了比较,最后探讨了决策树算法的改进方向。

    关键词:数据挖掘;决策树;分类

    中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)08-0175-03

    1引言

    数据挖掘(Data Mining)技术是一个非常热门的、重要的、具有广阔应用前景的研究领域。数据挖掘的两个目标是预测和描述。分类算法是属于预测式数据挖掘的一种数据分析方法。其中,决策树算法是目前经常被使用的数据分类方法之一,已经成功应用在医疗、交通、金融等领域。

    决策树是机器学习中的一个树状预测模型,其内部结点表示在一个属性上的测试,而叶子结点代表最终的类别结果。决策树模型很自然地还原了做决策的过程,将复杂的决策过程拆分成了一系列简单的选择,因而能直观地解释决策的整个过程。

    本文对三种典型的决策树分类算法进行了介绍,分析了不同算法的优缺点,并讨论了决策树算法今后的改进方向。

    2典型决策树分类算法

    决策树是一种常用的数据挖掘方法,是一个类似流程图的树型结构。决策树包含三个元素:根结点、内部结点和叶子结点。若要对未知的数据对象进行分类,可以按照决策树的数据结构对数据集中的属性(取值)进行测试,从决策树的根结点到叶结点的一条路径就代表了对相应数据对象的类别预测。决策树是一种分而治之(divide-and-conquer)的决策过程,形成决策树的决策规则有许多,如信息增益,信息增益比,基尼指数等。下面介绍三种典型的决策树分类算法:ID3算法、C4.5算法和CART算法。

    2.1 ID3算法

    决策树分类方法的核心算法是由Ross Quinlan在1986年提出的ID3算法。ID3算法的思想是:首先在决策树的各级结点上,选择信息增益最大的属性作为分类结点,根据该属性的不同取值分裂出各个子结点,随后采用递归的方法建立决策树的分支,直到样本集中只含有一种类别时停止,得到最终的决策树。

    基尼指数与熵有类似的性质。Gini(D)、Cini(D,A)分别表示集合D的不确定性以及通过A=a分割后集合的不确定性。基尼指数值越大,样本集合的不確定性也就越大。

    CART算法的优点:1)自动处理缺失值,无需进行缺失值替换,能够处理孤立点。2)可使用自动的成本复杂性剪枝来得到归纳性更强的树。3)变量数多时,可判断属性变量的重要性,自动忽略对目标变量没有贡献的属性。

    CART算法的缺点:1)CART算法本身是一种大样本的统计分析方法,样本量较小时模型不稳定。2)CART算法的要求是被选择的属性要是连续且有序的,并且只能产生两个子结点。

    2.4三种算法的比较

    本文给出了三种典型的决策树算法,它们在关键技术上的使用各自不同,表1列出了对此的一个比较。

    3决策树算法的改进方向

    3.1决策树算法的分类精度

    分类预测算法的精度代表了该算法得到的预测分类结果和实际分类结果之间的接近程度,精度越高,预测的结果越接近现实情况,说明分类算法性能越好。决策树的分类精度将会一直是今后的研究重点。判断各种决策树的生成算法和剪枝算法的优劣,精度是最重要的衡量指标。决策树剪枝是为了减小数据噪声对影响,构造多变量决策树是为了减小决策树的深度,它们的最终目的都是为了提高决策树的精度。

    3.2决策树算法与其他技术的结合

    在数据挖掘中,面临的数据往往是海量的,数据挖掘方法的主动性和快速性显得日益重要。只使用单一的决策树分类算法已经很难处理目前日益庞大的数据集,完成各种数据挖掘任务。因此需要研究决策树算法同其他方法交叉结合的问题。如果把决策树方法同神经网络技术、模糊集理论、遗传算法等相结合来进行研究,可以不同程度地提高处理效率和精度。

    4结束语

    决策树算法虽然已经有了广泛的研究和应用,并且广泛应用于各个领域,如语音识别,模式识别,专家系统等。但是,决策树算法仍需在适应性、容噪性等方面进行适当的改进。如何寻找更好的数据预处理方法,如何发掘更好的优化决策树方法,如何更有效快速地完成决策树剪枝,如何将决策树与多种方法交叉结合等多种问题,都需要今后的学习中去研究。

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/23 2:13:58