网站首页  词典首页

请输入您要查询的论文:

 

标题 关于大数据挖掘中的数据分类算法技术的研究
范文

    

    

    

    摘要:数据分类算法作为大数据分析与数据挖掘中的关键内容,面对大数据信息时代的到来,各种各样的分类技术和算法高速发展,但在发展的过程中仍然存在部分难以有效解决的问题。该文通过对数据挖掘分类问题的分析,提出决策树分类算法、人工神经网络分类算法和朴素贝叶斯分类算法改进策略。

    关键词:大数据分析;大数据挖矿;分类算法技术

    中图分类号:TP18 文献标识码:A

    文章编号:1009-3044(2019)35-0006-02

    1 背景

    若希望大数据产生实质性的价值和意义,对大数据的处理过程是极其重要的,因此大数据分析、大數据挖掘就是这些处理过程中的重要组成部门。那么大数据挖掘到底是什么?数据挖掘指的是从海量、有噪声、不完善、模糊性较高且随机的数据信息当中提取暗含在这些海量信息当中的,在挖掘以前人们对其具体情况完全不了解的,但是又能够产生价值的有用信息的一种过程。在数据挖掘对象方面,需要根据数据信息的具体储存方式,对数据库、文本数据资源、空间数据库等等进行一系列的挖掘工作。在数据准备方面,包括择取数据信息,也就是在数据库目标当中提取数据信息的最终目标数据集合;还包括数据信息的预先处理工作,也就是对数据进行二次加工,检测数据的统一性、完整度,将这些数据信息进行降噪处理、清晰化处理,填补已经丢失的部分数据信息,将无用的、不能对需要人员产生实质性价值的信息予以删除。

    2 大数据分析与数据挖掘当中,关于数据挖掘的分类问题

    大数据分析和数据挖掘技术就是从大量数据信息当中获取可用、有效信息的一个过程,从数据当中寻找、探索、开采知识的过程。同时,数据挖掘技术是现代互联网、计算机等信息技术高速发展下的产物,涉及信息化知识理论相对较多,包括数据库、统计学、电子学、人工智能等多个领域,大数据分析和数据挖掘技术是一项覆盖范围广阔、涉及内容烦琐复杂、融括领域较多的学科。关于大数据分析和数据挖掘技术的工作过程,本文制定了一个可视性较强的示意图,便于阅读人员理解和认识,具体如图1所示。

    大数据分析与数据挖掘在主要任务方面,需要对其进行合理分类、科学预测、关联分析、类别汇集、时间顺序排列以及误差、缺陷分析等多项工作。其中,数据的合理分类是大数据分析与数据挖掘过程中一个极为重要和关键的技术,始终是相关领域的讨论热点和热门研究主题,因为差异性的分类算法将导致出现各种不同的分类器,同时分类器的优劣又会对最终分类结果的可靠性、精准性以及大数据分析与数据挖掘的效率、质量造成直接性影响,所以在我们对规模系统庞大、数据信息量较高的数据进行深度分类时,需要合理选择分类算法,这对于相关任务的完成时至关重要的。

    现阶段,国内外计算机数据学领域对大数据分析与挖掘技术当中,与之关联的分类算法研究普遍汇集于两个方面。第一,将传统化的分类算法以直接性的方式应用到实际案例当中,或者将传统算法进行简单组合再应用到实际案例当中,继而开发出多种运用系统。第二,将传统化的分类算法,与现代新型技术相结合,对传统分类算法形成升级改进作用。然而,虽然以上研究均能够对大数据分析与挖掘提供有利推动作用,但是从具体上来说,仍然缺少细节性,并不利于大数据与挖掘的进一步发展。因此,鉴于大量国内外研究对各种分类算法研究缺乏深入性和细节化的现象。本文对这些分类算法进行了系统化、深层次的对比研究分析,充分总结这些算法之间的特点、优势和缺陷,希望能为相关领域的发展奠定夯实基础。

    3 大数据分析和数据挖掘常用分类算法对比分析

    现阶段,在大数据分析与数据挖掘领域主要应用的分类算法有以下三种类型。其一,是以决策树(Decision Tree)为基础的分类算法,例如C4、ID3等。其二,以神经网络为基础的分类算法,例如人工智能神经网络(Artificial Neural Networks)等。其三,以统计学为基础的分类算法,例如贝叶斯网络(Bayesian net-work)、朴素贝叶斯(Naive Bayesian Model)等等。

    3.1以决策树为基础的大数据挖掘分类算法

    决策树分类算法指的是一种基于数据集,从一系列没有规则、没有顺序的样本数据信息当中,推算出具体分类规则的算法,属于归纳学习算法之一,是将组成决策方案的相关元素,以树式图的途径表达出来,继而对系统进行决策方案的选择。决策树分类算法可以以形象直观的方式,彰显出整个决策过程不同时期、关键点上的各种决策类问题,将这些问题以清晰的逻辑、分明的层次,直观、形象的表示成一个树型的模型。我们用更加贴近于真实生活的方式表现决策树分类算法的基本工作原理:一个年轻貌美的女孩,在朋友帮忙介绍男朋友期间,其是否去和相亲对象见面便是一个决策过程,这个过程我们可以用决策树来展示,具体如图2所示。

    现阶段,比较常见的决策树算法包含种类较多,如ID3算法、C4/C5算法等等。和其他类型的分类算法进行对比,决策树算法具有以下几项优点:其一,决策树分类算法便于理解和实现。对于数据挖掘技术的应用人员来讲,决策树分类算法的这种容易理解属性,可以帮助其更加快速地将决策树算法应用到实际分类中;其二,决策树分类算法运行速度更快。由于决策树分类算法工作量相对于其他分类算法更小,所以其总计算时间便会更短;其三,决策树分类算法精准性更高。应用决策树分类算到数据挖掘中,能够更加快速和准确的找出分类规则,并以清晰、直观的形象体现出重点字节。

    同时,决策树分类算法在具备多种优点的情况下,也不得避免存在一系列的缺点:第一,必须对连续性数据信息进行离散化处理,才能实现分类与学习;第二,对于已经具备时间顺序的数据,需要提前进行大规模的处理加工,这是提升分类过程工作量的关键因素。此外,如果类别过多,将极有可能导致决策树分类算法出现错误分类。

    鉴于决策树的优劣情况,国内外部分专家学者提出决策树分类算法的改进策略。例如,将监督学习任务算法应用到决策树分类算法之中,在决策树形成、建设时期,该算法能够随着记录的数量、属性不断提高,通过预排序的方式和广度优先的方式,实现决策树算法的有效改良。

    3.2以神经网络为基础的数据挖掘分类算法

    神经网络,指的是人工神经网络,通过对生物大脑结构、工作状态的模拟,形成一个动态化、灵活化的信息处理模型。具体原理如下:一个神经网络便是一个单位,该单位由多层神经元共同组成,每一个多层神经元又包含三个层次,即输入、输出和隐含三层。为直观地体现出神经网络算法的工作原理,制作神经网络模型示意图如图2所示。

    人工神经网络分类算法的优势较多,主要如下:其一,人工神经网络分类算的精度相对较高;其二,人工神经网络具有较强的鲁棒性特点;其三,人工神经网络分类算法具有自我学习能力和一定的记忆能力;其四,人工神经网络分类算法能够有效解答部分极为复杂的问题和现象,由于人工神经网络具备非线性拟合功能,甚至在不具备条件的情况下利用变量反复实施线性组合后,再将这些线性组合转化为非线性,所以该分类算法能够映射出较为复杂的非线性内容。

    关于人工神经网络分类算法的缺陷,最为突出和难以解决的就是神经网络本身的建立问题。建设一个完整、先进的神经网络往往需要花费大量的时间,并且难度也较大。鉴于此,部分国内外专家学者提出在提取规则你对神经网络实施剪枝的方法,对部分对分类准确程度影响非常小或者不能对分类造成影响的神经元去除,继而简化神经网络的构建。

    3.3以统计学为基础的数据挖掘分类算法

    以统计学为基础的数据挖掘分类算法,其核心在于这种算法是以概率的形式展现各种数据信息的不确定性,推导、学习均是以概率学理论予以运行。朴素贝叶斯分类是现代统计学分类算法当中较为经典的,这种算法操作与原理也相对简单易懂。

    朴素贝叶斯分类算法的优点较多,主要包括:其一,朴素贝叶斯分类算法对于空间和时间的开销相对较小,占用更少的系统资源,所以这种算法的运行速度较快。其二,朴素贝叶斯分类算法逻辑思路简单明了,可行性和可操作性更高。其三,朴素贝叶斯分类算法分类准确的较高,且性能稳定。

    在朴素贝叶斯分类算法缺点方面,这种分类算法必须立足于独立性的假设前提,但是这一限制在现实情况下极难得到满足,所以将导致分类的准确性大幅降低,对朴素贝叶斯分类算法的应用范围形成严重制约。鉴于此,我们对朴素贝叶斯算法进行升级和更新,提出贝叶斯算法,包括贝叶斯网络等。

    4 结束语

    综上所述,对大数据分析与数据挖掘当中的分类算法进行系统化研究,得出以决策树分类算法、人工神经网络分类算法以及朴素贝叶斯算法的优缺点,并对这些缺点提出改进策略。虽然当前的分类算法不至于以上三种,但包括这三种算法在内的多种算法仍然处于初级发展阶段,需要研究人员进一步加强相关内容的研究。

    参考文献:

    [1]张树滑.基于ID3算法的大学生成绩数据挖掘与体能分析系统设计[J].现代电子技术,2019,42(5):104-106,110.

    [2]陈慧萍,林莉莉,王建东,等.WEKA数据挖掘平台及其二次开发[J].计算机工程与应用,2008(19):76-79.

    [3]何清,庄福振,曾立,等.PDMiner:基于云计算的并行分布式数据挖掘工具平台[J].中国科学:信息科学,2014,44(7):871-885.

    [4]吴宏进,许家佗,张志枫,等.基于数据挖掘的围绝经期综合征中医证候分类算法分析[J].中国中医药信息杂志,2016,23(1):39-42.

    【通联编辑:谢媛媛】

    收稿日期:2019-10-19

    作者簡介:王现君(1977-),男,河南鲁山人,讲师,硕士,研究方向为计算机应用技术,数据挖掘、人工智能、数据融合。

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/23 2:28:20