标题 | 数据挖掘技术研究与应用 |
范文 | 史尤昭 摘要:随着科技信息的发展,数据挖掘技术广泛应用于各行各业,对人类生活产生了重大的影响。本文首先介绍了数据挖掘的基本信息与概念及数据挖掘的经典模型,然后介绍了数据挖掘的主要分及重要算法及应用,最后指出了数据挖掘现存的问题及以后发展的方向。 关键词:数据挖掘;聚类分析;分类预测;关联分析 中图分类号:TP391.41 文献标识码:A DOI: 10.3969/j.issn.1003-6970.2015.11.011 0 简介 随着信息技术的高速发展,人类社会已经步入电子信息化时代,随之而来的是各种信息的爆炸式增长。如何利用互联网思维,有效利用这些爆炸式增长的数据,利用其潜在价值,从中提取有用的知识,是各行业普遍关注的问题,在此背景下数据挖掘技术应运而生。所谓的数据挖掘,就是从大量的,不完全的,有噪声的,模糊的,随机的实际应用数据中,提取出隐含在其中的,人们事先不知道的,但又是潜在的有用的信息和知识的过程。数据挖掘是一门跨多知识领域和学科的新兴课题。 数据挖掘通过数据分析,机器学习,人工智能,模式识别等技术形成的数据挖掘技术促进了人类在商业,生物,医疗,天文等领域的进步。例如,通过对商业数据库中的大量数据进行抽取转换分析和其他模型化处理,从中提取辅助商业决策的关键知识,这些信息或知识有可能难以察觉甚至违背直觉,但往往越出乎意料,其价值越高,最典型的应用便是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系,进而将尿布和啤酒搭配起来销售,取得销售上的提高。这种数据挖掘对商业指导的模式反过来也促进了数据挖掘技术的进步。同样的数据挖掘在其他领域也有着惊人的应用。 1 数据挖掘步骤 对数据挖掘过程模型研究有很多,根据这些不同的过程模型,设计了很多相应的数据挖掘原型和系统。总体来讲,可以将当前的数据挖掘系统过程模型分为两类,一类是Fayyad总结出的过程模型,一种是遵循CRISP-DM标准的过程模型。 1.1 Fayyad模型 该模型自1996年提出之后对数据挖掘领域产生重要影响,其模型流程示意图如下。 在该模型下,数据挖掘可以分为三步数据准备,数据挖掘,结果表达和解释,这也是当前数据挖掘的基本步骤。 其中数据准备包括数据集成,数据选择,数据预处理。数据集成是指在大数据环境下,数据的多样性(表现形式多样性,数据格式多样性,数据来源多样性)表明从各个渠道获取的数据形式与结构式十分复杂的。面对这些复杂的结构化或半结构化数据,需要进行数据融合与集成,从多个数据源中选择合适的数据进行数据合并,合并好的数据应该消除表达之间的差异,然后从中选择出需要的数据和合适的数据,因为有很多数据有可能与要挖掘的内容不相关,产生干扰,因此要选择出合适的有价值的数据,此过程可能需要专家领域进行干预。数据预处理将选择出来的数据进行清洗与补全与格式化,保证数据的有效性。这一阶段是整个数据处理过程中最费力也是整个过程中最重要的阶段,数据质量的高低会影响到整个数据挖掘的结果。数据预处理的数据类型主要包括不一致数据,缺失数据,重复数据,不合理数据,虚假数据,异常数据,逻辑错误等。在清洗阶段为保证不丢失隐藏信息应适度放松清洗规则,并且不能修改元数据,同时清洗的数据也应该做好备份。 数据挖掘,为了从大量数据中发现有趣的有价值信息,选择适当的数据挖掘算法对数据完成分析处理。 解释和评估。将数据结果交给领域专家,使其以专业知识表达挖掘数据所表征的含义。或者合适的可视化技术将数据结果清楚的提供给用户,让用户能够理解数据挖掘的结果,并能对结果的有效性进行判断。可视化是帮助业务人员和数据分析人员从业务数据集中发现新的模式和趋势的关键。”在发现者和决策者之间进行信息交流,可视化是一种被证明行之有效的方法”在可视化领域,通常有“一图解千言”的讲法” 该模型是一个迭代模型,当某一阶段的结果不够理想,可以反复调整该阶段与之前的阶段,达到理想状态。 1.2 遵循CRISP-DM标准的过程模型 CRISP-DM全称Cross-Industry Standard Processfor Data Mining,该模型注重技术的应用,该模型解决了Fayyad过程模型存在的两个未决问题:一是在数据选择部分需要具体问题的相关领域专家参与,二是如何使用挖掘出来的知识。CRISP-DM模型示意图如下 该模型从技术应用的角度划分数据挖掘任务,将数据挖掘技术与应用紧密结合,更加注重数据挖掘的模型质量如何与业务问题相结合,如何应用挖掘出的模型等用户最关心的实际问题。数据挖掘项目生命周期分为六个阶段,各阶段的顺序并不严格规定,一般都需要在不同的阶段之间前后移动,这取决于那个即将执行的阶段或者即将执行的具体任务所在的阶段的输出。箭头表明了阶段之间的重要性以及频繁依赖性,图2的外部循环象征数据挖掘的循环本质,数据挖掘并不是一次解决方案部署的结束,在解决方案的部署过程中学习到的经验将触发更多的新的商业关注问题,后续的数据挖掘将从先前333的经验中获益很多。 CRISP-DM过程描述: 商业理解:从商业的角度了解项目的要求和最终的目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。主要工作是确定商业目标发现影响结果的重要因素,从商业角度描绘客户的首要目标,评估形势,查找所有资源,设想以及在确定数据分析目标和项目方案时考虑到的各种其他因素,包括风险和意外、相关术语、成本和收益等。 数据准备:收集数据并理解数据的工作,形成对潜在信息的理解。收集原始数据,对数据进行装载,描绘数据,并探索数据特征,进行简单的特征统计,检验数据质量等。 数据准备:数据准备阶段涵盖了从原始的粗糙数据中构建最终数据集,数据准备工作可能会重复多次,这一阶段任务主要包括制表,记录,数据变量的选择及转换以及数据清洗,格式化数据等。 建模:选择适当的建模方法,并将参数校准到理想的状态。比较典型的是,对同一数据挖掘的类型,可以有多种方法选择使用,如果要使用多种技术,那么数据类型要区别对待,因为某些算法模型对数据形式有着具体的要求。因此,又须重回数据准备阶段。 评估:从数据分析的角度考虑,在这一阶段中,已经建立了一个或者多个高质量模型,但在最终部署使用之前,更彻底的评估模型是非常必要的,确保该模型的确达到了企业的需求,是否仍有问题未考虑到。 部署:通常创造出一个模型并不是一个项目的结束,甚至,如果模型的用途将增加数据的知识,则需要以用户能应用的方式组织和表示所获得的知识。而且,往往是客户而不是数据挖掘师来执行部署阶段。 就方法上讲,CRISP-DM并不是什么新概念,本质上就是提出问题,分析问题,解决问题的过程,其精髓在于提纲挈领的特性非常适合工程管理,适合大规模定制,以至于其成为行业标准。 3 数据挖掘方法 分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据挖掘,找出其潜在规律,通过不同方法,可以去解决不同的问题,在实际中常用的分析方法有聚类分析,分类和预测,关联分析,偏差检测等! 3.1 聚类分析 聚类就是依据“物以类聚”将物理或者抽象的对象进行分组,组成由相似对象组成多个分类的分析过程。其目的就是通过相似的方法来对数据分类,是一种无先验条件,无监督的学习构成。与分类不同的是它无法获得对象的属性,该方法广泛应用于统计,市场销售,数据识别,机器智能学习等。可以根据其是否可以归属于多个类分为硬聚类和模糊聚类。常见的聚类算法由密度聚类、层次聚类、网格聚类、模型聚类、最大期望算法等。 聚类分析算法中最为经典莫过于K均值聚类算法,K均值算法是一种基于类别数的算法,具有良好的局部搜索能力,对于比较规则的数据集进行分类时能达到较好的聚类效果。这个算法的主体思想是假如N个对象给出K个划分,每个划分代表一个簇。对给给出的N个对象,首先随机取出K个对象作为K个簇的中心。然后对于其它的对象,根据每个对象与各个簇中心的的相似程度将该对象加入相似度最高的簇中。将所有剩下的对象全部归于某个簇后,重新计算每个簇的中心,再将每个对象与每个簇的中心比较,将对象重新加入某个簇。这个过程不断迭代,直至簇中心不再变化,或者到达某个代数,每一次迭代都是朝目标函数值减少的方向进行,也使得簇内对象的相似性越来越大,簇间的相似性越来越小。 3.2 分类和预测 分类和预测是对离散和连续数值进行预测的方法,是根据已有数据属性来构造相应分类器的方法。分类是一个有监督的学习过程,根据训练集来发现精确分类的划分,常见的分类算法有决策树、粗糙集、贝叶斯、支持向量机、遗传算法、神经网络等。预测则是根据分类和回归来预测将来的规律,常见预测方法由局势外推法,时间序列法,回归分析法。 在分类算法中最为经典的莫过于决策树算法,而决策树算法又以C4.5最为经典。严格的讲,C4.5只是由ID3改进而来。ID3算法是1975年被提出的一种分类预测算法,算法的核心思想是“信息熵”。ID3算法通过计算每个属性的信息增益,认为信息增益高的是好属性,每次划分选取信息增益最高的属性为划分标准,不断迭代这个过程,直到能生成一个可以对样本进行完美分类的决策树。然而ID3在实际应用中存在一些问题,然后C4.5被提出。C4.5以信息增益率来选择属性,以克服使用信息增益对取值多属性的偏向,并对决策树不断剪枝。决策树算法最好的卖点是是便于翻译和解释,速度也很快,是比较流行的算法。 3.3 关联分析 在自然界中,事物之间存在着千丝万缕的联系,当某一个事件发生时可能会带动其他事件的发生,关联分析就是利用事物之间的依赖或关联知识来发现事物之间存在的规律性,然后通过这种规律性进行预测。关联分析主要用于分析交易型数据库,能发现形如“95%的顾客在一次购买活动中购买A的同时会购买B”之类的知识。最常见的应用领域是购物篮分析,即通过搜索经常在一起购买或顺序购买的物品集,来研究客户的购买习惯。常见算法有Apriori、FP-growth(Frequentpattern growth)等。 Apriori算法是关联算法的代表算法,要理解Apriori算法,首先要了解支持度、可信度与频繁项集。假如有{尿布->啤酒,支持度为%20,可信度为%80}则表示,有20%的人同时买了尿布和啤酒,有%80的人则在买了尿布后购买了啤酒,而频繁项集则表示满足最小支持度项的集合。Apriori算法将发现关联规则的过程分为两个步骤:首先检索出数据库中所有频繁项集,即支持度不小于用户设定的阈值的集合,然后利用频繁项集构造出满足用户最小信任度的规则。 4 数据挖掘应用 数据挖掘广泛应用于各行各业,最开始数据挖掘主要应用与商业,随着数据挖掘技术的发展,数据挖掘在其他各个领域的应用都开始飞速发展。在商场销售方面,通过分析用户的历史消费记录,分析消费者习惯与特点来进行适当推荐,提高销售业绩。在银行商业领域通过历史记录,银行和信贷等可以决定是否贷款给个人,预测欺诈等行为。在运输领域,数据挖掘可以帮助规划路径。在科学研究领域中可以对大量实验数据经性分析,并找出相关规律和知识。在制造领域,分析零部件的各种数据,发现成品率提高关键因素,优化生产。在医疗领域可以对疾病进行预测和分析其成因。在社交网络中更可以为用户分组,推荐用户感兴趣话题与群体,为用户提高更好服务。 总之,数据挖掘在我们日常生活中已经起到不可或缺的角色,在将来,数据挖掘更将会融入我们生活的每一个方面,为我们更好的生活体验起到至关重要的角色。 5 数据挖掘发展与趋势 数据挖掘领域已经得到了长足的发展,但是从长远的角度讲,数据挖掘仍有很多方向可以改进,还存在很多问题亟待解决。数据挖掘的发展趋势主要在以下方面: 数据挖掘语言标准化:目前已经有很多成熟的,商业或免费的数据挖掘系统,不同系统之间的协同合作,可以促进这些系统在社会和企业的应用。这就需要对这些系统的语言标准化。 复杂的数据:通常情况下数据库中每张表存在很多属性,但是并不是所有属性都适合与解决给定的数据挖掘问题,有些属性甚至对结果产生了反作用,因此需要去掉一些属性,如何决定去掉那些属性也是一个问题.以此同时传统数据挖掘算法多针对文本或数字属性等,而图像、地图、视频、音频甚至时空数据等,这些数据结构复杂,在对这些数据挖掘时,用传统的数据挖掘方法效果很差,需要针对各个领域提出更好的挖掘算法。还有数据流,数据库中的数据都是静态的,而数据流则是实时有序,快速的到达,要求即时分析。这些复杂的数据需要提出更加细化的解决方案。 数据的处理与统一:因为数据挖掘的问题通常是不精确的,所以数据挖掘结果经常需要领域专家的干预,领域专家通常来提出问题,并帮助预测结果。数据挖掘所使用的数据过多或过少都会引起结果不正确,有些数据可能错误或者不完整,这些数据需要在挖掘执行之前进行预处理,对于不全的数据是补全还是抛弃,补全该如何补全仍未有统一的说法。也有一些数据表面上的含义可能是不一样的,但其本质是相同的,如何区别出这些数据,并将其归并?同时数据集中通常会存在一些异常的值,这些值不能很好地适应模型,甚至影响模型训练的结果,如何判断并去除这些异常点,这在一些大型数据库中是非常需要解决的问题。以上问题都发生在数据准备阶段,并且问题经常遇到,而良好的数据集对数据挖掘至关重要,因此需要更好更系统化的解决方案。 隐私保护:这不是一个技术上的问题,而是一个社会层面的问题。针对个人层面的数据挖掘通常需要这个人有关的各种数据来挖掘这个人的一些潜在信息,但是由于技术上或者管理上的不足与误用或滥用数据挖掘都可能导致用户敏感信息泄露。因此挖掘数据隐私的保护与处理是一个非常值得关注的问题。 分布式数据挖掘:随着信息技术的发展,每天都会有大量的数据产生,单一的计算资源已经无法处理这些迅速增长的海量数据,而分布式技术则为这些大数据提供了很多好的支撑。分布式技术与数据挖掘技术结合,是未来数据挖掘的方向,也是重要的发展趋势。 结果解释与可视化:可视化是数据挖掘中必不可缺的一部分。有时候数据挖掘出来的结果可能需要领域专家来解释和干预,而且普通用户无法明白其深层含义,需要可视化技术来让专家直接干预挖掘过程,调整挖掘结果。并使用户能更直观和易懂的理解数据结果。 6 结语 不管是在研究领域还是商业领域,数据挖掘都引起重大关注并迅速发展成熟。本文对数据挖掘过程中的相关技术与算法进行了简单的总结与回顾。介绍了数据挖掘的基本概念,处理流程、技术框架、算法、理论等。最后介绍了数据挖掘研究的发展趋势。总之,数据挖掘的价值与挑战并存,而如何挖掘出有价值的正确的信息,需要对数据挖掘技术不断的探索下去,并让更多的学者,企业,甚至应用人员投入其中。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。