标题 | SAS用于关联规则挖掘的研究综述 |
范文 | 李笑笑+郑元庆 摘要:信息时代下数据爆炸式的增长,将强大的数据分析统计挖掘软件用于挖掘大量数据间的联系——关联规则,必然会提供大量的有用信息。本文基于对数据挖掘以及关联规则的理解,整理了SAS在不同领域用于关联规则挖掘的研究文献,以反映这一领域的研究进展,并为今后的研究奠定基础。 关键词:SAS 数据挖掘 关联 规则 挖掘 中图分类号:TP311 文献标识码:A 数据的爆炸式增长,广泛可用和巨大数量使我们的时代成为了真正的信息时代。我们需要从大量的数据中去发现有意义的信息,并且把海量的数据转化为有价值的知识。数据挖掘基于这样的需求而产生。数据挖掘是使用数据库技术、人工智能技术、统计技术和神经网络技术等技术,在对数据进行加工处理、分析解释的基础上从中挖掘出符合一定规律的结果的一门综合学科[1]。数据挖掘的实质是一个知识发现的过程,即用算法等方式分析海量数据源,搜索隐藏于其中的有价值的信息。而关联规则挖掘是数据挖掘中的一个极其重要的课题,数据关联是数据库中存在的一类重要的可被发现的知识,主要用于发现事物之间可能存在的联系。近些年来,关联规则挖掘技术已经被应用到很多的领域中。SAS因其强大的统计分析功能使得其用于关联规则挖掘的应用领域也在不断拓展。国内关于SAS的研究大多集中在其在不同领域的应用,因此,本文基于SAS在不同领域用于关联规则挖掘的研究文献进行了整理。 1 关联规则概述 1.1关联规则的概念 关联规则最早是由Agrawal等人提出的[2]。关联规则是数据挖掘的重要技术之一,关联规则挖掘是指从一个原始的数据集中发现有趣的相关关系,也就是说从原始的数据集中找出所有高频项目组,也称为频繁项集,然后从频繁项集中产生关联规则的过程。 最小支持度和最小可信度是反映关联规则有价值与否的两个测度[3]。分别代表项目组出现的频率和规则的可信程度,使用关联规则挖掘技术,对原始数据资料进行挖掘,首先必须要设定最小支持度与最小可信度,满足需求的关联规则必须同时满足最小支持度和最小可信度。 1.2关联规则挖掘的基本思想 关联规则挖掘技术可以发现数据集中的菱格或多个变量之间的相关性。关联规则挖掘过程主要包含两个过程:首先必须从原始资料中利用最小支持度找出所有的频繁项集,再由频繁项集利用最小可信度产生关联规则。如在一个包含多个项目集的事务集中,关联规则是一个X→Y的蕴涵式,X和Y表示没有交集的项目集。规则X→Y的支持度(support(X→Y))表示为事务集中包含X和Y的事务数和所有事务数的比值。规则X→Y的可信度(confidence(X→Y))表示为包含X和Y的事务数与包含X的事务数的比值。一般来说,只有支持度和可信度均满足最小支持度与最小可信度的的关联规则才可能是有意义的规则。SAS/EM模块的Association节点具有关联规则的分析功能。SAS/EM 是具有图形化、可视化操作界面的数据挖掘集成工具,通过输入需要分析的数据,运行SAS/EM之后,便可以得到数据的分析结果[4]。 1.3 SAS模块数据挖掘流程 SAS/EM进行数据挖掘首先需要从数据库中提取原始数据,并对数据进行预处理,然后将得到的样本数据导入SAS/EM来挖掘数据的关联规则,最后通过分析关联规则形成特定的规律。具体流程,见图1。 2 研究现状 ![]() 早期关联规则的研究主要集中于研究不同商品間存在的关联性,对顾客的购买行为进行挖掘,以此来发现顾客的购买模式,根据顾客的购买模式对货架及商品的摆放进行合理安排来促进商品的销售。近几年来,关联规则应用不断发展,关联规则挖掘技术己经被拓展到很多领域中。因此,本文基于SAS在不同领域用于关联规则挖掘的研究文献进行了整理。 欧阳烽将SAS/EM用于对图书馆读者借阅数据的关联规则挖掘[5]。文章基于SAS/EM对经过数据预处理的读者借阅数据进行关联规则数据挖掘,揭示了数据间的关联关系,以此来指导图书馆图书借阅工作和采购工作。 赵华生利用 SAS Enterprise Miner(企业数据挖掘)数据挖掘技术研究了基于C2C 交易模式的的信用评价的有效性以及信用评价的影响因素[6]。文章采用SAS Enterprise Miner工具进行数据挖掘,使用关联规则等来研究信用评价系统的有效性。利用关联规则和序列分析预测消费者的购物行为,为卖家提前实施相关策略提供建议。文献[1]将SAS数据挖掘技术用于钢铁生产管理中的应用研究。文章使用SAS/仓库管理软件来定义SAS 数据集市,通过来定义的SAS/EM 提供的关联规则数据挖掘算法对某月的无委托板坯合同生产数据进行挖掘,接着通过SAS的数据挖掘步骤结合钢铁实际生产数据的特有性质,总结了文章实际情况中SAS 关联规则挖掘的基本流程图。郑曼利用SAS对省局税务系统的数据挖掘工作进行了初歩探索[7]。文章在走逃企业数据分析和发票虚开数据分析的基础上,对税收数据进行了专题研究和探索。利用SAS对河南省内购方企业的发票信息进行聚类分析、孤立点分析和关联规则挖掘,利用分析得到的结果,建立了行业交易规则库以及虚开模型。 朱立成等人利用SAS 9.1.3的Enterprise Miner挖掘中医医案中的用药、四诊信息、病因、病位、证候之间的关联规则[8]。文章采用关联规则分析了病因、病位、证候、四诊信息与用药的关联关系,以及中药之间的关联关系,探索了关联规则在中医医案分析中的作用及哮喘中医诊疗的规律。 张奕韬通过SAS数据挖掘工具研究了关联规则挖掘技术在水文领域的应用,为水情预报和水文分析提供信息支撑[9]。首先,通过改进的基于聚类和最小方差的离散化方法对水文数据中的连续型数值进行了离散化处理,并且结合时间特征把水文数据进行了区间的划分,生成具有统一格式的SAS数据集。其次,采用统计分析的方法实现规则优化,并对数据集中的属性和相应的属性值进行了筛选,生成最佳组合,剔除冗余的属性和属性值。最后,根据经典的关联规则生成算法生成水文时间序列的关联规则,结合最佳组合和新的兴趣度的定义产生普通的关联规则和有趣的关联规则,并对结果进行分析和对比。 李振岳等人通过SAS系统中的Enterprise Miner(EM)4.3的关联规则分析技术进行了伤寒病复方药对配伍规律的关联规则研究[10]。文章将收录的200个治疗伤寒病的中药复方作为原始数据集,通过建立各药方的特征数据库,利用最小支持度与最小可信度分别对伤寒六证的复方进行关联规则分析,分析得到的结果与文献记录的六经主要药对组成基本一致,并且额外发现了一些治疗伤寒病的未知药方。 余俊英等人从姚荷生老先生数千份的医案中,将636例以咳嗽为主症的医案作为原始数据并建立相关数据库,利用SAS系统中的Enterprise Miner(EM)4.3的关联规则分析技术探索姚荷生老先生遣方用药的规律和辨证施治的特点[11]。研究结果显示,分析结果既符合临床用药实际,也体现了姚老独特的辨证思路和用药配伍规律。 纪荣芳等人以痴呆或健忘为关键词,从中国方剂数据库中收集数据并建立相关数据库,作者不仅对这些数据进行了描述性分析,而且采用购物篮分析来探讨药物配伍,购物篮分析部分采用SAS 9.1 中的Enterprise Miner模块为挖掘工具对中医治疗健忘或痴呆的中药方剂进行用药规律分析[12]。 赵文忠等人采用SAS数据挖掘模块对东北农业大学农业专家在线网站Web日志数据进行了关联规则挖掘[13]。文章对运行8年的东北农业大学农业专家在线网站运行以来积累的海量Web日志数据进行有效的预处理,并采用SAS数据挖掘模块对日志数据进行关联规则挖掘、链接分析,利用挖掘的结果对网站信息构建合理性进行评估及改造,逐渐在个性化服务、改进系统性能、站点内容修改、商业智能等方面提供科学的理论基础,使之成为中国最大的农业免费咨询类网站。陈为汉采用SAS的数据挖掘的方法论把关联规则技术应用于商业POS系统[14]。文章开发一个能适用于智能化POS系统的数据采掘工具,为商家决策提供支持,完成了发现商品间的关联、发现影响商品销售因素这两个功能。 3 总结与讨论 通过上述SAS用于关联规则挖掘的不同领域研究的分析与总结,我们发现: 作为一种能力较强的软件,SAS用于数据统计分析、数据关联规则挖掘,以及涉及数据挖掘的其它技术中的作用得到了肯定,但在各个领域数据关联规则挖掘的专业研究相对较少。 作为一种集众多功能于一体软件,SAS已经为我们从海量数据中发现有用的信息做出了很大的贡献。很明显,国内对于SAS软件功能的扩展,改进以及各个功能之间更好地衔接方面的研究非常少。 SAS用于关联规则的挖掘或者是数据挖掘既是一门技术也是一种理念。现有的研究文献中大部分是将SAS作为一种方法技术,对于理念的部分则研究较少。 现有研究大多是在原有的体系框架与技术框架内扩展其研究,对于SAS用于关联规则挖掘的技术创新研究相对较少。 4 结束语 通过文献整理,笔者发现了SAS在数据挖掘以及关联规则挖掘的强大作用,可针对不同领域的海量数据挖掘出其背后隐藏的“知识”。但同时,我们应该对这个课题有一个更加全面、深入的认识,改善并提高SAS用于关联规则挖掘以及数据挖掘的适应性和效率,为SAS 的发展注入新的活力。 参考文献: [1] 薛春兰.基于SAS数据挖掘技术在钢铁生产管理中的应用研究[D].安徽工业大学,2013. [2] Jiawei Han. And Micheline Kamber. D ata M ining: C oncepts and Techniques [M]. Morgan Kaufman Publishers 2001. [3] 毛国君. 数据挖掘技术与关联规则挖掘算法研究[D].北京工业大学, 2003. [4] 唐智英,王祖凤,吴光凤.SAS 关联规则数据挖掘[J].电子技术与软件程,2014(5):201- 202. [5] 欧阳烽.基于SAS/EM的图书借阅数据关联规则数据挖掘[J]. 电脑与信息技术术,2011(4):33- 34. [6] 赵华生.基于SAS数据挖掘的C2C信用评价研究[D].西南财经大学,2009. [7] 郑曼. 基于SAS系统的税务数据挖掘研究[D].郑州大学,2012. [8] 朱立成,林色奇,等.名中医哮喘医案445例关联规则分析[J].江西中医学院学报,2007(5):83- 87. [9] 张奕韬.水文时间序列中关联规则的挖掘研究与应用[D].河海大学, 2008. [10] 李振岳,周怡.伤寒病复方药对配伍规律的关联规则分析[J].医学信息,2009(5):591- 593. [11] 余俊英,查青林,黄利兴.姚荷生治疗咳嗽医案关联规则分析[J].江西中医学院学报,2011(2):17- 20. [12] 纪荣芳,牛建昭,等.从数据挖掘角度看中医药治疗健忘與痴呆[J]. 中日友好医院学报,2006(6):337-340. [13] 赵文忠,张长利,房俊龙.Web日志挖掘在农业网站的应用[J].东北农业大学报,2010(8):135- 140. [14] 陈为汉.关联规则挖掘技术及其在商业POS系统中的应用[D].吉林大学, 2001. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。