基于关联规则的电子商务用户分析及研究

    杨知玲

    

    摘要:数据挖掘技术可以把电子商务的海量的数据和信息进行一个挖掘,使这些数据和信息得到最有效的利用,既转化为知识的过程。帮助电子商务企业分析电子商务客户的行为,提供更加优质的,具有针对性的服务,最终实现盈利。该文通过Weka完成了对数据的预处理,然后用了关联规则中的Apriori算法对电子商务网络购物用户进行了行为分析,最后对电子商务运用数据挖掘技术促进自身发展和实际应用提出建议和意见。

    关键词:Weka;数据挖掘技术;B2C;电子商务

    中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)13-0259-02

    1概述

    随着各种有关数据挖掘的新技术和相关研究的出现,使电子商务企业分析客户行为,对客户进行分类,从而采取相应对策发展新客户,留住老客户,提高用户好感度和满意度,提高自身电子商务网站的吸引力和影响力成为可能。电子商务的竞争无比的激烈,也有着很多的商机,谁能从这些数据中挖掘出可以利用的知识,谁就更能在行业竞争中成为获胜的那一方。

    本文研究的目的是通过运用数据挖掘技术对电子商务数据和信息(比如客户的个人信息、电子商务网站用户行为信息调查数据等)做一个分析,来挖掘出能够对电子商务企业的决策和未来的发展提供帮助的知识模型。通过数据挖掘技术所挖掘出的模式知识,帮助电子商务企业分析客户的行为,为企业发展新客户,留住老客户,提高企业竞争力。

    2用户数据准备

    2.1原始数据收集

    本文数据来源于淘宝网上商城购物平台后台数据库中从2013年11月至2014年年底历史交易信息,包括网购相关信息以及网购用户信息等。其数据来源于数据堂(www.shujutang.com)这个大型的专题数据网站,数据是后缀为.xls的格式文件,需要对其进行格式转换为后缀是.csv的格式文件才能导入到Weka中进行分析。

    经过数据筛选梳理,最终研究的样本包括999条网购列表。其中,审核未通过的有248条;209条是网购放弃;542条成功网购,169条已还完网购。成功交易总额达3090.93万元。

    就整体研究数据来看,未通过的网购所占比例达到24.8%,未购买成功所占比例达到20.9%,网购成功仅有54.3%,从中可以看出网购成功率亟需提高。

    2.2用户特征分析

    通过对数据源中网购用户信息的整合,得到了B2C购物网站用户活动数据,包括用户的网购次数、成功网购次数、信用等级、网购总额等信息,这里的变量数值均是从2013年7月至2014年底的统计数据。为了了解B2C购物网站平台用户的不同行为模式与特征,这里本文选取网购用户ID号、平均网购额度、网购总次数、网购成功次数、信用等级、网购积分(网购用户作为网购用户进行购物所获得的网购积分)作为聚类变量。

    平均网购金额是指网购用户在样本2013年11月至2014年底内的网购金额的平均水平。大体上说, 网购用户信用等级越高,其网购的金额就越大。

    网购总次数,通过统计网购用户在样本2013年11月至2014年底内的网购次数,可以看出该网购用户在B2C购物网站平台上的活跃程度,网购次数越多,活跃程度越高。

    网购成功次数,成功次数越多表明网站越受网购用户关注与信任。

    信用等级,作为网购用户重要的信用属性,也是电子商务企业判断网购用户购物风险的重要依据。本文研究的目的就是找出网购用户信用等级所不能反映出来的网购用户信用属性,所以信用等级作为对比,在此引用。

    网购积分,B2C网络购物平台用户往往有网购用户与卖家用户两个角色,一方面网购交易,另一方面可以进行买卖。B2C购物网站平台用户只要成功网购一定金额就会获得相应的网购积分,所以,网购积分也是判断网购用户信用的重要因素。

    2.3数据预处理

    数据的预处理是整个数据挖掘过程中工作量最大的一部分,虽然处理起来相当的消耗时间,但是绝对不可以马虎对待。这是因为没有经过数据预处理的原始数据是很难被有效地利用起来的,也很难从中挖掘出有用的模型,所以进行数据预处理是数据挖掘的很重要的一个过程。本文所使用的数据挖掘工具Weka就自带了数据预处理的功能,下面是对所得数据进行预处理的过程。

    2.3.1特征选取

    本次分析一共选取了17个特征600个样本,分别是:ID号、平均购物额度、购物总次数、交易成功次数、信用等级、购物积分。

    (1)ID号:购物网站上网购客户的ID ;

    (2)平均购物额度:网购客户平均的网购服务的金额;

    (3)购物总次数:网购客户的每个月购物次数;

    (4)交易成功次数:网购客户的交易成功次数;

    (5)信用等级:网购客户的购物信用等级;

    (6)购物积分:网购客户购物的积分;

    (7)Pincome:个人年收入(万元);

    (8)Hincome:家庭年收入(万元);

    (9)Age:年龄;

    (10)Gender:性别(0:女;1:男);

    (11)Car:家庭拥有汽车的数量;

    (12)Education:教育水平(1初中及以下;2高中;3专科;4本科;5研究生);

    (13)Job:工作类型(1公司职员;2工厂工人;3公务员;4个体;5事业单位;6其他);

    (14)People:家里人口数量;

    (15)Children:家里未成年人数量;

    (16)Housing:房屋拥有类型(0—租房;1—买房);

    (17)Area:房屋居住面积(平方米)。

    2.3.2数据清理

    本次分析的数据都是有效的,不存在缺失值。即是说区域、月服务、年龄、婚姻状况、居住时间、收入、受教育程度、工作时间、家庭人数等属性值都对本次数据挖掘有用的。但是ID号对挖掘没有意义,进行删除。经过数据审核,个别特征值出现错误,如年龄的值域出现“200”的错误,利用本属性均值填充。

    2.3.3数据离散化和分层

    Weka识别的数据格式是arff,文件格式通过Weka命令窗口转化。Apriori只能处理离散型数据,数据集中有不少的数值型数据,需要将其转化为离散型数据,如年龄、收入等。概念分层可以将具有多个值域的低层次的概念划分为若干个高层次概念,高层次概念的概括性减少了多个概念的干扰,更利于对分层后的用户进行定义,为了避免详细信息丢失和挖掘更有价值的规则,因此概念层次的划分可以经过多次调整,如对拥有家庭汽车数量值域(0,1,2,3,4)划分为(有、无)。

    3关联规则分析在电子商务中的应用

    本文所采用的关联规则的挖掘目标就是要通过对一些电子商务网购用户的家庭情况、收入情况等特征进行分析,从而找出用户特征与购买行为之间的关系。

    3.1用户特征与行为关联分析

    本文用Apriori算法对数据进行关联挖掘, 虽然 Apriori 算法可以直接挖掘生成表中的交易事务数据集,但是为了关联挖掘其他算法的需要,先把交易事务数据集转换成关系数据集。

    数据进行格式转换和离散化处理之后,执行Apriori算法。设最低条件支持度为15%,最小规则置信度为30%,最大前项数为5,挖掘出10条关联规则,生成的10条规则如下图所示:

    关联规则体现出前后项之间一定的因果关系,但并不是全部的规则都具有实际意义。因此结合实际,从以上规则中选择若干规则分析。

    通过规则2、3、4和5,可以看到用户是否有小孩、是否有房屋对顾客是否购物成功次数有强关联。由上述结果可知,同时有房屋、购物且成功的用户占总用户的90%,有房屋的用户成功购物分别占总订单数的91%,有小孩的人有91%会网购,房屋面积越大,网购次数越高。由此可见,房屋、网购、是否有小孩、网购成功次数这几个变量关联度较高,与用户网络购物行为关系密切。

    3.2基于关联规则的用户分析应用

    通过上述分析结果,可以得知用户是否有小孩,是否有房屋等信息对购物的成交率有一定的关联。

    利用关联规则,可以对网购用户的行为进行分析,从中挖掘出用户特征和行为的相关性,向用户推荐相关的产品,促成交易的成功率,实现电子商务企业的盈利。比如淘宝等网上商城会对客户的个人认证信息以及所建设的信用等级体系等数据进行分析,来对不同特征的客户群体提供个性化的服务,以及站点版面的安排,页面的广告投放侧重点等。

    通过利用关联规则中的Apriori算法对网购用户行为进行分析,可以挖掘出网购用户行为之间的相关性问题,从而向用户推荐相关联的产品,提高网购成交率。比如,喜欢篮球运动的网购用户,他们会比较多的关注有关篮球方面的东西,喜欢化妆品的网购用户(通常是女性),她们会对化妆品的品牌以及一些相关的商品比较敏感等等。那么电视网站在进行Web站点的排版设计和广告投入时,就可以根据用户的这些浏览行为习惯向不同的客户群推荐不用的商品内容,提供个性化的服务。网购用户的浏览行为和习惯是无法捉摸的,甚至跨度非常大,网购用户可以关注体育类的、食品类的、学习类等多种不同类别的商品信息。

    利用关联规则可以对这些用户行为的相关性进行分析,进而使得网站也能构建出类似于大卖场一样的购物篮模型。比如,当网购用户更多的停留在食品界面的时候,我们可以在向他/她推荐食品专栏的同时,提供运动健身用品专栏;再者,当网购用户选购尿布的时候,我们可以同时推荐啤酒等商品信息,这其实和大卖场的经典购物篮分析啤酒与尿布的用例是一致的。

    根据网购用户对某一商品的购买次数和在某一页面的停留时间等行为,电子商务企业可以推出多套组合的商品,并以更加优惠的价格向客户提供出售。举个例子,如果用户大批量的购买羽毛球,那么我们可以推测此类客户为羽毛球爱好者,而羽毛球、羽毛球鞋、运动衣服则成为相关联的商品,那么电子商务网站可以将这些进行组合以更加优惠的价格销售。最后,电子商务企业为了分析众多用户的消费变化,以完成对商品的价格和商品的种类加以调整,以留住老顾客,吸引新顾客,提高客户的满意度和好感度,最终实现电子商务企业的盈利业务目标,可以将同一用户不同时间段购买的产品做一个分组序列。

    参考文献:

    [1] 文灿.数据挖掘在电子商务销售数据中的分析和应用[D].青岛理工大学计算机工程学院,2010,12(18).

    [2] 夏小云.C2C电子商务数据挖掘的研究及应用[D].赣州:江西理工大学,2007.

    [3] 张澎,王鲁达,唐日成.电子商务中的数据挖掘[D].郴州:湘南学院,2009.

    [4] 张冬青.数据挖掘在电子商务中应用问题研究[D].哈尔滨:黑龙江大学,2005.

相关文章!
  • 融合正向建模与反求计算的车用

    崔庆佳 周兵 吴晓建 李宁 曾凡沂<br />
    摘 要:针对减振器调试过程中工程师凭借经验调试耗时耗力等局限性,引入反求的思想,开展了

  • 浅谈高校多媒体教育技术的应用

    聂森摘要:在科学技术蓬勃发展的今天,我国教育领域改革之中也逐渐引用了先进技术,如多媒体技术、网络技术等,对于提高教育教学水平有很

  • 卫星天线过顶盲区时机分析

    晁宁+罗晓英+杨新龙<br />
    摘 要: 分析直角坐标框架结构平台和极坐标框架平台结构星载天线在各自盲区状态区域附近的发散问题。通过建