标题 | Web挖掘在电子商务中的应用研究 |
范文 | 杨丽 摘 要:主要介绍了Web挖掘的定义,并对日志挖掘进行详细的说明,介绍了常用的Web挖掘方法,本文还讨论了分类算法的实际应用,最后总结了Web挖掘在电子商务中的应用。 关键词:Web挖掘 电子商务 Web 1.引言 Internet的迅速发展推动了世界经济的发展,随着网络技术的发展,各种在线交易和交易平台不断涌现,随着网络信息量的急剧增加,人们越来越关心如何来利用这些信息。然而,实际中现在的一些工具和技术还不能够满足人们的需要。另一方面,电子商务的繁荣,网络信息处理技术的相对滞后,在这样的环境下产生了Web挖掘,很快它成为网络信息搜索和信息服务领域的热门课题。 2.Web挖掘 2.1 Web挖掘的定义和分类 Web挖掘是从www上抽取知识的过程,它是从与WWW相关的资源和行为中抽取感兴趣的有用的模式和隐含信息。按照挖掘对象的不同,可以将Web挖掘分为3大类[1]:Web内容挖掘、Web结构挖掘和Web日志挖掘。 2.2 Web内容挖掘 Web内容挖掘是指从Web页面内容及其描述信息中获取潜在的、有价值的知识或模式的过程。Web内容挖掘分为文本挖掘和多媒体挖掘两大类:对于文本文档(包括txt、PostScript、PDF、HTML)的挖掘称为文本挖掘。Web文本挖掘的数据对象既可以是机构化的,也可以是非机构化的、半机构化的。Web文本挖掘的结果既可以是对某个文本内容的概括,也可以是对整个文本集合的分类结果或聚类结果,还可以利用Web文档进行趋势预测等[2,3]。 多媒体信息挖掘[4],主要是指通过对Web上的音频、视频数据和图像进行预处理,应用存储和搜索技术与标准的数据挖掘方法的集成,对其中潜在的、有意义的信息和模式进行发掘的过程。多媒体信息挖掘可以应用于语音识别、图形和图像处理等研究领域。 2.3 Web结构挖掘 Web结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML、XML表示成的树形结构,以及文档URL中的目录路径结构等[5]。 Web结构挖掘是从WWW的组织结构和链接关系中推导知识。主要是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,既利于信息的搜索。 Web结构挖掘所得到的模式,可以揭示许多蕴涵在Web内容之外的有用信息。如通过文档之间的超链接,可以挖掘出文档之间的引用关系,从而帮组我们找到与用户请求相关的权威页面;通过分析Web网页内部树形结构,可以发现与给定页面集合相关的其它页面;Web页面的URL同样可以反映页面的类型以及页面之间的从属关系,通过分析页面的URL信息,可以找到改变了位置的Web页面的新位置[5]。 2.4 Web日志挖掘 Web日志挖掘(也称为Web用户访问模式挖掘),是从Web的存取模式中获取有价值的信息或模式的过程,就是对用户访问Web时在服务器留下的访问记录进行挖掘。数据预处理主要包括数据净化、用户识别、用户会话识别和事物识别几个步骤。Web日志包括服务器log、代理log和客户端log。数据清理主要是指把Web日志转化为适合数据挖掘的可靠的精确的数据。包括如下几个方面:数据精简:删除Web日志中与数据挖掘不相关的的冗余项。Web日志记录包括IP地址、用户ID、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数、错误代码等属性,其它属性可以去掉。URL页面中除了用户关心的正文外,往往还有图像、声音、视频等辅助信息。挖掘Web日志的目的是找出用户的共同访问模式,关于辅助信息的记录是无用的,可以删除。可通过检查URL的后缀来实现,后缀为.gif、.jpeg、.cgi的记录都去掉[6],不过对于图形类的网站当另外处理。用户识别:不同的ID属于不同的用户,当用户端浏览器软件或操作系统发生改变,就认为是新用户。会话识别:会话识别是将用户的访问分成一个一个的会话。不同的用户访问该站点属于不同的会话,如果同一个用户访问的时间超出了timeout,则认为该用户开启了新的会话。事物识别:事物识别是对用户会话进行语义分组的过程。挖掘算法实施之前通常都要将用户会话分割成更小的事物。通常采用Chen[7]等人提出的最大向前引用路径来定义事物。 3.Web挖掘在电子商务中的应用 在电子商务环境下,企业之间的竞争更加激烈,对于开展电子商务的公司来说,最大的挑战就是如何更好的了解公司客户的兴趣爱好、价值取向等,为了提升竞争力,企业需要应用最新的挖掘技术来分析网络服务器日志以及顾客的外部信息等。总的来说Web挖掘在电子商务中的应用主要体现在以下几个方面。 3.1 客户管理中的应用 消费者已经成为企业利润的驱动力,如何吸引新顾客、保持现有顾客的满意度,并能够预测消费者的行为将会提高企业的利润,提升服务质量。使用Web挖掘技术在Internet上进行客户信息智能挖掘,就是通过对客户和产品的历史交易信息,进行客户消费倾向和偏好的分析,以及产品销路和受欢迎程度的分析,为企业在现有客户上挖掘更多的销售机会提供了可能,同时也为企业作产品分析决策提供依据。文[8]中的Web使用挖掘模型能够发现用户的浏览和购买行为模式。 3.2 优化Web站点 网站中网页之间的链接以及安排就如同在超市货架上展示商品,为了更高的进行促销会把相关的产品摆放在一起。基于Web挖掘中的关联规则分析,网站的结构要被动态的调整,这样相关页面之间的链接更加直接,顾客才能更容易的找到他想浏览的页面,如果一个网站可以提供这样的方便的话,顾客就会对该网站留有好印象,最终提升顾客回头率。 3.3 顾客聚类 顾客聚类是电子商务中一个很重要的方面。通过对于具有相似浏览行为的顾客聚类,进一步分析每一类顾客的共同特点,这样商家就能够更好的了解自身的顾客提供很相关的服务。比如,有些顾客一段时间浏览baby toys和‘baby clothes这样的页面,经过行为分析后,这些顾客可以归为“即将成为父母”的这一类顾客,因此他们看到的页面内容和服务就同其他类看到的不同。显然,顾客聚类还能够提醒商家及时地修改网页的内容以满足特定类顾客的需求。 3.4 电子商务推荐系统 电子商务推荐系统直接与用户交互,模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。在日趋激烈的竞争环境下,电子商务推荐系统能有效保留用户,防止用户流失,提高电子商务系统的销售能力。 4.结论 电子商务在企业和商贸领域正占据着越来越多的市场份额,对于Web挖掘也是目前研究的热点,但是挖掘技术在实际中的应用还是不多,更多的研究集中在挖掘技术的研究这一方面。随着电子商务的进一步发展,以及各种技术的日益成熟,相信这一领域会有很好的前景。◆ 参考文献: [1]Eyzioni O. The World Wide Web: Quagmire or Gold Mine[J].Communication of the ACM,1996,39(11). [2]Raymond Kosala,Hendrik Blockeel. Web Mining Research: A Survey [J].SIGKDD Exllorations,2000,2(1). [3]王继成、潘金贵、张福炎. Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5) [4]Jiawei Han, Micheline Kamber.Date Mining:Concepts and Techniques[M].Copyright 2001 by Morgan Kaufmann Publishers,Inc.,2001. [5]Ellen Spertus.Mining Structural Information on the Web[C].In:Proc of the Sixth International World Wide Web Browsing Patterns[J]. Knowledge and Information Systems,1999(1) [6]宋爱波、胡孔法、董逸生. Web 日志挖掘[J].东南大学学报,2002,32(1) [7]Chen M S, Park J S, Yu P S. Data mining for path traversal patterns in a web environment [C].In: Proceedings of the 16th International Conference on Distributed Computing Systems,1996:385-392 [8] 刘海泉,姚全珠.Web使用挖掘在电子商务中的应用研究[J].计算机工程,2006,32(7) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。