网站首页  词典首页

请输入您要查询的论文:

 

标题 邻接矩阵在高校图书馆借阅数据挖掘中的应用
范文 唐金文 张廷宪 聂建国 胡振渝
收稿日期:2011-06-14
〔摘要〕Apriori算法是关联规则挖掘的一个经典算法,针对Apriori算法的不足,提出了基于邻接矩阵的算法,该算法首先用邻接矩阵将事务数据库表示出来,然后基于邻接矩阵生成频繁kz项集。
以高校图书馆借阅历史数据的挖掘为例,详细描述了事务数据库相应的邻接矩阵生成算法、kz项集生成算法以及相应的数据结构设计,算法均采用C语言描述。
〔关键词〕Apriori算法;关联规则;邻接矩阵
DOI:10.3969/j.issn.1008-0821.2011.08.007
〔中图分类号〕G252.2 〔文献标识码〕A 〔文章编号〕1008-0821(2011)08-0025-07
Application of Adjacent-Matrix in Data Mining for University Library
Tang Jjinwen Zhang Tingxian Nie Jianguo Hu Zhenyu
(1.College of Computer Science and Technology,Qujing Normal University,Qujing 655011,China;
2.College of Physical and Electronic,Qujing Normal University,Qujing 655011,China;
3.Library,Qujing Normal University,Qujing 655011,China)
〔Abstract〕The Apriori algorithm is a classical method of association rule mining,to the deficiency of Apriori algorithm,an improved Apriori algorithm based on the adjacent matrix was put forward.This algorithm converted the affair database to adjacent matrix and operated it to find out k-frequent item sets. As an instance,the lending data of university library餾 data mining of this improved algorithm was explored,which included data structure and the improved algorithm were scribed by using C programming language in detail.
〔Key words〕apriori algorithm;association rules;adjacent matrix
数据挖掘与知识发现技术、云计算、开源软件技术、对等网、网格等技术是推动现代图书馆快速发展的主要技术,要提高图书馆服务质量的提高和水平,必须依赖这些新技术[1]。特别是图书馆个性化服务的提高,必须充分利用数据挖掘与知识发现技术。图书馆馆藏数量越来越大,而读者感兴趣的只是其中很少一部分,如何在浩瀚的书籍信息中找到自己感兴趣的信息则是一件很头疼的事情,如何帮助读者高效找到所需信息资源是图书馆要研究的问题。图书推荐服务是采取主动的方式,向读者提供他可能感兴趣的信息,降低读者对专业知识的要求,节约了读者寻找资料的时间,同时提供了更丰富的信息。图书馆通过分析读者借阅行为来分析读者的借阅特征,发现读者的兴趣爱好,从而采取有个性化的服务[1]。另外,随着图书馆数字化程度的不断提高与数字图书馆建设的不断发展,图书馆需要处理和提供更多、更新、更广泛、更复杂的信息。为了避免陷入“数据丰富,但信息贫乏”的局面,图书馆有必要增强对海量信息的处理能力,从看似杂乱无序的信息中提取其内在联系,为图书馆管理提供决策支持[2]。因此,数据挖掘与知识发现技术在提升服务质量及管理决策中具有重要作用。
数据挖掘主要是挖掘关联规则,而关联规则的挖掘算法主要采用经典Apriori算法及其变形算法,如AprioriTID等。关联规则挖掘必须建立事务数据库,然后再应用关联规则挖掘算法进行数据挖掘,本文研究事务数据库的生成算法,然后应用Apriori算法对高校图书馆借阅历史数据进行挖掘。
1 关联规则挖掘经典Apriori算法概述
Apriori算法是1994年Agrawal等人提出的,其思路为把挖掘关联规则分解为2个过程:(1)找出所有大于最小支持度的项集;(2)对于每个频繁项集,产生所有大于最小置信度的规则。Apriori算法使用了递推的方法来产生所有频集,利用一个层次顺序搜索的迭代方法来完成频繁项集的挖掘工作,即利用k-项集来生成(k+1)-项集,用候选项集Ck找频繁项集Lk。过程由连接和剪枝两步组成,它能比较有效地产生关联规则。但存在缺点是明显的:数据库扫描次数过多,每寻找一次k-项集(k=1,……,K)都需要扫描数据库一次,共扫描K次;可能产生大量的候选项目集,若频繁1-项集的个数为100,则将产生2个候选项集。由此可知,Apriori算法的瓶颈是找出所有频繁数据项。因此人们对Apriori算法进行了大量的改进,提出许多Apriori算法的变形,希望能够找出一个高效、可靠的挖掘频繁项集的算法。例如AprioriTID、AprioriHybri、HASH方法、事务压缩技术、划分技术等,旨在提高算法挖掘规则的效率[3-4]。本文针对高校图书馆个性化服务的要求和特点,提出基于邻接矩阵的事务数据库生成算法,数据挖掘技术并给出它的算法描述。
2 邻接矩阵的关联规则在高校图书馆数据挖掘中应用
2.1 数据预处理
在读者日常借阅事务中,每天都有大量的借还记录汇入数据库中。读者借阅的对象是文献资源,根据读者长期的借阅历史数据,我们会发现读者对文献的借阅存在着一定的关联、不同的学科之间也存在着关联以及不同类型的读者对文献的借阅存在着一定的模式。挖掘出这些数据之间的关联,有利于合理配置资源和提高资源的利用率,以及提高图书馆的服务水平。
3 小 结
应用经典的Apriori算法进行关联数据挖掘,需要多次扫描事务数据库才能得到最大频繁kz项集。为了减少多次扫描事务数据库次数,提出利用邻接矩阵代替事务数据库,关联规则挖掘就基于邻接矩阵进行,本文就高校图书馆借阅历史数据的关联规则挖掘设计了相应的数据结构,给出kz项集生成算法步骤并使用C语言对算法进行详细的描述。由于篇幅关系,就本文给出的算法步骤及算法描述,与实际应用之间可能存在差距,比如,基于读者序号及图书序号的kz项集,将其还原为真实的索书号及读者编号时带来的算法描述及开销、一个真实的高校图书馆借阅历史记录的导出方法、借阅历史记录的时间段、问题规模、最小支持度及最小置信度的设置等问题在本文中没有进一步研究,所以没有给出实际应用例子。但这刚好是我们下一步要完成的工作。我们的工作仅仅完成了基于邻接矩阵的改进算法的数据结构设计以及C语言算法描述。
参考文献
[1]奉国和.新技术思想与数字图书馆发展研究[J].图书与情报,2010,(2):69-73.
[2]钱强,李英.数据挖掘技术在图书馆读者分析中的应用[J].图书情报工作,2009,52(53):121-124.
[3]汪育健,邹攀.基于线性链表的关联规则数据挖掘技术在数字图书馆中的应用[J].图书馆杂志.2009,(12):52-54.
[4]陆觉民,郑宇.基于矩阵的数据挖掘技术在数字化图书馆中的应用[J].现代情报,2007,(12):92-93.
[5]任贤姬.关联规则挖掘技术在图书借阅服务中的应用研究[J].情报科学,2010,28(5):729-731.
[6]百度百科.数据挖掘科技名词定义[EB/OL].http:∥baike.baidu.com/view/7893.htm,2011.
[7]李超,徐昭平.基于矩阵的Apriori算法改进[J].计算机工程与设计,2006,(32):23.
[8]王锋,李勇华,毋国庆.基于矩阵的改进的Apriori算法[J].计算机工程与设计,2009,(30):10.
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/15 13:35:07