基于图书借阅数据的用户个性化统计技术研究
摘 要:基于上海对外经贸大学师生图书借阅的历史数据与藏书的外经贸特色,通过统计分析与数学建模方法,发展和应用用户个性化分析模型与技术,预测上海对外经贸大学用户荐购行为,为图书馆采购提供量化参考。具体拟达到以下目的:从读者出发,讨论未收录新书选择增添问题,为图书馆采购提供科学化参考,更精准的满足读者需求。为图书馆考虑,为图书采购提供推荐新书通报,从而在购书预算限制下,最大限度的提高我校师生借书体验,提高图书借阅率与纸质图书流通率。
关键字:图书借阅;用户荐购;统计分析;个性化模型
1 国内外研究现状及发展动态
1.在图书复本量优化决策方向已有研究:
我国图书采购管理的研究很多基于复本量优化决策问题[1],主要分为两种方法,第一种通过影响图书复本量的因素进行定性分析,主要因素有实际读者人数、图书馆的借阅制度、图书文献的使用年限、图书馆舍得分布情况、原有资源的规模与布局、信息媒体的类型文种载体及专业水平、信息服务机构提供的信息媒体复制能力和、预计丢失和损坏的数量;第二种类型是把影响图书采购复本量的影响因素作为变量,建立数学模型,并通过对流通数据进行统计分析,找出它们之间的关系,用来指导图书采购计划的制定与执行。
尽管人们已经提出许多计算信息媒体采集复本量的数学模型,但由于复本问题与众多的变动因素紧密联系,随机性很强,难以给出确定的数值,以至于这些模式通常把简单的问题复杂化,因此,真正能够投入实际应用的统计方法至今仍很少见到[2]。
2.在数据挖掘领域已有相关探索:
近年来,利用一般性的数据挖掘算法,如聚类算法、关联挖掘等技术,对图书借阅数据中的用户偏好进行数据挖掘,受到了越来越多的讨论。现有研究,如文献,多针对实际问题,应用数据挖掘相关算法,解决图书借阅之间的关联规则挖掘,从而对图书馆的馆藏布局提供意见,实现图书推荐功能[3]。
2 研究方法
首先关于图书采购、原则、组织结构以及业务流程等方面对上海对外经贸大学图书采购工作与目标进行访谈。
针对数据库现有的借阅数据进行描述性统计分析,了解我校图书流通现状。
结合以上两步内容从图书馆信息管理的实际需求出发,以图书、读者、时间等多个维度进行统计推断与分析,从大量的图书借阅数据中量化规律,讨论未收录新书选择增添问题,为图书馆采购提供科学化参考,更精准的满足读者需求。探索利用用户个性化分析,实现图书馆采购推荐的关键统计技术,并以技术报告呈现。
3 研究成果
以下成果均基于2010-2015年度上海对外经贸大学图书馆图书借阅数据
1.图书类别维度
6年内,累计借阅量前十名图书类别及借阅比重分别是文学15.97%、经济9.82%、语言、文字9.64%、哲学类6.59%、政治法律5.87%、数理科学和化学5.36%、社科总论5.14%、历史、地理5.13%、文化、科学、教育、体育4.65%、工业技术4.44%。
2.借阅总量维度
以2010-2014前五年的借阅数据作为训练样本,2015年作为验证样本,去除重复的图书,前五年被借阅过的不同图书数量分别为1078、1236、1467、1372、2092,从数据源中舍弃重复的图书,共有4032本不同的图书。2015年被借阅数量为2403,其中前五年出现的图书共有3086本。
3.推荐结果评估
在六年的借阅数据中,会同时出现在前五年及最后一年的借阅资料中的读者共6772名,根据回归预测可得共有788位读者的借阅图书至少含有一本,那么推荐图书的出现率为11.64%(788/6772)。因此图书推荐系统可以根据推荐率,为目标读者只能推荐图书,促进提升借阅量,也同时为我校学生提供更加智能的数据推荐服务,提升目标化、锁定式阅读体验[2]。
参考文献
[1]張金连.NS学院图书馆图书采购管理优化研究[D].华南理工大学,2014.
[2]刘斌.基于数据挖掘的高校图书馆借阅数据特性分析与应用[D].苏州大学,2010.
[3]王正宇.数据挖掘在读者偏好研究中的应用[D].上海交通大学,2010.
作者简介
时嘉遥(1995-),女,山东省,本科在读,学生,研究方向:统计分析。
关键字:图书借阅;用户荐购;统计分析;个性化模型
1 国内外研究现状及发展动态
1.在图书复本量优化决策方向已有研究:
我国图书采购管理的研究很多基于复本量优化决策问题[1],主要分为两种方法,第一种通过影响图书复本量的因素进行定性分析,主要因素有实际读者人数、图书馆的借阅制度、图书文献的使用年限、图书馆舍得分布情况、原有资源的规模与布局、信息媒体的类型文种载体及专业水平、信息服务机构提供的信息媒体复制能力和、预计丢失和损坏的数量;第二种类型是把影响图书采购复本量的影响因素作为变量,建立数学模型,并通过对流通数据进行统计分析,找出它们之间的关系,用来指导图书采购计划的制定与执行。
尽管人们已经提出许多计算信息媒体采集复本量的数学模型,但由于复本问题与众多的变动因素紧密联系,随机性很强,难以给出确定的数值,以至于这些模式通常把简单的问题复杂化,因此,真正能够投入实际应用的统计方法至今仍很少见到[2]。
2.在数据挖掘领域已有相关探索:
近年来,利用一般性的数据挖掘算法,如聚类算法、关联挖掘等技术,对图书借阅数据中的用户偏好进行数据挖掘,受到了越来越多的讨论。现有研究,如文献,多针对实际问题,应用数据挖掘相关算法,解决图书借阅之间的关联规则挖掘,从而对图书馆的馆藏布局提供意见,实现图书推荐功能[3]。
2 研究方法
首先关于图书采购、原则、组织结构以及业务流程等方面对上海对外经贸大学图书采购工作与目标进行访谈。
针对数据库现有的借阅数据进行描述性统计分析,了解我校图书流通现状。
结合以上两步内容从图书馆信息管理的实际需求出发,以图书、读者、时间等多个维度进行统计推断与分析,从大量的图书借阅数据中量化规律,讨论未收录新书选择增添问题,为图书馆采购提供科学化参考,更精准的满足读者需求。探索利用用户个性化分析,实现图书馆采购推荐的关键统计技术,并以技术报告呈现。
3 研究成果
以下成果均基于2010-2015年度上海对外经贸大学图书馆图书借阅数据
1.图书类别维度
6年内,累计借阅量前十名图书类别及借阅比重分别是文学15.97%、经济9.82%、语言、文字9.64%、哲学类6.59%、政治法律5.87%、数理科学和化学5.36%、社科总论5.14%、历史、地理5.13%、文化、科学、教育、体育4.65%、工业技术4.44%。
2.借阅总量维度
以2010-2014前五年的借阅数据作为训练样本,2015年作为验证样本,去除重复的图书,前五年被借阅过的不同图书数量分别为1078、1236、1467、1372、2092,从数据源中舍弃重复的图书,共有4032本不同的图书。2015年被借阅数量为2403,其中前五年出现的图书共有3086本。
3.推荐结果评估
在六年的借阅数据中,会同时出现在前五年及最后一年的借阅资料中的读者共6772名,根据回归预测可得共有788位读者的借阅图书至少含有一本,那么推荐图书的出现率为11.64%(788/6772)。因此图书推荐系统可以根据推荐率,为目标读者只能推荐图书,促进提升借阅量,也同时为我校学生提供更加智能的数据推荐服务,提升目标化、锁定式阅读体验[2]。
参考文献
[1]張金连.NS学院图书馆图书采购管理优化研究[D].华南理工大学,2014.
[2]刘斌.基于数据挖掘的高校图书馆借阅数据特性分析与应用[D].苏州大学,2010.
[3]王正宇.数据挖掘在读者偏好研究中的应用[D].上海交通大学,2010.
作者简介
时嘉遥(1995-),女,山东省,本科在读,学生,研究方向:统计分析。