我国大数据技术应用于图书馆的实践研究

    鲁月 张秀兰

    摘要:文章简要介绍了大数据技术,分析了图书馆应用大数据技术的必要性,从读者服务、自身业务工作两个方面对目前我国图书馆应用大数据技术的实践进行了总结,最后,指出了我国图书馆在大数据技术应用方面存在的问题,并提出对策。

    关键词:大数据;大数据技术;图书馆

    随着云时代的到来,由维克托·迈尔-舍恩伯格及肯尼斯·库克耶提出的大数据(big data)越来越多的得到社会各界学者的关注。大数据或称海量数据,是用来描述海量的结构化和非结构化数据的专业术语,包括业务流程数据、企业大数据、社会大数据、个人大数据和科学大数据等。利用大数据技术分析挖掘图书馆中的数据信息,改善图书馆日常业务工作,提升图书馆的服务水平已成为大数据时代图书馆提高服务质量的发展方向。

    一、大数据及大数据技术概述

    (一)大数据的涵义及特征

    大数据一般指数据量在10TB(1TB=1024GB)规模以上的数据,与海量数据不同,大数据不仅代表着巨大的数据量,在数据流、结构化与非结构化数据的处理速度及效率上也是惊人的。大数据的本身没有意义,它的价值主要是通过数据挖掘及分析来体现。

    大数据与过去的海量数据有所区别,具有数据量巨大、数据类型众多、价值密度低和处理速度快四大基本特征。

    (二)大数据技术

    随着大数据时代的到来,人们需要采用新一代的信息技术来对大数据进行分析处理,大数据技術主要分为五大类。

    1. 基础架构技术

    基础架构技术主要包括支撑大数据处理的数据中心管理技术、云计算平台、云存储设备及技术等。大数据处理需要云数据中心和具备高效调度管理功能的云计算平台的支撑。

    2. 数据采集技术

    数据采集技术是进行数据处理的必备技术,对海量的数据加以利用的前提是通过采集技术把数据采集上来,采集的过程既包括采集、转换、加载等,也包括对数据的清洗、过滤、校验等各种预处理过程,这一系列的过程都需要采集技术加以支撑。

    3. 数据存储技术

    数据经过采集和转换之后,还需要进行存储归档。数据存储技术主要是将这些数据分布到多个存储节点上,数据存储技术还提供备份、访问接口等服务。

    4. 数据计算技术

    数据计算主要包括数据查询、数据统计、数据分析、数据预测、数据挖掘等各项相关的技术,这些同时也是大数据技术的核心。

    5. 数据展现与交互技术

    数据最终的结果是为人们生产、决策提供支持,因此需要恰当直观的将数据展示出来。数据展现除传统报表、图形等,还可以结合现代的可视化工具及人机交互手段,如手机APP等增强现实的手段,来实现数据与现实的无缝接口。

    二、图书馆应用大数据技术的必要性

    随着信息技术及数字技术在图书馆中的应用,图书馆资源数量越来越多,资源类型越来越复杂,资源内容越来越丰富,图书馆需要充分有效地利用这些数据资源,拓展图书馆的服务内容。

    (一)图书馆工作符合大数据特征之处

    1. 海量化的信息

    据互联网数据中心的监测,全球在2010年正式进入ZB时代。与此同时,图书馆的资源收藏量也呈现出急速增长的趋势,从TB级别跃升到PB级别。北京世纪超星技术发展有限责任公司建设的超星数字图书馆,拥有数百万册电子图书,内容总量超13亿页,数据总量约达976.56TB,其图书资源量十分庞大;再如,国家图书馆资源类型十分丰富,不仅包括微缩制品、音像制品,还建成了中国最大的数字文献资源库基地,数字资源的数据总量超过1000TB,并以每年100TB速度增长;武汉图书馆截至2014年年底,馆藏文献总量达398万册,数字资源容量达到150TB。因此,目前我国许多图书馆从数据量上看已经具备了海量化的数据。

    2. 多样化的数据

    随着信息技术的迅速发展,由图像、声音、超媒体等信息组成的非结构化数据也随之产生并逐渐增多。图书馆经过多年的数字化建设,数据类型变得更加多样化,除了纸质文献外,还拥有大量的数字资源,以及各种光盘、音频、视频资源等。北京大学图书馆大量引进和自建国内外数字资源,其数字资源类型多样,包括各类数据库、电子期刊、电子图书和多媒体资源等,从结构上看主要包括半结构化和非结构化数字资源。武汉图书馆已建成集印刷文献、电子文献、微缩文献、视听文献、网络文献为一体,学科门类齐全、虚拟与实体馆藏相结合的多类型文献资源格局。综合国内图书馆具有的资源类型可以看出,图书馆已经具备了多样化的大数据特征。

    (二)图书馆应用大数据技术的意义

    1. 全方位数据推送服务

    图书馆通过数据采集技术采集读者信息,利用大数据分析技术对读者的年龄、职业、喜好等采集到的数据进行分析,以不同层次读者的需求为出发点,根据不同类型人群的喜爱提供有针对性地全方位地实时信息推送服务,这种推送服务不仅可以提供读者所需资料,还可以将信息资料细化到某一摘要、关键词,为读者带来全新的智慧体验,很好地提高了图书馆的社会效益。

    2. 建立新型图书馆资源框架

    身处大数据时代中,面对网络上种类繁多的信息和用户对图书馆的多重需求,图书馆可以利用大数据技术构建起新型数字图书馆资源框架。新型框架要具备以数据为中心的理念,除了包括传统的文献资源外,还应把数字资源、网络资源嵌入其资源体系内,既包括文本信息,也包括图像视频信息,实现网络的信息进行自动获取。在新型的资源框架下,通过建立具有语义关系的大数据组织、检索技术,图书馆的信息采集和服务将全面提升。

    3. 提高日常业务工作效率

    在图书馆资源采购工作中,利用大数据技术对读者的需求和喜好等信息进行分析和挖掘,可以在图书馆采购环节中合理分配经费,将有限的经费用于采购读者所急需和喜闻乐见的信息资源,避免经费的浪费。此外,在图书馆参考咨询服务中,应用大数据采集和挖掘技术,图书馆利用语义检索功能和文本知识挖掘功能,使读者更快更准确地检索到所需要的信息资源,提高读者满意度。

    三、大数据技术在图书馆工作中应用的实践

    大数据的研究及应用激励着图书馆大数据体系和信息智能服务的构建,目前国内许多图书馆已经开始将大数据技术应用于工作实践之中。

    (一)在读者服务中的应用

    1. 华中科技大学图书馆

    华中科技大学图书馆综合读者借阅数据、书目浏览数据、电子阅览室浏览数据等部署了大数据存储与分析系统,旨在对数据进行统一存储和综合挖掘,目前该系统已存储各类数据记录两亿余条。华中科技大学图书馆使用数据挖掘算法对存储在系统中的数亿条数据进行挖掘计算,以此进行读者分类,针对不同层次读者的特点,采取相应的服务措施;同时该馆利用图书自有的元数据及借阅数据等,进行图书关联度的挖掘,为读者提供相似、相关图书的推荐;根据读者的属性使用协同过滤方法在读者群中找到兴趣相似的读者,综合这些读者对某些文献的评价,对他们的喜好进行分析,进行实时图书推荐,为读者提供更方便的服务。

    2. 上海图书馆

    2015年,上海图书馆基于对信息系统内海量数据的分析和挖掘,利用大数据的采集技术和可视化技术,推出了“上海市中心图书馆即时数据展示屏”,对市中心图书馆实时流通情况、今日到馆读者数、今日借还情况等数据进行展示,使读者可以随时了解图书馆的最新动态。上海图书馆还采用数据展现与交互技术,结合现代可视化工具,推出了的最新版本手机APP,将位置定位等常用的移動技术与图书馆服务相结合,通过这些技术读者可以随时随地查看上海图书馆的热门图书推荐、馆藏状态等信息,为读者带来全新的智慧图书馆体验。

    3. 武汉图书馆

    2014年,武汉图书馆在读者行为模式研究中应用大数据分析技术,开发读者管理平台,开展读者行为“大数据”分析工作,通过分析读者构成、阅读习惯、潜在需求等信息,为每位读者提供个性化荐书服务,“假设一位读者近一段时间经常借阅经济类图书,当他登陆数字化借阅端口,就会显示相关经济类图书供这位读者参考,系统对每个人的推荐目录都是独一无二的”。武汉图书馆馆长李静霞说,此项服务可以积极引导市民培养阅读习惯,推荐好书。

    4. 清华大学的知识关联网络

    目前清华大学图书馆的馆藏中纸质书达三百多万种、电子书六百多万种、近七万种电子期刊,清华大学图书馆以这些海量数据为基础,通过大数据分析及挖掘技术,自动甄别出清华大学的目标学者(ThuRID),获取学者的学术出版物及其信息,应用开放链接技术准确定位清华学者学术出版物的全文,并采用可视化视图的方式直观展示学者的学术历程,建立学者为中心的科研网络和知识关联网络。目前,清华大学图书馆已经成功甄别出五十位目标学者,建立了以他们为中心的知识关联网络,便于用户查找某一学者的全部学术信息。

    (二)在自身业务工作中的应用

    1. 资源的合理配置

    资源的采购和合理配置是图书馆日常业务中非常重要的环节。大数据技术对数据深层次地挖掘和分析,可以为图书馆的资源采购及配置环节提供帮助。上海图书馆馆长刘炜说:“大数据的应用是上图在保障用户隐私的基础上,使数据服务于读者。通过数据分析,一系列阅读指标一目了然,上图可以基于流通量指标等数据更有针对性地合理配置采购、盘活馆藏资源”。

    2. 资源未来需求方向的预测

    2013年12月,武汉图书馆首次使用大数据分析技术分析全年图书借阅排行榜,结果发现经典名著入榜,社科人文类畅销书借阅率提高,网络文学和通俗文学类图书借阅率下滑,此分析对武汉图书馆的文献购买提供了支持,武汉图书馆可以根据分析结果预测未来资源的需求量、需求方向,科学的制定采购政策。

    深圳图书馆于2012年开始大数据的研究与应用,在构建全市统一技术平台和引进新技术的过程中,通过网络系统、数据库系统和软件系统的协同工作,采取大数据挖掘、聚类分析等技术,对图书馆多个领域的数据进行分析挖掘。助力图书馆从大数据应用的视角,对不断增长的数据进行统计分析和趋势预测,预测未来图书馆服务发展方向,馆藏资源的购买方向,推进图书馆向智能化、智慧型方向发展。

    四、我国图书馆大数据技术应用的问题与建议

    (一)问题

    虽然大数据技术已开始在图书馆的读者服务和业务工作中应用,但目前图书馆的应用还不普遍,在应用过程中也暴露出许多问题,值得我们总结和思考。

    1. 众多图书馆大数据技术应用的意识淡薄

    虽然大数据技术在众多领域得到广泛的应用,但图书馆领域的应用并不充分,究其原因应用意识淡薄是首要的。目前,许多图书馆还没有清醒地意识到大数据环境的到来,没有认识到大数据在图书馆各项工作中的作用和价值,更没有意识到大数据技术会给图书馆工作带来的根本性的变革和创新,认为自己离大数据还很遥远。因此,如何提高大数据环境下图书馆人对大数据技术的认知度是我们急需面对的问题。

    2. 基础设施不够完善

    身处于信息的海洋中,快速增长的数据逐渐超出了图书馆现有基础设施的承受范围,传统图书馆的数据处理设备及方式常常显得力不从心,许多图书馆能支持非结构化数据存储及分析的软硬件设施还没有建设起来,大量的有价值数据得不到很好地利用,其价值往往被埋没,完善基础设施建设是当下图书馆需要解决的另一大问题。

    3. 图书馆员专业技术欠缺

    当今社会,图书馆员应既是一名文献工作者也是一名数据工作者。美国麻省理工学院的一个研究表明,图书馆员在数据监护工作当中需要承担的职责包括:数据集合的存储、数据管理规划、最佳实践经验的传播、收集与传播数据集合以及数据保存标准的制定等。由此可见图书馆员应掌握大数据的各项技术,才能完成图书馆资源地有效整合,从而更好的为读者服务。显然,我国目前多数图书馆还没有满足新技术环境对图书馆工作的新要求。

    4. 数据安全面临风险

    数据安全和隐私保护是大数据发展的一大难题,也是图书馆大数据工作面临的重要问题。首先,图书馆海量数据的存储增加了数据安防的难度,数据损坏或丢失的系数增加;其次,大数据时代,网络攻击也威胁着数据安全,读者行为等数据的泄露带来的损失远远超出行业所能承担的范围,因此,图书馆大数据工作中数据的保存和维护变得十分重要,这些安全风险无法规避,会给读者带来重大损失。如何更好地保障数据安全也是图书馆大数据工作必须要解决的问题。

    (二)建议

    面对大数据带来的机遇和挑战,图书馆应该积极把握机遇,迎接挑战,科学、合理地构建图书馆大数据体系。

    1. 提高认识,把握机遇

    图书馆作为文献信息的中心,拥有大量的资源数据,这些数据不仅数据量巨大,而且类型复杂,所蕴含的价值极其丰富,图书馆应充分认识这些数据地分析利用会给自身带来的发展契机,把握住大数据时代给图书馆的变革和创新带来的机遇。

    2. 完善设施,营造环境

    大数据技术的应用需要相关设备的支撑,图书馆需要加强软硬件设施的建设,积极引进能支持大数据处理的先进技术设备。在软件方面要积极构建大数据计算与处理平台,展示与分析平台,优化升级图书馆数据存储系统。此外,还要真正确立以用户为中心的服务理念,制定数据管理计划及政策,努力营造优质的大数据服务环境。

    3. 培养人才,提升水平

    图书馆要想充分发掘和利用大数据技术,人才培养是关键,如前所述,目前我国图书馆馆员在新的信息技术的掌握和使用方面还是一个薄弱环节,因此,图书馆可以采取引进人才,已有馆员的外出学习、培训,参加馆内的相关实践等多种手段,培养馆员数据处理方面的技术,为图书馆大数据体系建设提供人才保障。

    4. 加强安全管理,确保数据安全

    大数据在采集、组织、存储、维护、协调等方面都有着不同于传统信息处理方法的显著特征,图书馆在从事大数据的业务时,首先要从思想上认识安全管理的重要性,在相关的政策性文件的框架下,制定相应的规章制度,加大数据安全管理的力度;其次,要健全技术防范和保障体系,充分研究利用包括入侵检测技术、防火墙技术、防病毒技术、加密技术、认证技术等在内的技术保护措施,建立健全各项技术防范和保障体系,确保系统的正常运行,保证数据安全,保护读者隐私。

    五、结语

    目前图书馆在大数据技术的应用方面還面临着许多挑战,但挑战即机遇,图书馆要清醒的意识到大数据时代的到来,将大数据技术充分应用于各项业务工作中,使大数据技术能在图书馆未来的发展中发挥应有的作用。

    参考文献:

    [1]李鹏云.大数据与图书馆服务[J].农业图书情报学刊,2013(09).

    [2]A Mcafee,E Brynjolfsson. Big data: the management revolution[J].Harvard Business Review,2012(10).

    [3]赵勇.架构大数据:大数据技术及算法解析[M].电子工业出版社,2015.

    [4]关晓颖.浅谈大数据技术在图书馆中的应用研究[J].金融理论与教学,2015(02).

    [5]苏新宁.大数据时代数字图书馆面临的机遇和挑战[J].中国图书馆学报,2015(06).

    [6]江云,李凤兰.大数据在我国图书馆的应用及推进研究[J].图书馆工作与研究,2014(06).

    [7]P.Bryan Heidorn.The Emerging Role of Libraries in Data Curation and Escience[J].Journal of Library Administration,2011(08).

    *本文系国家社科基金项目“基于国际编目新规则的我国编目工作变革研究”成果之一,项目编号:14BTQ010。

    (作者单位:辽宁师范大学管理学院)

相关文章!
  • 融资融券对日历效应的影响:来

    王璐摘 要:过去的研究表明,中国股市的运行效率受到政府监管与干预并存在非对称交易的现象。2010年3月31日,中国股票市场实行了融资融券

  • 小桥老树的“官场江湖”

    张凌云凭借一部《侯卫东官场笔记》,他红遍大江南北,接连几年闯入国内作家富豪榜;他神龙不见首尾的低调一度引发全国大搜索。因他的作品而

  • 公司治理、内部控制对盈余管理

    金玉娜柏晓峰摘 要:按照形成原因——作用机理——解决机制的路径,对抑制盈余管理有效途径的实证研究表明:机会主义偏误和技术性错误是盈余