大数据时代的图书馆数据挖掘技术探讨

    刘晓亮

    摘要:大数据的关键在于数据的分析与应用,提高图书馆基于数据挖掘的处理分析能力是开展知识服务的必然要求。文章首先阐述了图书馆的大数据服务应用特征,接着提出大数据阶段图书馆数据挖掘面临的挑战,并给出相应对策,最后探讨了数据挖掘中值得关注的重点技术以及图书馆开展知识服务应用的一些做法。

    关键词:大数据;数据挖掘;图书馆;信息服务

    1.图书馆的大数据应用特征

    大数据是一场革命,将改变人们的生活、工作和思维方式。大数据至今并无统一定义,通常以“4v”特征或对大数据进行描述性解释:规模(Volume)指数据的数量规模大;类型(Variety)指数据类型多样复杂,混合结构化与非结构化多种类型;实时(Velocity)一方面是数据增长速度快,另一方面要求在合理的时间内处理数据;价值(Value)反映了大数据隐含着价值转化。大数据发展的最终目标是分析挖掘数据的价值,其重点在于数据的分析和应用,“大”不过是信息技术不断发展所产生的海量数据的表象而己。

    社会进步和信息技术不断改变着图书馆的服务内容与模式,网络环境下要求将这些信息资源组合成整体并延伸至更大的范围。随着数字图书馆的兴起,图书馆数字化文献信息、数据库的数量种类不断增加,各地市级图书馆都已具有海量信息规模,比如上海图书馆提供的数据库已多达400余个。这些数据包括类型多样的文本、图片、音频与视频各类非结构化数据,满足大数据的基本特征。然而,这些数据资源价值远未得到有效体现与利用。一个重要的原因是缺乏有效的数据挖掘技术方法。通过人工从大量结构繁杂的数据中发现价值,是难以实现的。随着大数据技术的发展与应用,必然要求图书馆重点利用数据挖掘技术从大量的信息中发掘数据价值,以此推出知识化产品化的服务应用。同时,通过大数据处理分析对信息资源进行深度、动态、广泛的知识挖掘,便于揭示信息内容中各个要素及其相互之间的联系,促进信息交流,实现信息资源共享,提高文献信息的利用效率,从而实现图书馆信息增值服务并提高信息服务的竞争力。因此,探索数据挖掘方法技术提高图书馆的服务水平是亟须思考和解决的问题。

    2.大数据时代图书馆数据挖掘面临的挑战

    大数据时代的到来,极大地促进了数据科学的兴起。数据科学包括用科学的方法研究数据与用数据的方法研究科学,后者主要的实现方式就是数据挖掘方法与技术。数据挖掘是指从数据源中发现知识的过程。实现数据价值的关键环节在于数据的挖掘方法技术。所以,如何充分有效地利用数据挖掘方法对图书馆大数据进行开发处理,是开展图书馆知识服务的重要研究方向,也是服务创新的关键途径与支撑服务技术。大数据时代图书馆的数据数量大、类型多,对数据挖掘提出新的需求与挑战,主要有以下方面。

    2.1大规模数据量

    数字馆藏数据规模与数据类型在不断增长,对于数据挖掘算法的能力要求也在不断提高。传统对于大规模数据的分析一般采用随机取样,以较少数据获得最多的信息,其准确性会随着随机性增加而提高。这是在计算机性能较低特别是无法收集全部数据的情况下的选择。然而,大数据环境数据价值隐匿于海量数据中,单靠取样是无法捕捉到这些细节的,需要采用全集数据进行处理分析。如此大量的数据分析仅靠单机是无法完成的,分析挖掘模型必然要借助分布式计算框架,比如,Map Reduce或者当前流行的Spark,将分析模型迁移至集群计算环境。大数据应用具有实时性,如智能推荐、文献关联等,需要在合理的时间完成分析过程,采用集群计算环境也是提高计算效率的选择。另外,数据量增加的同时,噪音数据也会增加。因此,在数据分析之前必须进行数据清洗等预处理工作。

    2.2数据的高维特征

    图书馆数据的多样性能够提供更多维度的客观对象描述属性。数据从过去的一维、多维逐渐发展为巨量维度。虽然能够建立丰富的多维数据模型与方法,但在构建的大数据特征空间中,往往会超出传统方法的处理能力。可以考虑引入维度规约技术,比如主成分分析、奇异值分解来降低数据维度。同时,数据属性可能过于稀疏,也会极大影响数据模型的有效性。

    2.3数据关系广泛

    图书馆服务应用过程中的信息、用户对象之间存在多种行为与内容关联,从而组成多关系网络。大数据的多源性、多样性正是构建这种复杂关系的基础。比如,用户的查询词、借阅记录、浏览记录、图书馆文献信息内容之间形成的多关系网络。特别是社交网络数据的应用,更使其趋于多元化。许多图书馆实践中,比如基于用户的信息推荐就是利用这种关系作为分析依据。过多关系的简单链接应用,反而会削弱关键特征的作用和导致语义缺失。如何广泛利用大数据提供的各类数据类型与数据关系,成为实际应用中的一个重点。实际中,需要重视运用关系选择、组合及判断函数,提高分析的正确性有效性。

    2.4数据保护要求不断增长

    数据是图书馆信息服务的核心和基础,数据的安全性就显得尤为重要。用户在享受精准个性化推荐带来的便捷的同时,也在深深担心个人隐私安全问题。一些敏感信息以明文存储也会有安全风险。这些会导致数据挖掘方或者任何可以接近数据集的人,能够辨别特定的用户个体或内容信息,存在利益侵犯的可能性。数据挖掘在发现数据价值的同时,也对隐私安全和数据安全带来了威胁。这就需利用数据修改、数据模糊、数据加密、加密检索等隐私保护技术提高数据的安全性和可控性。

    2.5自然语言理解程度较低

    当前,在信息检索、自动摘要等常见的数据挖掘任务中,仍无法有效识别同义词、近义词以及词语间的语义关联,特别是一些短文本处理中,无法有效识别词语语义,造成处理效果不理想。虽然一些图书馆建设了知识库,但仅限于研究层面,距离实用在规模上有相当差距,在应用方法上也没有大的突破。同时,图书馆存在大量图片、音频、视频数据,这些数据的加工处理也没有引入有效的自动图像、音频识别技术,图书馆难以基于数据挖掘提供全方位的信息服务。

    3.大数据时代图书馆数据挖掘的关键技术方法

    3.1数据存储

    图书馆数据类型众多,需要引入非结构化数据存储技术。比如典型的HDFS,No SOL(Not Only SOL),已广泛用于非结构化数据的分布式存储。传统关系型数据库适合结构化数据存储。需要注意的是,要区分结构化与非结构化数据,针对数据特点使用相应的存储技术。在实际中,难以使用一种数据存储方式存储管理所有的数据,即使谷歌也是将结构化数据存储在关系型数据库中。同时,需要运用高效存储技术,比如数据压缩、自动精简配置、自动分层存储、存储虚拟化等解决或缓解数据量过大、存储利用率、存储效率低等难题。

    3.2数据集成

    目前,相当数量图书馆的一个重要问题是数据资源分散化、碎片化,数据存储在不能相互访问的数据库与系统中,形成数据孤岛。孤立的数据是难以发挥出数据价值的,如何连接这些数据,实现资源交互共享,是数据价值最大化的关键。数据集成将不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,经过关联和聚合之后采用统一定义的标准来存储数据,从而应对大数据数量众多、类型广泛等问题给数据管理服务所带来的挑战。数据的集成连接涉及异构数据的统一语义描述、多维特征关联。同时,要保证数据质量,需要对数据进行清洗。但清洗的粒度过细,容易过滤有效数据;反之,无法达清洗效果。所以,在质与量之间需要做出一定权衡。

    3.3数据处理加工

    语义处理技术能够为深层的数据分析提供支持,提高各种数据挖掘算法的语义化程度与性能,提高机器可理解数据的能力。语义知识库是语义处理的基础支撑,典型的知识库有WordNet、中文知网,但其构建存在人工成本高、更新慢的问题。实践中,可以从维基百科、互动百科等结构化程度较高的海量数据中抽取词语关系,以低成本方式自动构建语义知识库获取语义知识,也可以利用大规模语料构建概念词语矩阵或利用Word2 Vector工具,提高数据挖掘的语义化处理程度。图书馆需要采用图像、音视频内容检索技术,提高多媒体数据的处理能力。比如利用语音识别技术,将音频数据处理为文本并记录声音信号在音频中的时间位置,以此提高用户获取音频数据的快速性与准确性。通过语义标注从图书馆数据中识别概念本体,实现信息之间的关联,形成知识网络,为个性化、语义化服务应用提供支撑,进而可通过分类、聚类等数据挖掘加工处理从多维度满足用户的信息需求。另外,可借助微博、微信等社会化网络提供的API接口,获得更广泛的用户数据,展开用户需求与图书馆信息之间的深层处理分析,利用APP等多种方式为图书馆与用户之间搭建有效的服务桥梁。

    3.4数据可视化

    数据可视化是关于数据视觉表现形式的技术,其借助图形化手段,清晰、有效地传达与表示信息。一般以图形、图表等概要形式展现数据的各种属性和变量值。比如,通过数据饼图、柱状图、趋势图、关系网络图将处理分析结果或过程与用户进行交互,以此提高用户对查询结果的理解程度和兴趣。

    4.结语

    本文介绍探讨了图书馆大数据知识挖掘技术中值得关注的一些技术问题和重点,以及图书馆开展知识服务应用的一些做法。在大数据时代,拓展提高图书馆的信息服务水平,必须把握数据挖掘方法技术的发展趋势与特点,才能为满足时代需求改进与创新图书馆服务应用的方法与模式。

相关文章!
  • 融合正向建模与反求计算的车用

    崔庆佳 周兵 吴晓建 李宁 曾凡沂<br />
    摘 要:针对减振器调试过程中工程师凭借经验调试耗时耗力等局限性,引入反求的思想,开展了

  • 风廓线雷达有源相控阵天线研究

    罗琦史冰芸摘要:风廓线雷达有源相控阵天线可以显著避免来自地杂波的干扰,非常适用于气象领域。文章从系统整体设计、天线辐射模块方案、

  • 基于MATLAB 的信号时域采样及

    唐敏敏 张静摘要:频率混叠是数字信号处理中特有的现象,发生频率混叠后,信号会分析出错误的结果。而采样过程中,由于频率不够高,采样出