标题 | 基于大数据的智慧型医学图书馆构建策略 |
范文 | 孙晓芳 摘要:大数据的出现给医学图书馆带来了新的机遇和挑战,医学图书馆要想得到更好的发展,可以利用大数据开展个性化服务,构建智慧型医学图书馆。本文从基于大数据的医疗信息推送和学科知识服务两个方面分析了构建智慧型医学图书馆的理论体系,并从数据采集层、存储分析层、终端用户层三个方面分析了构建智慧型医学图书馆的技术体系,最后提出培养和引进数据管理人才是构建智慧型医学图书馆的关键。 关键词:大数据 智慧图书馆 医学图书馆 数据服务 中图分类号:G258 文献标识码:A 1 大数据与智慧型医学图书馆 大数据的概念最早由美国著名学者麦肯锡在2011年提出,他指出大数据是一种非结构化、规模大、复杂度高的数据集合[1]。目前学者普遍认为,大数据具有容量大、增长率高、多样化等特点[2]。通过开发大数据技术和构建大数据平台,人们可以实现对大数据的分析。与传统的数据分析相比,大数据的分析难度更高,因为这种分析需要面对海量的、动态的、非结构化的数据,而且分析的结果是未知的。目前,云计算、NoSQL数据库是进行大数据分析的基础,Hadoop是最流行的大数据处理软件,它们在大数据的采集、存储、管理和分析等方面,都具有独特的优势[3]。 医学图书馆也存在着大量的数据,这些数据主要包括:一是医学图书馆的馆藏数据。医学图书馆拥有丰富的馆藏资源,除了纸本图书以外,电子资源、专业数据库、医院特色数据库等都含有大量的数据信息,它们是医学图书馆大数据的基础组成部分。二是医学图书馆的用户数据。用户的个人信息、借阅记录、浏览痕迹、检索历史、咨询信息等都属于图书馆的用户数据。三是医院科研人员的研究数据。医院科研人员在研究病例、开展调查、进行实践的过程中,都会产生大量的原始研究数据。在大数据环境下,这些数据具有非常重要的科研价值,是医学图书馆宝贵的数据资源。 大数据的应用给医学图书馆带来了新的启发,如果医学图书馆能够合理地分析和利用每天产生的大数据,不仅能够辅助科研用户进行科研数据分析,而且能够分析和预测图书馆用户的行为,挖掘出用户的潜在需求,构建智慧型的医学图书馆。 2 智慧型医学图书馆的理论体系 2.1基于大数据的医疗信息推送 “健康中国”战略是一项旨在提高全民健康水平的国家战略。2016年,国务院发布了《“十三五”卫生与健康规划》[4],明确指出我国在医疗卫生健康上的发展指标。由此,“健康中国”战略进入了全面推进阶段。为了顺应“健康中国”战略的要求,医学图书馆可以利用大数据开展有关医疗信息的推送服务。 应用大数据分析技术,图书馆不需要明确用户的信息需求,也可以为用户提供有针对性的医疗信息。为了实现这一功能,图书馆需要全方位地收集图书馆用户的数据,如用户的借阅情况、浏览网页的频率、数据库资源的下载量等。与此同时,图书馆还要收集网络上的医疗资讯作为原始数据保存在数据库中。当所有数据收集完以后,图书馆即可对这些数据进行分析,从中挖掘出用户的需求,并通过RSS订阅、微信平台、邮件订阅等方式,把与之匹配的医疗资讯精准地推送给用户,实现个性化的医疗信息推送服务。 实现个性化的医疗信息推送服务的关键是如何从大数据中分析和预测出用户的行为。目前,Pig、Hive、MapReduce是常用的大数据分析工具。利用这些工具,图书馆可以把收集到的用户数据转化为元数据,然后对不同的元数据进行编码,构建相关性框架模型,从而实现对大数据的分析。例如,用户A 向图书馆发送了搜索“原发性肝癌免疫治疗”的指令,图书馆在分析数据库中的数据后发现,用户B曾经搜索过“中晚期肝癌临床治疗进展”等肝癌相关领域的关键词,而且用户B在相关性模型中的权重较高。因此,系统判定用户A与用户B有相似的信息需求。这时候图书馆就可以向用户A推荐用户B曾经浏览过的信息,实现个性化的医疗信息推送服务。 2.2基于大数据的学科知识服务 学科知识服务是医学图书馆中一项非常重要的服务,在以前,学科知识服务由学科馆员负责,其工作内容主要包括科研数据查新、参考咨询服务、定题服务等。在大数据时代,学科知識服务可以有更广阔的发展空间。通过数据分析和数据关联技术,图书馆可以实现以下类型的学科知识服务: 2.2.1学科前沿和热点分析 学科前沿和热点分析对科研用户的研究方向和选题有重要的影响,为了更准确地预测出特定学科的前沿和热点,图书馆可以利用大数据的分析方法。首先,图书馆需要收集和提取相关学科的文献信息,如发文作者、机构、年份、关键词等。然后,图书馆员可以利用CiteSpace等软件对这些数据进行相关性分析,并生成可视化的知识图谱供用户参考。另外,通过分析学科用户的搜索行为和发文情况,也可以挖掘出用户的潜在需求,帮助用户更好地发现选题。 2.2.2原始数据的知识挖掘 医学工作者在开展医疗实践过程中会产生大量的原始数据,这些数据主要包括学术交流数据、实验数据、临床数据等,它们具有非结构化、数据量大等特点,因此在常规的学科研究中很难被利用。但是,大数据分析技术却能让这类问题迎刃而解。例如,通过对疾病的家族遗传史进行调查,可以获取大量的临床数据。利用Tensor Flow的深度学习机制,学科馆员可以构建出遗传疾病的发生模型,预测出病人的遗传病发病率,辅助科研人员开展相关研究。 基于大数据的学科知识服务还处于探索阶段,美国国家医学图书馆是最为成功的案例。该馆构建了一个基于大数据的生物医学数据库,通过大数据的分析和挖掘技术,该馆已经实现了对医疗保健信息和研究数据的利用,目前已经面向全球50多个组织或机构开展服务[5]。 3 智慧型医学图书馆的技术体系 3.1数据采集层 要构建智慧型医学图书馆,首先要对相关数据进行采集。通过数据采集层,图书馆可以从网络、笔记本、手机、阅读器等设备中获取大量的非结构化数据。这些数据主要包括三种类型:一是文本型数据。这些数据包括患者的病历信息、诊断报告等。通过对这些数据进行分析,甚至可以发现病人的隐疾。二是图像数据。医学图书馆中保存着大量的医学图像,从这些图像中提取出元数据,生成病症分析图谱,并与患者的诊断图像进行对比,可以实现病症的自动诊断。三是视频数据。视频资源是重要的教学素材,医学图书馆可以利用大数据技术,自动化地提取出视频中特征节点,形成索引和关联性网络,进行多媒体知识挖掘,实现资源的最大化利用。 为了更好地采集到这些数据,数据采集层需要根据馆内的实际情况设计网络爬虫代码和外部数据接口标准。在网络爬虫代码方面,图书馆要明确爬虫需要收集的数据范围,并制定统一的元数据提取方案,减少后期处理的工作量。在外部数据接口标准方面,图书馆要尽量使用国际标准。如果图书馆之间组成了联盟,还应该做好协商,采用统一的标准进行开发,提高数据采集平台的兼容性。另外,由于大数据的采集量较大,因此图书馆可配合云计算平台和分布式存储架构减轻采集数据的负担。 3.2存储分析层 存储分析层是智慧型医学图书馆的核心部分,它包括非结构化数据库、资源管理模块和各类分析工具。非结构化数据库是专门用于存储大数据的数据库,与结构化的数据库相比,它的数据结构并不规则。正因为这一特性,它可以方便地存储不同格式的数据,从而实现智能检索和知识挖掘的功能。资源管理模块用于管理数据的分类和流向。通过资源管理模块,数据馆员可以直观地了解到数据的采集和存储情况,并在适当的时候加以调整。资源管理模块往往与图书采购系统和图书借阅系统有密切的联系,良好的资源管理策略不仅可以充分发挥资源管理模块的数据管理作用,而且可以完善图书馆系统的采购和借阅流程,提高图书馆的服务质量。 分析工具是存储分析层中最重要的部分,它可以实现引文分析、偏好分析、采购分析、数据分析等功能。目前使用较广的分析工具是Hadoop子项目开发的MapReduce工具。利用该工具的映射函数,图书馆可以快速地完成数据的分类和元数据的提取。以引文分析为例,MapReduce可以把文献数据方便地拆分成不同的文件集,然后分配给不同的计算机完成相应的作业,最后再进行整合,有效地减轻了引文分析工作的负担。 3.3终端用户层 终端用户层是读者、科研人员、管理员等用户访问或提交数据的平台。终端用户层所构建的平台包括图书采购系统、图书馆的官网、移动APP等。为了提高数据采集的效率,终端用户层的各个栏目应该有统一的字段命名,让图书馆员可以通过标准化的方式在终端用户层上采集数据。为了保护不同用户间的隐私,图书馆还应该在终端用户层上设置不同的权限,重点是要避免患者信息的泄漏。另外,终端用户层上可以建立不同用户之间的互动交流模块,让用户的交流信息和行为轨迹也成为可以采集的数据。 4 结束语 大数据的出现对医学图书馆的数据整合能力提出了更高的要求,它需要图书馆员掌握信息技术、数学算法、数据管理、人工智能等方面的知识。数据管理人才的缺乏,阻碍了大数据技术在医学图书馆中的应用。但是,只要医学图书馆能够通过人才引进计划、馆员培训等方式提高图书馆员的专业能力和数据素养,克服人力和资金方面的困难,利用大数据因地制宜地開展医疗信息推送和学科知识服务,将会给医学图书馆的未来带来新的发展方向,构建智慧型的医学图书馆指日可待。 参考文献: [1] Big data: T he next frontier for innovation,competition,and productivity[EB/OL].[2017- 09- 25]. http://www.mckinsey.com/businessfunctions/digital- mckinsey/ourinsights/big- data- the- next- frontierfor- innovation. [2] Beyer M A, Laney D. The Importance ofBig Data: A Definition[J].2012. [3] 刘桂锋,卢章平,化慧.图书馆大数据知识服务生态体系及其动力机制研究[J].国家图书馆学刊,2016(3):52- 60. [4] 国务院关于印发“十三五”卫生与健康规划的通知[EB/OL].[2017- 09- 25].http://www.gov. cn/zhengce/content/2017- 01/10/ content_5158488.htm. [5] 朱易佳.嵌入式学科馆员模式的新探索——以美国国家医学图书馆的项目为例[J].农业图书情报学刊,2017(6):92- 95. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。