标题 | 基于大数据的图书馆用户个性化隐私保护策略 |
范文 | 马晓亭+李凌 作者简介:马晓亭(1974-),女,副教授,硕士,研究方向:大数据、数字图书馆建设。·信息资源开发与利用· 〔摘要〕近年来,用户隐私保护问题已成为大数据时代图书馆的研究热点,用户数据隐私保护的意义显得尤为重要。本文介绍了大数据时代图书馆用户隐私保护问题的研究背景,提出了一种基于大数据的图书馆用户个性化隐私保护策略,从隐私政策、隐私保护技术、数据可用性分析和图书馆监管4个重要方面,对图书馆用户的隐私保护问题进行了分析与总结。 〔关键词〕大数据;图书馆用户;个性化;隐私保护 DOI:10.3969/j.issn.1008-0821.2014.03.014 〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2014)03-0060-03 Personalized Privacy Preserving Strategy for Users of the Library Based on Big DataMa XiaotingLi Ling (School of Information Engineering,Lanzhou University of Finance and Economics,Lanzhou 730020,China) 〔Abstract〕In recent years,the privacy preserving for users of the library have become a hotspot in big data era,the significance of protecting data privacy for users becomes more prominent.In this paper,the research background of privacy preserving for users of the library in big data era was presented.Then,it discussed personalized privacy preserving strategy for users of the library based on big data,four important aspects of privacy preserving for user of the library were summarized and analyzed in detail,including privacy policy,privacy preserving technologies,data utility analysis,and the supervision of library. 〔Keywords〕big data;user of the library;personalized;privacy protecting 随着云计算、互联网络、传感器、阅读终端制造等技术的发展,图书馆基础设施资源结构科学性和用户服务保障力大幅提高,数据中心服务保障能力已不是制约读者阅读愉悦感和满意度的关键因素。如何准确预测读者需求和用户服务模式发展趋势,制定科学的服务资源管理、调度和用户服务策略,提高图书馆在服务市场中的竞争力和防范服务风险,是目前图书馆界面临的新问题。 大数据技术是继云计算、物联网技术之后IT界的又一次颠覆性变革。图书馆可通过对非结构化数据和结构化数据的快速、实时分析,明确复杂数据之间的相关性和发现价值,提高决策的科学性与优化用户体验,实现用户服务效率与读者阅读收益的最大化。但是,在读者个人数据的采集、管理、挖掘、分析和决策中,不安全的大数据应用方式和价值挖掘过程可能会侵犯读者隐私,导致服务的可信度和用户满意度下降。因此,大数据时代图书馆必须加强读者隐私保护[1]。 1图书馆大数据的特点与读者隐私保护需求 11图书馆大数据特点与读者隐私的定义 111图书馆大数据的特点 图灵奖获得者Jim Gray提出:网络环境下,每18个月产生的数据量等于有史以来数据总量之和。因此,随着科技的发展和读者需求增长,图书馆用户服务的模式、内容和方法将发生巨大变革。伴随用户服务安全性、效率、经济性和可靠性的不断提高,大数据环境将呈现海量、多样性、快速和低价值密度的特点。 大数据时代,图书馆服务内容主要包括用户个性化定制与推送服务、虚拟参考咨询服务、馆际间联合服务、与第三方大数据商的联盟增值服务等。所涉及的大数据资源可分为图书馆系统管理与运营数据、读者行为与阅读关系数据、传感器数据、监控数据、应用日志文件、XML文档、JSON文档和电子邮件等,数据格式主要为图像、视频、声音、短信、标签及状态、地理位置标记,以及从社交媒体收集的其他数据。这些大数据资源可为增强图书馆的管理、服务和市场竞争力,以及提高用户阅读满意度提供可靠的数据支持[2]。 112大数据环境下读者隐私的定义 维基百科对隐私权定义如下:“隐私权是指个人人格上的利益不受不法利用或侵害,个人与大众无合法关联的私事,亦不得予以发布和公开。其私人活动,不得以可能形成一般人的精神痛苦或感觉羞辱之方式非法侵入的权利。是为众多法律系统所支持的一种人身基本权利。”个人隐私通常有3种形态:一是个人信息,为无形的隐私;二是个人私事,为动态的隐私;三是个人领域,为有形的隐私。 大数据时代,图书馆对读者个人行为或者关系数据采集、管理、挖掘、分析和决策的安全性,以及对读者大数据资源使用的动机、读者相关数据的质量与准确性、读者对隐私数据的知情权与控制权、法律法规对隐私保护的有效性等因素,是决定读者大数据阅读收益和满意度的关键。 12大数据时代图书馆面临的隐私安全问题与读者隐私保护需求121云计算的共享特性可能导致隐私数据泄露 云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。云计算可为图书馆提供超级计算、海量存储、高效管理和资源共享的服务,具有弹性服务、资源池化、按需服务、服务可计费和泛在接入的特点。 图书馆以云服务租赁的方式,按需从云服务商获得云服务。因此,图书馆在数据存储时通常与其他用户共享存储空间,无法明确读者隐私数据在云空间的具体存储位置,难以对读者隐私数据的采集、存储、使用和分享过程进行有效控制。其次,读者隐私数据从图书馆数据中心向云空间传输中,以及在云空间内部不同的系统之间传输中,传输系统的开放性和多元化可能会导致用户隐私数据被监听、窃取和篡改。第三,为了提高云平台服务效率和降低服务成本,云服务商通常会大量部署虚拟化技术。虚拟化技术自身特有的基础设施结构脆弱性和较低安全性,可能会导致用户账户被窃取、虚拟化攻击、身份伪装、认证失效和密钥丢失等事件发生。第四,云服务商不安全的数据存储、备份和销毁策略,也会导致用户隐私数据泄露。122大数据环境读者丧失了对个人数据的控制权 大数据时代,传统IT环境下划分的用户数据权利边界正在逐渐消失,读者已丧失对个人隐私数据的绝对控制权。 传统IT服务环境下,图书馆通常以签署个人数据使用协议的方式,明确读者提供个人信息的内容、应用途径与方法、图书馆对个人数据使用的范围和隐私保护义务,以及当读者隐私权受到侵犯时图书馆应承担的责任。而大数据环境下,图书馆通过对用户阅读行为监控、传感器采集、用户个人信息登记、读者博客与论坛留言分析,以及与其他大数据平台资源共享等方式获得读者的个人隐私数据,因此,隐私数据的所有权、使用权、控制权和监督权所有对象模糊。此外,图书馆还可通过对后台数据的监控与采集,全面获得读者的个体特征、历史行为、兴趣爱好、社会关系和家庭地址等隐私数据。第三,在拥有海量、高价值数据的基础上,图书馆可利用大数据平台对用户数据进行二次挖掘和知识发现,用户对此类数据完全丧失了知情权和控制权。 123图书馆的个性化服务过程可能会侵犯读者隐私 准确发现读者需求和开展精准营销,是保证图书馆个性化服务质量和较高用户满意度的关键。 首先,图书馆通过对用户海量数据的采集、比较、聚类、分类、分析和判断决策,从数据相关性中发现读者的需求、服务模式发展趋势、服务系统特性和QOS(服务质量)评估标准变化,并通过服务决策和系统的反馈控制,实现个性化服务的实时推送与即时优化。但是,当用户数据呈现海量和关系结构复杂化特征时,读者将会面临隐私数据被过度挖掘和侵犯的风险。其次,图书馆在用户个性化服务过程中,可能会过分强调读者数据采集的范围、程度、价值量和可用性。或片面追求用户的个性化体验效果和阅读收益率,而忽视读者对自身数据采集、应用和共享过程的知情权与控制权。第三,图书馆管理层对读者隐私数据保护的法制观念和道德水平,以及当图书馆自身利益与读者隐私相冲突时决策的科学性,也是关系读者隐私保护有效性的关键因素[3]。 124读者大数据阅读的复杂性可能会导致隐私问题 随着阅读终端制造技术的发展,读者可利用不同类型的阅读终端,在任何时间、任何地域、以任意模式开展所需内容的个性化阅读。用户虽已摆脱了时间、地点和服务方式对读者的束缚,但是,阅读终端的复杂化和多样性,将导致图书馆服务系统结构复杂度和服务难度大幅增长,增大了读者隐私数据被侵犯和窃取的概率。其次,图书馆在用户数据的收集、分析和传输过程中,可能会涉及不同的数据传输网络和传输模式,复杂的网络结构和传输模式也增加了图书馆网络监控和安全管理的难度。因此,个人隐私数据在传输过程中易被窃听、截获和篡改。第三,伴随通信技术和数据处理技术的发展,移动阅读将会成为未来读者个性化阅读的一个重要方式。移动阅读模式虽然摆脱了地域对读者个体的限制,但会泄露用户的地理位置、个性习惯、健康状况和社会地位等其他敏感信息,可能会对读者的个人隐私和人身安全造成伤害。 2基于大数据的读者个性化隐私保护策略 21加强个性化精确服务的读者隐私保护 读者个性化精确服务是指图书馆利用大数据技术,将所获取的数据资源进行分类、整合和分析,明确读者的阅读需求和图书馆服务保障能力。并将具有类似行为、兴趣和阅读需求的用户划分为不同的群体,根据用户需求为读者提供服务精准推送,实现图书馆服务效率和读者阅读的最大收益。 首先,读者特征数据与社会关系数据的采集,应重点关注涉及读者阅读需求、爱好、习惯和阅读关系的特征数据,尽量减少对用户需求发现和阅读QOS保障关系较小的,用户个人身份和隐私行为等数据的采集。其次,在用户个性化精确服务推送过程中,图书馆应将用户数据的知情权、拥有权、选择权和使用权交付用户,不应过分强调个性化精确服务的质量而侵害用户隐私。第三,图书馆应实现用户数据的透明采集,并明确告知读者相关数据采集的内容、方式和使用方向。在利用传感器、监控设备和网页搜集用户数据时,应通过技术手段过滤掉读者的姓名、住址、电话,阅读终端类型、账户密码、职业、身份、收入等隐私信息[4]。 22云应用过程应与读者隐私保护同步 云计算技术在提高图书馆服务效率、可靠性、用户满意度和降低运营成本的同时,也面临着数据安全威胁和读者隐私保护等问题,必须从管理策略和技术上予以保障,确保数据安全和读者隐私权不受侵犯。 首先,图书馆在选择云服务商和签署服务协议时,应重点检测和审查云服务商的信誉、管理能力、技术实力和云基础设施结构科学性,通过指标的量化评估明确云服务商安全级别和保障能力。其次,图书馆与云服务商签署服务协议时,须详细明确云服务商和图书馆在数据安全管理与用户隐私保护中的权利、责任与义务,以及当发生数据安全和用户隐私侵犯等问题时,云服务商的应急策略和必须承担的责任。第三,图书馆应根据自身经济与技术实力构建私有云,并将用户隐私数据传输到私有云中存储。同时,应制定高安全级的数据管理、应用、访问和备份策略,确保用户隐私数据安全。 23利用数据清洗和数据重构技术过滤读者隐私数据在对大数据资源融合存储来提高数据价值密度和准确性的同时,图书馆首先应通过数据的过滤、清洗和删减过程,减少大数据资源库中与读者个性化服务决策无关数据的数量。同时,还应将涉及读者隐私的特征数据符号化,或者采用数据相关人身份重构的方法,防止黑客通过用户特征数据的反向推导获得用户隐私数据。其次,在大数据应用平台的构建中,平台应支持对读者隐私数据进行匿名、加密、密钥编码和数据分片等操作,努力降低隐私数据应用和所有者之间的相关性,在不影响数据价值密度和可用性的前提下保障读者隐私安全。第三,大数据平台应通过读者身份认证,支持用户对图书馆采集的个人数据进行访问、审查、纠正、删除和匿名化处理等操作,提高读者对个人隐私数据的可控性。第四,图书馆将拥有的大数据资源与第三方共享时,或对来自第三方平台的读者数据进行大数据分析、应用时,应加强用户隐私数据的安全分析和评估,保证个人隐私数据不被非法共享和使用[5]。 24制定并执行科学的用户隐私保护法规 大数据时代,图书馆应依据国家相关个人隐私保护法规,制定并执行科学、高效的读者隐私保护制度和策略。 图书馆在制定与执行读者隐私保护制度时,应坚持与国家相关公民隐私保护法律和行业道德标准相一致的原则。同时,明确读者数据采集、使用的方法和目的,确保读者隐私数据采集、使用过程透明和符合法律规定。其次,图书馆应保证不过度采集、挖掘与使用用户数据,并允许第三方安全机构对数据的采集、管理、应用和共享过程进行监督。第三,政府机构应制定科学、全面、详细和可执行的法规,对图书馆使用、记录、统计和分析公民隐私数据的行为进行监控,并对违规行为实施严厉处罚。第四,读者应加强个人隐私数据的保护观念和维权意识,自觉对图书馆使用自身数据进行全程监督和透明管理。当自身隐私权受到侵犯时,应拿起法律武器维护自身的合法权益。 25图书馆应利用高科技术保护读者隐私 首先,图书馆在数据中心基础设施建设中,应以数据安全为核心对数据的采集、存储、传输和使用过程实行生命周期安全管理。此外,在不影响数据安全性的前提下,应对安全级别较高的隐私数据采取数据加密、密钥管理、身份认证、访问控制、安全审计等综合安全防护手段。其次,图书馆在读者应用软件设计中,在保 证软件功能性、可用性、友好性和可扩展性的前提下,应加强应用软件对读者个体特征、网页访问纪录、阅读地理位置、用户阅读行为等隐私数据的管理与控制。此外,读者必须拥有应用软件的功能设置和数据控制权。第三,图书馆应保证读者阅读终端的使用安全和数据传输安全。可通过阅读终端和传输网络的数据加密,防止读者阅读过程被黑客攻击,避免隐私数据被损坏、篡改、泄露或窃取[6]。 3结语 随着大数据时代的到来,数据已成为图书馆明确读者阅读需求、提升自身服务保障力、优化服务市场环境和完善客户关系的重要因素,是图书馆和其他服务商竞争的宝贵资产。在用户个性化阅读服务过程中,如何保证读者隐私数据不被非法获取、过度分析和挖掘,以及未经读者许可不被第三方共享和滥用,是关系图书馆服务可信度、读者阅读愉悦感和满意度的大事。因此,图书馆读者个性化服务必须坚持以用户数据安全和隐私保护为核心,依据国家公民隐私权保护相关法律制定科学、易执行的管理制度,并有效均衡图书馆利益、读者阅读满意度和用户隐私权保护三者之间的关系,才能保证读者大数据个性化阅读活动安全、高效、经济和便捷。 参考文献 [1]维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012. [2]刘向宇,王斌,杨晓春.社会网络数据发布隐私保护技术综述[J].软件学报,2013,(11):1-15. [3]易斌.高校图书馆读者隐私保护现状实证研究[J].图书馆论坛,2013,33(3):65-68,79. [4]李宁,朱青.大数据模式分解的隐私保护研究[J].计算机科学与探索,2012,6(11):961-973. [5]姚朝兵.个人信用信息隐私保护的制度构建[J].情报理论与实践,2013,36(3):20-24. [6]张海涛,黄慧慧,徐亮,等.隐私保护数据挖掘研究进展[J].计算机应用研究,2013,30(12):3529-3535. (本文责任编辑:马卓) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。