社会关系网络匿名化机制的研究
沈浙杰+郑晓军+严骏+谢海江
【摘 要】近年来,随着互联网技术飞速发展,各色社交平台层出不穷,互联网让人们交流更加便利的同时,也带来了诸多用户隐私泄露的问题。如何在数据庞大结构复杂的社会关系网络中保护用户隐私信息,通过怎样的方法匿名发布信息,成为一个迫切需要解决的问题,并逐渐成为网络安全方面的热点问题之一。论文以保护用户敏感标签的社会关系网络匿名算法为研究对象,对其目标序列的产生、以目标序列为指导匿名化网络进行了探索与研究。
【Abstract】In recent years, with the rapid development of internet technology, various social platforms emerge in an endless stream, the internet allows people to communicate more convenient, at the same time, it also brings a lot of user privacy issues. How to protect users privacy in social network data which has large data and complex structure and how to publish information anonymously becomes the urgent problem to be solved, and gradually becomes one of the hot issues of the network security. This paper takes the social network anonymous algorithm which protects the users sensitive label as the research object, explores and researches the production of target sequence, guiding anonymized network with target sequence.
【關键词】社会关系网络;隐私保护;敏感标签
【Keywords】social network; privacy protection; sensitive tags
【中图分类号】TP309 【文献标志码】A 【文章编号】1673-1069(2017)12-0116-02
1 论文的研究背景和意义
1967 年, Milgram 发表了名为小世界实验的科研报告 [1],研究人员将一些信件随机交给 Omaha 和 Wichita 几个志愿者作为起点,以 Boston 等几个志愿者作为终点,每个拿到信的人,若认识目标,就把信直接交给目标;若不认识目标,则把信交给他认为认识目标的人。在实验里,分析所有到达的信件被转交的数据,发现平均转交次数为 6。这也就是著名的六度分隔理论,理论上,最多只要经过 6 个人就能联系到世界上的任何一个人。
社交平台和支付平台出于安全考虑,需要用户的个人信息,如姓名、身份证号码等,企业也为了自身的利益以及系统的完善性,不断地收集用户的隐私数据,并运用这些隐私数据研究用户的行为偏好,为系统的改善、企业的未来方向做指引。但是,有的企业管理不善,某些员工会将用户的这些数据出卖来获取利益,尽管这些信息在公开用户的隐私数据时抹去了密码等敏感信息,但是攻击者依然可以确定到相应的用户,这种行为给用户的隐私信息安全带来了极大隐患。
在这种情况下,有些用户担心自己的隐私信息被暴露,一方面留恋互联网带来的便利,另一方面担心自己的隐私被窃取,在这样矛盾的心理下,用户会选择性地使用虚假信息,而虚假信息反过来影响企业的正常判断,使得企业的数据不全、策略不当,如此下去,不利于互联网事业的发展。
2 保护隐私的方法
传统隐私保护方法有很多,大致可以分为以下几类:①加密方案。数据加密有多种方法,但是窥其本质,都是通过一定密码机制,在令数据无损失的同时,使用户原始数据变得不可见。②伪装方案。其基本思想是先把用户个人数据“伪装”。POLAT [2,3] 提出的伪装方案,即是采用随机扰动技术伪装用户的真实数据的方式。在数据隐藏方法中,随机扰动技术很常用,想要隐藏数据 n,就给 n 加上随机数 r,伪装后的数据为 n+r,即对用户的真实数据进行处理后再发送给服务器。③聚合模糊方案。数据聚合,是指把用户分组,并处理组内用户数据得到一个聚合数据。这个数据即为公共使用的数据,这样就避免了用户信息泄露。
但是,这些传统方法并不能很好地保护社会网络中用户的数据隐私。相对于传统表格式数据结构,社会网络结构比较复杂,不仅包括了用户个人的敏感数据、敏感属性,也包含了用户与用户之间的关系。社会网络这种空间结构,用数据结构中的图来抽象为模型最适合不过。图中节点代表用户,边代表用户与用户之间存在社交关系。将社会网络描述为图后,有关图的很多理论就可以应用在社交网络隐私保护的研究中。自Kun Liu,Evimaria Terzi 等人提出了图的 k-度匿名方法,社会网络数据隐私安全的研究一直是一个热点领域。
迄今为止,由于实际的人类社交网络的数据含量过于庞大、隐私保护算法过于复杂等原因,关于社交网络数据隐私的研究仍然处于较为初级的理论阶段,但是研究此领域的意义对于互联网,对于每个人来说,都是及其重要的。社交网络隐私算法具有重要的意义,它不仅具有较高的理论研究价值,也有很高的实际应用价值,未来发展具有很大潜力。
3 国内外研究现状
随着互联网现世,社交网络飞速发展,各领域研究者均从社交网络的大数据上得到了很多研究信息,比如用户行为、社交传播、传染病扩散等,社交网络给研究者带来便利的同时,社交网络公开数据的性质对个人隐私数据的威胁日益增长。为了保护社交网络中用户的隐私数据,近年来,国内外对于社会网络已经做了很多研究工作。
目前对于社会网络中隐私安全的研究,可以按阶段分为四类:第一, p2p模式。以社会网络中常见的推荐系统为例,P2P模式要使每个用户的计算机既是客户端又是服务器,即用户的个人数据位于自己的计算机中。这样的话,用户完全自己操纵个人数据,如TVEIT[4],但是这个系统在移动端间的泛洪通信方式导致通信费用比较昂贵。由于TVEIT还是采取通过网络传输个人数据的传统方式,所以依然具有隐私暴露的潜在危机。而在CANNY提到的系统 [5,6] 中,同样是基于P2P模式的系统,使用了聚合数据和加密,以确保用户数据不被暴露。所谓数據聚合,是指把用户分组,并处理组内用户数据得到一个聚合数据。这个数据即为公共使用的数据。这一方法的优秀之处在于,用户对个人数据可以完全控制。Franchi [6] 等人提出了一种基于密钥的身份系统,并将它应用在微博等社交平台中,搭建了一个保护用户隐私的匿名社交网络。 P2P模式理论上最为简单直观,对于数据规模较小的系统有着较好的隐私保护效果,但是对于庞大的社会网络而言,把用户信息只存在用户的客户端内是不现实的:第一,手机、智能手表等移动端内存较小,不适合存储所有数据;第二,频繁的通信使得传输强度过大,导致效率低下、传输设备损耗快等问题。第二, 信息混淆模式。信息混淆是指将所有用户隐私信息进行混淆,南丽丽等人 [7] 首次提出基于信息混淆机制的社会网络隐私数据保护方案,将混淆后的用户信息在网络中环状扩散。吴涛 [8] 使用火狐浏览器的扩展功能完成信息混淆,实现了人人网平台的用户信息混淆。AGRAWAL[9]沿用这种混淆技术,在数据挖掘过程中保护隐私,并取得了较好的效果。另外一种混淆用户个人数据的方法是模糊化处理。简单地说,模糊化处理是把一部分用户个人数据用其他数据掩盖,在研究 [10]中,BERKOVSKY完成了一个模糊化处理的系统,该系统为保护用户隐私,采用模糊化的用户描述文件进行推荐,实验显示系统推荐的结果仍比较精确。信息混淆模式既考虑到了保护用户隐私数据的问题,又顾及了广告商与第三方应用部门的利益。但是信息混淆模式适用的数据库、系统规模较小,对全部用户隐私数据的混淆、模糊,很大程度上破坏了信息的原始性,大大改变了社会网络的图结构,造成了数据冗余、计算量太大等问题。
4 结语
本文主要介绍了本文中用到的相关理论和技术,首先介绍了有关社会关系网络的定义和重要理论,接着介绍了对于图结构的几种攻击方法,针对以上提出的攻击方法,介绍了图的 k-匿名方案以及保护用户敏感标签的图的 k-l-匿名方案。对现有的社会关系网络匿名方法进行了分类总结,讨论其优劣。然后,介绍了一些评价社会关系网络匿名方法的标准。
【参考文献】
【1】Jeffrey, Stanley Milgram. An Experimental Study of the Small World Problem[J].Sociometry, 1969,32(4 ):425+443.
【2】POLAT H, DU Wen-liang. Privacy-preserving collaborative filtering using randomized perturbationtechniques[A]. Proceedings of the 3rd Internation Conference on Data Mining[C]. WashingtonDC:IEEE Computer Society,2003.
【3】POLAT H, DU Wen-liang. SVD-based collaborative fitering with privacy[A]. Proceedings of ACMSymposium on Applied Computing[C]. New York:ACM Press,2004.
【摘 要】近年来,随着互联网技术飞速发展,各色社交平台层出不穷,互联网让人们交流更加便利的同时,也带来了诸多用户隐私泄露的问题。如何在数据庞大结构复杂的社会关系网络中保护用户隐私信息,通过怎样的方法匿名发布信息,成为一个迫切需要解决的问题,并逐渐成为网络安全方面的热点问题之一。论文以保护用户敏感标签的社会关系网络匿名算法为研究对象,对其目标序列的产生、以目标序列为指导匿名化网络进行了探索与研究。
【Abstract】In recent years, with the rapid development of internet technology, various social platforms emerge in an endless stream, the internet allows people to communicate more convenient, at the same time, it also brings a lot of user privacy issues. How to protect users privacy in social network data which has large data and complex structure and how to publish information anonymously becomes the urgent problem to be solved, and gradually becomes one of the hot issues of the network security. This paper takes the social network anonymous algorithm which protects the users sensitive label as the research object, explores and researches the production of target sequence, guiding anonymized network with target sequence.
【關键词】社会关系网络;隐私保护;敏感标签
【Keywords】social network; privacy protection; sensitive tags
【中图分类号】TP309 【文献标志码】A 【文章编号】1673-1069(2017)12-0116-02
1 论文的研究背景和意义
1967 年, Milgram 发表了名为小世界实验的科研报告 [1],研究人员将一些信件随机交给 Omaha 和 Wichita 几个志愿者作为起点,以 Boston 等几个志愿者作为终点,每个拿到信的人,若认识目标,就把信直接交给目标;若不认识目标,则把信交给他认为认识目标的人。在实验里,分析所有到达的信件被转交的数据,发现平均转交次数为 6。这也就是著名的六度分隔理论,理论上,最多只要经过 6 个人就能联系到世界上的任何一个人。
社交平台和支付平台出于安全考虑,需要用户的个人信息,如姓名、身份证号码等,企业也为了自身的利益以及系统的完善性,不断地收集用户的隐私数据,并运用这些隐私数据研究用户的行为偏好,为系统的改善、企业的未来方向做指引。但是,有的企业管理不善,某些员工会将用户的这些数据出卖来获取利益,尽管这些信息在公开用户的隐私数据时抹去了密码等敏感信息,但是攻击者依然可以确定到相应的用户,这种行为给用户的隐私信息安全带来了极大隐患。
在这种情况下,有些用户担心自己的隐私信息被暴露,一方面留恋互联网带来的便利,另一方面担心自己的隐私被窃取,在这样矛盾的心理下,用户会选择性地使用虚假信息,而虚假信息反过来影响企业的正常判断,使得企业的数据不全、策略不当,如此下去,不利于互联网事业的发展。
2 保护隐私的方法
传统隐私保护方法有很多,大致可以分为以下几类:①加密方案。数据加密有多种方法,但是窥其本质,都是通过一定密码机制,在令数据无损失的同时,使用户原始数据变得不可见。②伪装方案。其基本思想是先把用户个人数据“伪装”。POLAT [2,3] 提出的伪装方案,即是采用随机扰动技术伪装用户的真实数据的方式。在数据隐藏方法中,随机扰动技术很常用,想要隐藏数据 n,就给 n 加上随机数 r,伪装后的数据为 n+r,即对用户的真实数据进行处理后再发送给服务器。③聚合模糊方案。数据聚合,是指把用户分组,并处理组内用户数据得到一个聚合数据。这个数据即为公共使用的数据,这样就避免了用户信息泄露。
但是,这些传统方法并不能很好地保护社会网络中用户的数据隐私。相对于传统表格式数据结构,社会网络结构比较复杂,不仅包括了用户个人的敏感数据、敏感属性,也包含了用户与用户之间的关系。社会网络这种空间结构,用数据结构中的图来抽象为模型最适合不过。图中节点代表用户,边代表用户与用户之间存在社交关系。将社会网络描述为图后,有关图的很多理论就可以应用在社交网络隐私保护的研究中。自Kun Liu,Evimaria Terzi 等人提出了图的 k-度匿名方法,社会网络数据隐私安全的研究一直是一个热点领域。
迄今为止,由于实际的人类社交网络的数据含量过于庞大、隐私保护算法过于复杂等原因,关于社交网络数据隐私的研究仍然处于较为初级的理论阶段,但是研究此领域的意义对于互联网,对于每个人来说,都是及其重要的。社交网络隐私算法具有重要的意义,它不仅具有较高的理论研究价值,也有很高的实际应用价值,未来发展具有很大潜力。
3 国内外研究现状
随着互联网现世,社交网络飞速发展,各领域研究者均从社交网络的大数据上得到了很多研究信息,比如用户行为、社交传播、传染病扩散等,社交网络给研究者带来便利的同时,社交网络公开数据的性质对个人隐私数据的威胁日益增长。为了保护社交网络中用户的隐私数据,近年来,国内外对于社会网络已经做了很多研究工作。
目前对于社会网络中隐私安全的研究,可以按阶段分为四类:第一, p2p模式。以社会网络中常见的推荐系统为例,P2P模式要使每个用户的计算机既是客户端又是服务器,即用户的个人数据位于自己的计算机中。这样的话,用户完全自己操纵个人数据,如TVEIT[4],但是这个系统在移动端间的泛洪通信方式导致通信费用比较昂贵。由于TVEIT还是采取通过网络传输个人数据的传统方式,所以依然具有隐私暴露的潜在危机。而在CANNY提到的系统 [5,6] 中,同样是基于P2P模式的系统,使用了聚合数据和加密,以确保用户数据不被暴露。所谓数據聚合,是指把用户分组,并处理组内用户数据得到一个聚合数据。这个数据即为公共使用的数据。这一方法的优秀之处在于,用户对个人数据可以完全控制。Franchi [6] 等人提出了一种基于密钥的身份系统,并将它应用在微博等社交平台中,搭建了一个保护用户隐私的匿名社交网络。 P2P模式理论上最为简单直观,对于数据规模较小的系统有着较好的隐私保护效果,但是对于庞大的社会网络而言,把用户信息只存在用户的客户端内是不现实的:第一,手机、智能手表等移动端内存较小,不适合存储所有数据;第二,频繁的通信使得传输强度过大,导致效率低下、传输设备损耗快等问题。第二, 信息混淆模式。信息混淆是指将所有用户隐私信息进行混淆,南丽丽等人 [7] 首次提出基于信息混淆机制的社会网络隐私数据保护方案,将混淆后的用户信息在网络中环状扩散。吴涛 [8] 使用火狐浏览器的扩展功能完成信息混淆,实现了人人网平台的用户信息混淆。AGRAWAL[9]沿用这种混淆技术,在数据挖掘过程中保护隐私,并取得了较好的效果。另外一种混淆用户个人数据的方法是模糊化处理。简单地说,模糊化处理是把一部分用户个人数据用其他数据掩盖,在研究 [10]中,BERKOVSKY完成了一个模糊化处理的系统,该系统为保护用户隐私,采用模糊化的用户描述文件进行推荐,实验显示系统推荐的结果仍比较精确。信息混淆模式既考虑到了保护用户隐私数据的问题,又顾及了广告商与第三方应用部门的利益。但是信息混淆模式适用的数据库、系统规模较小,对全部用户隐私数据的混淆、模糊,很大程度上破坏了信息的原始性,大大改变了社会网络的图结构,造成了数据冗余、计算量太大等问题。
4 结语
本文主要介绍了本文中用到的相关理论和技术,首先介绍了有关社会关系网络的定义和重要理论,接着介绍了对于图结构的几种攻击方法,针对以上提出的攻击方法,介绍了图的 k-匿名方案以及保护用户敏感标签的图的 k-l-匿名方案。对现有的社会关系网络匿名方法进行了分类总结,讨论其优劣。然后,介绍了一些评价社会关系网络匿名方法的标准。
【参考文献】
【1】Jeffrey, Stanley Milgram. An Experimental Study of the Small World Problem[J].Sociometry, 1969,32(4 ):425+443.
【2】POLAT H, DU Wen-liang. Privacy-preserving collaborative filtering using randomized perturbationtechniques[A]. Proceedings of the 3rd Internation Conference on Data Mining[C]. WashingtonDC:IEEE Computer Society,2003.
【3】POLAT H, DU Wen-liang. SVD-based collaborative fitering with privacy[A]. Proceedings of ACMSymposium on Applied Computing[C]. New York:ACM Press,2004.