从网络大数据看犯罪网络分析

    撖重祖

    [摘 要] 计算机网络的兴起给人们带来方便的同时,也促发了网络犯罪的发生。大数据社会计算技术的产生,可以给我们打击网络犯罪,理清犯罪网络体系提供重要的方法和依据,如何合理科学的利用海量数据来打击网络犯罪成为当今大数据领域的重要课题。

    [关键词] 大数据;社会计算;犯罪网络;分析;

    [中图分类号] TP39 [文献标识码] A [文章编号] 1002-8129(2017)02-0111-03

    计算机网络的兴起不断引领着社会的持续发展,从地球家园到地球村,人们的距离随着网络的出现逐渐缩短,形成了用于人際交互和通信的虚拟世界。自“9·11事件”后,网络空间安全逐渐引起了世界各界的高度重视,而“人肉搜索”的出现,再一次撼动人们的神经,上至政府机关,下至百姓团体,无一不对这个虚拟的世界产生怀疑,是利是弊人们众说纷纭。

    就在人们觉得网络空间仍朝着美好的方向发展的时候,一群居心叵测的不法分子早已将邪恶的双手伸向善良的人们,从“猜猜我是谁”到“我是你的领导来我办公室”,电信诈骗花样不断翻新,让人防不胜防。正当人们为了对付各式各样的电信网络诈骗绞尽脑汁的时候,以往传统的犯罪活动也在网络上不断兴风作浪,网络招嫖、网上贩毒、网际赌场等违法犯罪活动屡禁不止,而此类犯罪活动又属于人在境内,物在境外的分离式犯罪行为,我们对此只能束手无策。

    随着社会计算的产生,网络关系挖掘逐渐浮现在人们眼前。从facebook到twitter,都使用了社会网络分析的方法对其用户群进行了进一步的挖掘,形成了独具特色的社群推荐等相关功能。而这些方法的应用也向世界各国的执法机关提供了打击网络犯罪的新思路,执法机关可以通过已知的相关新闻报道、电子物证等挖掘出犯罪团伙的大致信息,逐步形成现有的犯罪网络分析技术的雏形。

    犯罪网络分析主要是基于犯罪组织结构的研究,如恐怖袭击、电信网络诈骗、制毒贩毒等,与盗窃等单人犯罪活动不同的是,这些犯罪活动具有严密的团伙组织,并且在组织中具有严格的等级制度,就恐怖袭击而言,有幕后策划者、武器装备筹备者、恐怖活动实施者、轨迹擦除者等角色,而且每一个环节都紧密相连,有专门的团队负责,且这些团队都有自己的领导和下属,保证团队的运转和恐怖活动的顺利实施,正因为这些细小的环节导致打击网络犯罪活动愈发的困难。因此,犯罪网络分析从整合各类犯罪活动信息入手,发现相关犯罪团伙的组织结构和犯罪规模,从而为打击犯罪提供有力保障。据报道,在“9·11事件”发生之后,FBI就曾通过社团分析和聚类来虚拟地构建基地组织的基本框架结构,试图通过此结构来打破对于恐怖组织的零了解,但由于生成的社团缺乏层级关系,只是简单的聚类,所以只是获取了恐怖组织的人员配置和规模,并没有深入地了解其组织架构。

    鉴于以往的犯罪分析工作都是通过手动整合和分析,耗时耗力,且准确率极低,为此国外率先研究出了例如Encase、Notebook等分析取证工具来对抗网络犯罪。这些工具的出现虽然在一定程度上遏制网络犯罪,但没有从根本上解决网络犯罪的问题,治标不治本,如何快速的发明一种强大的分析工具是重中之重。

    美国心理学家米尔格兰姆曾提出了六度分隔理论,该理论成功阐述了人与人之间存在的“弱纽带”效应,也就是说每一个人和社会中的任何一个陌生人只需要通过六个人就可以相识,“弱纽带”效应不仅可以在求职、交往等方面起到重要的作用,更可以拉近人与人之间的关系。

    正是基于六度分割理论,执法部门从社会计算入手,正式提出犯罪网络分析。犯罪网络分析基于社会网络分析,从获取的公开信息入手,对海量的数据进行深层次挖掘,从而得出犯罪网络的组织结构。类似网络人际关系挖掘,犯罪网络分析也具有符合自身体系的语料库,如我们可以从语句“李四是XX犯罪团伙的一号人物”得出李四应该作为我们对此犯罪团伙分析的主要对象,并且我们可以预测到李四将会是所有语料库中权重最大的词语,并且会作为中心一号点,因而此犯罪集团的组织结构会以其为最高点不断向下展开,形成一定的结构图。以此类推,根据我们大数据库中的各种数据,从链接挖掘、pagerank算法入手,结合随机游走模型,最后通过可视化技术即可得出相关犯罪团伙的组织结构示意图。此模型生成的示意图不仅分析各人物实体间的关系,也就其所处的层级关系进行深入剖析,构建具有一定层级关系的模型。

    与微软亚洲研究院提出的人立方不同的是,犯罪网络分析不仅在图形展示上突出重点人物以及人物之间的关系,还进一步计算出犯罪组织中的亲密度,也就是通过权重规划出策划者、实施者等角色,为执法部门打击和瓦解犯罪团伙提供重要的依据。而且根据犯罪网络模型的基本框架,如若所要分析的犯罪集团的成员出现变故,使用者将此消息输入待分析的语段数据库,那么此模型就会根据数据库新添加的语段对现有已经生成的完整网络结构进行部分修改。如某犯罪集团的组织者被警方击毙或者逮捕,那么模型会根据数据库中新添加的语段将此人名从网络结构中抹除,然后就现存的实体人名权重根据已有的数据进行分析,预测出下一个有可能成为组织领导者的人物,将其名称放在网络结构的顶端,形成一个新的犯罪网络。根据当今社会各类组织的层次结构,无论是公司还是行政机关,都是呈现出金字塔式的分级,而犯罪网络也是如此,故本文所述模型生成的网络也是基于现实中的金字塔式层级,即从顶端到底端的人数逐渐增多。

    就现今的犯罪网络分析技术而言,仍存在许多不足之处,如无法通过权重实现人名与照片的一一对应,即使知道了组织结构,如若犯罪狡猾地使用了假名就会导致权重产生分歧,导致组织结构产生错误,从而使得案件侦破无法进一步开展。就现今社会中存在的各类犯罪集团而言,其内部都是以一定的化名或者代号来规定每个人,不仅方便组织串联也有利于逃避警方的追捕,因此如何实现各人物真名、化名或者代号的一一对应是现如今各类犯罪网络分析模型所需解决的重点问题。

    为此,我们会通过比较人物实体关系抽取中比较成熟的系统,如Snowball系统和FASTUS抽取系统,结合T-Rex关系抽取框架来对其进行改进,在保证准确率的前提下,提高抽取效率,实现对应关系。

    通过结合上述系统,犯罪网络分析技术所需要的框架就具有了一定的体系结构,在此基础上,我们进一步优化语料库和测试用例,确保人物实体和姓名一一对应,保证数据的完整性和统一性,就此形成了犯罪网络分析模型,并在未来会逐步完善此模型。

    此模型较以往的手绘犯罪网络有一定的提高,但由于人类关系不断拓展,各家族之间产生了较多的联系,同名同姓的人数也急剧增加,而重名问题在各类实体抽取技术中仍较难解决。为此,国外高校的研究院提出了基于词语相似度的消歧技术,该技术通过统计规律设计出較为庞大的语料库,然后根据实体抽取所获得的实体名称,将其与语料库中的相似权重从高到低的语料进行相似度检测,并依据实验结果所设定的阈值对其进行判断,如若相似度高于阈值,则将其归于和语料相似的语义中,若差别较大,则将其与下一个相似度较高的语料进行对比,直至找到相似度高于阈值的语料,获取相应的语义。

    随着国际环境的风云突变和大数据技术的日益完善,犯罪网络分析必将作为现今社会打击网络犯罪的重要手段应用于各类执法部门,以此提高打击违法犯罪的效率,随着相应技术的迅速发展会愈发完善,为提高社会治安,维护社会稳定做出重要贡献。

    [参考文献]

    [1] Tang L, Liu H. Community Detection and Mining in Social Media[M]. Community detection and mining in social media. Morgan & Claypool Publishers, 2010.

    [2]王飞跃. 社会计算的基本方法与应用[M]. 浙江大学出版社, 2013.

    [3] Brandes U. A Faster Algorithm for Betweenness Centrality.J Math Soc[J]. Journal of Mathematical Sociology, 2004, 25(2).

    [4] Girvan M, Newman MEJ. Community structure in social and biological network.2002

    [5] 包昌火, 谢新洲, 申宁. 人际网络分析[J]. 情报学报, 2003, 22(3).

    [责任编辑:谭晓影]