网站首页  词典首页

请输入您要查询的论文:

 

标题 公安监控中的行人再识别技术综述
范文

    王晶 韦永来

    

    

    

    摘要:跨摄像头的行人再识别是智能监控系统的基本功能,它为公安干警追踪犯罪嫌疑人、监控犯罪行为提供了有力的技术支持。文中首先简单地介绍了行人再识别的概念与难点,然后分别从传统方法和深度学习方法两个方面详细阐述了行人再识别技术的研究进展,最后针对公安监控系统的实际应用展望了行人再识别技术的未来研究方向。

    关键词:行人再识别;深度学习;公安监控

    中图分类号:TP18? ? ? ? 文献标识码:A? ? ? ? 文章编号:1009-3044(2018)35-0191-03

    Abstract: Cross-camera person re-identification is the basic function of intelligent monitoring system. It provides strong technical support for police to track criminal suspects and monitor criminal acts. This paper first briefly introduces the concept and difficulties of person re-identification, then elaborates the research progress of person re-identification technology from two aspects of traditional methods and deep learning methods, and finally looks forward to the future research direction of person re-identification technology in view of the practical application of public security monitoring system.

    Key words: person re-identification; Deep learning; Public security monitoring

    随着我国“平安城市”建设的稳步推进,视频监控设备已经遍布在城市的大街小巷中,形成了一个巨大的视频监控网络,这些监控设备捕获的视频为公安干警抓捕犯罪嫌疑人、寻找丢失儿童等提供了有力的线索。每当类似案件发生时,目标人物一定会在移动过程中出现在某些摄像头下,相关部门需要在这些监控视频中寻找目标人物。如今的监控系统大多采用摄像头实时录像加人工监察的方式进行,监查人员需要持续的观察视频场景的变化,这对监查人员的要求极度苛刻。因此,这种以人工监察为主的监控系统已无法满足如今监控系统的网络化发展趋势。所以利用计算机自动完成监控任务的智能监控系统应运而生。最初这类系统普遍采用较为成熟的人脸识别技术来搜索目标行人,但是由于监控摄像头的安装位置较高、监控范围较广导致无法获得较为清晰的人脸图像,因此这类系统逐渐放弃单纯的使用人脸识别技术来搜索行人,而是选择使用全身信息作为人脸之外的重要补充,实现对行人的跨摄像头追踪。这种被称之为“行人再识别”的技术使得智能监控系统的命中率发生了质的变化。但是,目前的行人再识别算法依然面临着巨大的挑战。例如行人姿态差异、场景光照变化、摄像头的视角以及相机成像质量等都会使得同一行人在不同摄像头下的外观发生较大的变化。本文将从传统方法和深度学习方法两个方面详细阐述行人再识别技术的研究进展,并对其未来的研究方向进行了展望。

    1 传统方法

    现存的传统方法主要从两个方面来提升算法性能:(1)提取更加鲁棒性的行人特征描述子来解决行人外观变化问题;(2)设计更具判别力的距离测度来计算行人图像之间的差异。

    1.1 特征描述子

    特征设计主要是为了寻找出对光照变化、视角变化、人体形变以及行人遮挡等具有不变性的特征描述子,增强不同行人间的特征差异,同时维持相同行人在不同摄像头下的外观不变性。常用的底层特征有颜色特征(RGB、HSV、LAB等)和纹理特征(LBP、SILTP等),但是仅使用底层特征来表示行人图像难以取得理想效果。近年来,研究人员以底层特征为基础提出了多种更具鲁棒性的特征描述子。Liao等人[1]提出的局部最大发生特征(LOMO)将颜色特征(HSV)和纹理特征(SILTP)进行了有效的融合,并加入了Multi-scale操作,对图像进行缩放处理,因此该特征具有良好的尺度鲁棒性。Chen等人[2]通过改进LOMO特征得到了多项式特征,该特征由HSV/SILTP、 HSV/HOG、LAB/SILTP、LAB/HOG组合而成,并通过将图像分成四个子区域,每个区域独立计算匹配距离来挖掘图像的局部细节信息(图1)。文献[3]的提取特征方式与上文所述不同,它具体到图像的每个像素,通过提取每个像素点的坐标、梯度、颜色特征作为基础信息,再经过两级不同的高斯变化得到最终的GOG特征。

    图1中,(a)为特征提取,首先将待提取特征区域通过滑动窗口划分出r个局部区域,再对r个局部区域提取出c个视觉线索(HSV、HOG等),最后将它们串联后降维得到最终区域特征。(b)为距离测度,首先通过(a)中特征提取方法提取出整幅图像和四个子区域的图像特征,再将它们一一对应计算出相应的相似度,最后融合五种相似度得到最终的图像相似度。

    1.2 距离测度

    通过推导或者优化训练寻找一个使得相关目标之间的距离减小,不相关目标之间的距离增大的距离测度方法就称之为距离测度学习。经典的距离测度学习就是马氏距离,它首先给出一个先验的相似度函数(公式1),然后通过标记的训练样本优化求解得到M,最后利用M計算测试样本之间的距离来衡量样本之间的相似度。

    基于马氏距离测度学习的思想,近年来不断地有新的距离测度算法被提出,如文献[4]提出的KISSME算法将相关行人对与不相关行人对的概率比值作为相似度表达,进而推导出测度矩阵M。Liao等人[1]提出的子空间学习与距离度量学习相结合的算法(XQDA),其测度矩阵是在学习得到的子空间中计算的。同样利用子空间学习来实现行人再识别的还有文献[5]提出的KCCA算法。还有一些学者通过将马氏距离与其他距离相结合的方法来提高行人再识别性能,如Chen等人[2]提出的SCSP算法同时考虑了马氏距离和双线性距离,并利用ADMM优化函数学习得到M。最终使得该算法较大程度地提升了行人再识别性能。

    随着各种不同特征描述子和距离测度函数不断被提出,部分学者开始融合这些特征描述子和距离测度函数以达到更好的识别效果。比如文献[11]中提出的融合算法使得其在VIPeR数据上的首位命中率(Rank-1)达到了66.01%,据我们所知,这也是目前传统方法在VIPeR数据集上取得的最高识别率。需要指出的是不论哪种特征组合都需要寻找出一种与之相适应的距离测度,因为只有一个好的特征表达与有效的度量学习相结合才能实现高效的行人再识别。

    2 深度学习方法

    近年来,深度学习在图像分类、目标检测、人脸识别等各种计算机视觉领域都取得了很大的成功。因此越来越多的学者将深度学习方法应用到行人再识别的研究中。比如,Yi等人[6]提出了一种针对行人再识别的Siamese网络,该网络将输入图像划分为三个重叠的水平部分,经过两个卷积层后再通过一个全连接层进行融合,最终得到原始行人图像的特征向量。Ahmed等人[7]改进了Siamese网络,通过计算两幅输入图像的领域差来学习视角不变性特征。Cheng等人[8]使用三元组样本来训练网络,使相同行人之间的特征距离缩小,不同行人之间的特征距离增大。诸如此类的网络还有很多,但是这些网络的关注点主要还是在全局特征上,就是利用整幅图像得到一个特征向量进行图像匹配。但是后来发现全局特征遇到了瓶颈,于是渐渐开始研究起局部特征。目前最具代表性的就是旷视科技Face++[9]提出的AlignedReID网络,该网络利用空间局部距离的自动对齐模型,在不需要额外信息的情况下自动对齐局部特征。

    和其他的行人再识别网络类似,AlignedReID同样利用卷积神经网络提取图像特征,用难样本开采后的三元损失作为损失函数,把图像特征之间的欧式距离作为两张图像的相似度。不同之处在于AlignedReID在学习图像相似度的时候考虑了人体结构的对齐,虽然之前有学者考虑过这一点,比如:简单地把行人图像分成头、身、腿三部分进行对齐;还有更精细一点的是通过人体骨架估计,然后再通过骨架信息来对齐,但是这些网络要么在结果上差强人意要么就需要额外的标注工作。而AlignedReID通过引入端到端的思想,让网络自动学习人体对齐,进而提高行人再识别性能。

    AlignedReID不仅提取全局特征,同时也会对各局部提取局部特征。对于两张行人图像中的任意一对局部特征,计算它们之间的距离,构成一个距离矩阵如图3所示。再通过动态规划的方法寻找一条从距离矩阵左上角到右下角的最短路径,这条最短路径上的一条边就代表一对局部匹配,这样的人体对齐方式在保证身体各部分的相对位置时总距离也是最短的。在训练阶段,最短路径长度被加入损失函数中辅助行人图像的特征学习。仔细观察图3不难发现,最短路径中的有些边是冗余的,例如图中的第一条边。其实局部特征不仅要自我匹配,同时也要考虑到整个人体的对齐。为了使局部匹配能够从头到脚按顺序执行,存在一些冗余的匹配是不可避免的。

    AlignedReID使得计算机在Market1501和CUHK03上的首位命中率分别达到了94.0%和96.1%,而一个熟练的标注员在Market1501和CUHK03數据集上的命中率却只有93.5%和95.7%。当然,目前利用局部信息提升行人再识别性能的不仅仅只有旷世科技的这篇AlignedReID,还有云从科技的MGN[11]、Zhao等人[12]的Spindle net等,其中云从科技的MGN更是将Market1501数据集上的首位命中率提升至96.6%。这样的结果还是相当振奋人心的,但是还不能说行人再识别的任务被很好地解决了。因为在实际应用场景中不可能在所有监控环境下对数据进行标注、训练再测试。一个可行的思想便是在现有的一些标注过的数据集上训练,再将训练后的模型在实际场景中微调应用。Deng等人[10]就是基于这样的思想提出了“Learning via Translation”框架。该框架主要包含两个部分:1)将源域上带标签的训练数据的风格迁移到目标域的风格之上;2)利用风格迁移后的数据训练一个行人再识别模型。由于迁移之后的图像需要用于行人再识别的模型训练,因此需要在图像迁移前后保证图像的ID不发生变化。

    基于以上的要求,作者提出了SPGAN网络(图5),该网络由两部分组成:(1)改进的CycleGAN;(2)控制正负样本对远近的SiaNet。对于CycleGAN部分作者添加了一个identity loss(公式2)来保证转换前后的相似性,而对于SiaNet部分作者同样设计了独立的损失函数(公式3)。最后再将这两个网络的所有损失函数联合起来(公式4),对整个SPGAN网络进行训练。

    将在DukeMTMC-reID数据集上训练的网络模型通过SPGAN迁移到Market-1501上时,首位命中率可以达到57.7%;这样的命中率虽然相对于有监督训练还有较大的差距,但是对于在缺少标签信息指导的情况下还是相当可观的,同时这样的迁移学习方法更接近于实际应用场景。

    3 总结与展望

    行人再识别技术是当前计算机视觉的热门研究方向,主要解决跨摄像头下的行人匹配问题,具有非常重要的理论意义和研究价值。例如,在大型公众场所小朋友与其父母走失后,公安干警可通过行人再识别技术帮助其父母迅速找回丢失儿童;而犯罪嫌疑人在犯罪逃窜后,公安干警同样可利用行人再识别技术追踪犯罪嫌疑人的逃跑路径。

    本文从传统方法和深度学习方法两个方面分别阐述了最近几年的研究进展。传统行人再识别算法的主要目标是寻找更具鲁棒性的行人特征和学习更具判别性的距离测度,这种算法的实现简单、实时性好且不需要大量的训练数据;但是这种算法易受数据量影响,在数据量增大时其性能会显著下滑。基于深度学习的行人再识别算法会通过深度神经网络提取出图像的深度特征,具有较强的泛化能力,在大数据集上表现也是异常优秀。同时利用迁移学习技术可以有效地解决实际应用场景中缺乏标注数据的问题。

    虽然行人再识别技术已经发展多年,但是因为实际监控系统的复杂性及不稳定性使得其依旧面临着诸多挑战:1)有限的训练数据;从现有的行人再识别数据集来看,当前收集的数据相对于真实数据的时空分布是非常有限的和局部的。同时,与其他计算机视觉任务的数据集相比其数据规模也是非常小的。2)非理想场景下行人外观变化大;行人不对齐、图像质量低和部分遮挡都会使得行人外观发生巨大变化。3)大规模数据集下的算法效率问题;虽然现有行人再识别算法在小数据集上的表现优异,但是随着监控网络的扩大,其运算量将呈指数增长。这一系列的问题阻止了行人再识别技术的落地应用,但同时也为未来的技术研究提供了方向,例如,可以通过优化算法,提高计算机运算速度来解决大规模数据集下的算法速率问题;总而言之,随着技术的发展,这一个个问题终将在不久的将来被一一解决。

    参考文献:

    [1] S. Liao, Y. Hu, X. Zhu, and S. Z. Li. Person re-identification by local maximal occurrence representation and metric learning. In CVPR, 2015.

    [2] D. Chen, Z. Yuan, B. Chen, N. Zheng. Similarity Learning with Spatial Constraints for Person Re-identification. In CVPR, 2016.

    [3] T. Matsukawa, T. Okabe, E. Suzuki, Y. Sato. Hierarchical Gaussian Descriptor for Person Re-Identification. In CVPR, 2016.

    [4] M.Koestinger,M.Hirzer,P.Wohlhart,et al.Large scale metric learning fromequivalence constraints.In CVPR,2012.

    [5] Zhang L,Xiang T,Gong S.Learning a Discriminative Null Space for Person Re-identification.In CVPR, 2016,1239-1248.

    [6] D. Yi, Z. Lei, S. Liao, S. Z. Li et al.Deep metric learning for person re-identification. In ICPR,vol. 2014, 2014, 34-39.

    [7] E. Ahmed, M. Jones, and T. K. Marks. An improved deeplearning architecture for person re-identification. In CVPR,2015.

    [8] D. Cheng, Y. Gong, S. Zhou, J. Wang, and N. Zheng. Personre-identification by multi-channel parts-based cnn withimproved triplet loss function. In CVPR, 2016.

    [9] Zhang X, Luo H, Fan X, et al. AlignedReID: Surpassing Human-Level Performance in Person Re-Identification[J]. 2017.

    [10] Deng W, Zheng L, Ye Q, et al. Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification[J]. 2017.

    [11] Mumtaz S, Mubariz N, Saleem S, et al. Weighted hybrid features for person re-identification[C]//International Conference on Image Processing Theory. IEEE, 2018:1-6.

    [通聯编辑:唐一东]

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/10 18:17:59