标题 | U-GAnet多通道特征重构人群密度检测模型 |
范文 | 摘要:在基于视觉的人群计数研究中,针对计数中人群存在遮挡和个体尺寸不确定问题,提出一种多通道特征重构密度图的计数算法。模型利用膨胀卷积网络对图像进行多尺度特征提取,提高模型的感知区域,增强模型对尺度敏感性;通过多通道融合浅层特征生成人群密度图,结合基于Earth-Mover距离的生成对抗机制提高模型精度。为验证算法的有效性,分别与主流方法在标准数据集ShanghaiTech、UCF-QNRF、UCF-CC-50上进行对比实验。实验结果表明,提出的方法有效地提高了计数准确度,并对场景具有一定鲁棒性。 关键词:人群计数;膨胀卷积网络;多通道;密度图;生成对抗 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)35-0197-04 近几年人群密度檢测已经成为计算机视觉领域的重要研究课题,在视频监控、公共安全以及区域智能分析中得到广泛应用。该技术有效解决了大场景中人群计数问题,在人员无感的前提下,通过视频信息检测出当前场景中的人群密度,避免繁杂的卡口检测设备,为安保实施提供准确的数据依据。 早期的人群密度检测基于目标检测方法实现,利用检测器检测场景中人群,并进行数据的统计。基于检测器的方法主要训练分类器,利用多级感知特征或是HOG、小波等特征去实现检测计数[1,2,3],但在稠密人群图像中,由于人群中存在遮挡与形变,使得依靠检测的方法无法准确识别个体,继而影响计数的准确性。基于回归的密度检测方法,把人群计数问题划归到密度映射,以二维图像到人群密度图为研究对象,构建端到端的映射模型。初期的密度映射模型一般依靠提取前景、边缘、纹理等低级特征,利用贝叶斯一泊松回归或是线性回归等方法学习特征到密度的映射[4,5,6]。随着深度学习技术的不断发展,通过神经网络非线性回归的方式预估密度图,解决了传统回归方法中提取特征表征性能的不足问题。利用深度学习中卷积神经网的特征提取能力,提取表征性能完备的深层特征,精确预估图像中的人群密度。Zhang等人[7]提出多阵列结构的密度特征提取模型,利用多尺度卷积核分别提取图像特征,实现感受野多尺度变换,降低了尺度空间对特征的影响,并对多阵列特征进行融合映射。Sindagi等人[8]提出了一种全局上下文信息与局部上下文信息结合的方法,通过全局上下文信息降低多尺度在人群密度变化中的预估错误,局部上下文信息提升密度图质量。Sam等人[9]提出一种图像区域筛选的思想,根据图像块中人群密度进行卷积网络的选取,针对不同密度选取不同卷积核,实现密度自适应匹配。Li等人[10]提出了应用膨胀卷积神经网络(Dilated Convolutional Neural Network)的方法,利用VGG网络提取密度图特征,对特征进行膨胀卷积重构,降低人群密度离散化影响,保持局部邻域的连续性。虽然深度学习网络在人群计数中取得了较好的效果,但是在人群环境复杂,遮挡严重的情况下,往往会出现透视失真,现有网络无法很好处理高密度区域的密度重构,无法有效提取高密度区域细节特征。在复杂场景中,人群图像前景与后景个体尺寸差别较大,单一尺寸的卷积核已经无法满足任务需要。 针对高密度人群细节丢失与个体目标尺寸变换的问题,本文提出一种多通道特征重构密度图的方法。该方法利用膨胀核对图像进行多尺度感知,扩大感知区域,解决个体空间尺度变化问题,对浅层特征进行多通道融合,保留了区域的细节特征,减少特征损失。并利用Resnet构建残差判别网络,在Earth-Mover距离空间对生成密度图进行判别修正,提高密度回归网络精度。 1 提出算法 本文所提算法主要基于膨胀卷积核实现特征感知,并对多阶特征进行跨层融合,在避免网络扩张的基础上提高网络的感知范围与感知精度。 1.1 U-GAnet网络结构 提出算法分为两个网络:密度回归网络和残差判别网络。密度回归网络用于生成人群密度图,残差判别网络对生成密度图进行拟合修正,调整密度回归网络精度。密度回归网络[11]首先对人群图像进行特征抽象提取,利用不同系数的膨胀卷积核进行局部感知。接着对提取的高阶特征进行上采样,并对网络中的浅层特征进行融合处理,减少重构过程中的特征损失。接着运用Resnet网络对生成的密度图与密度标定图进行判别[12],判别后的结果对密度回归网络进行反馈,实现密度回归网络的优化调整。 如图1为U-GAnet架构示意图,由图可知,在训练过程中,首先利用密度回归网络实现人群图像到密度图的映射,然后使用残差判别网络对生成密度图与标定密度图进行判别区分。 1.2密度回归网络 1.2.1膨胀卷积层 密度回归网络为增强网络感知能力,提高网络对个体尺寸的鲁棒性,采用膨胀卷积作为特征提取和密度重构的基本单元,可定义为:膨胀卷积输出,x(m,n)表示输入,ω(iJ)表示M×N膨胀卷积核,r为膨胀系数,即r=1时,膨胀卷积为普通卷积层。 膨胀卷积层实现了池化与卷积的结合,完成了卷积过程稀疏化,在不增加网络层参数数量的情况下扩大感受野,减少了层间级联带来过拟合现象。对于膨胀卷积层,一个小尺寸k×k卷积核可以在膨胀系数为r的前提下扩大到k+(k-1)(r-1),因此在回归任务中,膨胀卷积可以更灵活的实现多尺度上下文信息的提取。如图2所示,当膨胀系数为1时,可实现3×3区域的感知,膨胀系数为2和3时,感知区间分别扩张至5×5和7×7。相对于使用卷积与池化实现的特征映射,膨胀卷积可保留更多的细节特征[10],减少层间特征提取中的信息损失,保障了密度图重构中的深层信息。 1.2.2密度回归网络 密度回归网络如图3所示,网络由特征提取和密度重构两部分组成。特征提取部分基本单元包含两层3×3膨胀卷积,实现膨胀系数为1、2与3局部卷积,每层利用ReLU激活函数实现局部特征的提取。基本单元还包括一个步长为2的2×2最大池化层,对特征层进行下采样,实现特征空间稀疏化。在每一步下采样中,都构建特征融合通道,弥补高阶特征在重构密度图中的丢失信息。密度重构部分基本单元包括一个上采样层,融合浅层特征实现2×2的上采样。之后还包括2层3×3卷积层,并通过ReLU激活函数实现非线性回归。由于每次卷积都存在边界像素的丢失,所以在上采样中需要对特征层中缺失像素进行填补。在密度回归网络最后一层用1×1卷积实现特征向量到密度空间映射。 这种多通道的网络结构,使得在重构密度过程中获取更多的上下文信息,结构采用上下采样对称的方式,便于浅层特征的传递,特征提取过程中对特征向量进行可用区域卷积,减少无关信息加入。 1.2.3残差判别网络 密度回归网络利用多层感知机生成人群密度图,将原图像中高维信息映射到密度空间。但在密度回归网络训练过程中,基于最大似然估计的SGD很难预估较复杂概率分布问题,因此设计残差判别网络提高感知机预估精度。残差判别网络用于区分标定密度图与生成密度图,与密度回归网络形成动态对抗机制,实现网络自适应优化。为防止判别网络在网络层数增加时梯度消失,使用Resnet[13]作为判别网络,如图4所示,构成残差网络的基本单元可表示为: 1.2.4目标函数 为保证密度回归网络和残差判别网络在训练过程中达到动态平衡,避免因残差判别网络效果太好制约密度回归网络性能提升,减少网络间性能失衡,本文使用Earth-Mover距离进行类别分布空间衡量。并且Earth-Mover距离可有效地抑制网络训练过程中模态的消失现象。Earth-Mover距离定义为: 其中π(Pg,Pr)表示Pg与Pr联合分布,x与y表示联合分布γ中真实样本和生成样本。Earth-Mover距离表示联合分布中所有分布样点1范数期望的下确界,即表示Pg分布空间到达Pr所需的最小代价。 为得到EM(Pr,Pg)最优解,通过Kantorovich-Rubinstein du-ality理论使Earth-Mover距离等价于: 其中‖f‖L≤1表示符合1-Lipschitz限制函数,即满足f(x1)-f(x2)|≤|x1-x2。Earth-Mover距离等价于Pg与Pr中所有样本经厂(*)变换后期望差的上确界。由此定义网络目标函数为: 其中x与z分别表示人群图像与标定密度图,Gωg(*)与Dωd(*)分别表示密度回归网络与残差判别网络,ωg与ωd表示密度回归网络与残差判别网络的权重系数。 2 实验结果与分析 本实验所用PC采用i5-6400处理器,主频2.7GHz,TeslaP4 GPU,64位Ubuntu操作系统,模型运行在Pytorch 1.20。U-GAnet在ShanghaiTech_part数据库中进行训练,并在Shanghai-Tech_part、UCF_CC_50与UCF-QNRF数据集中进行分析比对。 ShanghaiTech数据集中包含1198幅标定图像,共含有330165个人,分为A、B两部分。ShanghaiTech_part_A中包含482幅高密度图像,分辨率为589*868,其中300幅用于训练,182幅用于测试。ShanghaiTech_part_B中包含716幅低密度图像,分辨率为768*1024,其中400幅用于训练,316幅用于测试。 UCF-QNRF数据集中包含1535张密集人群图像,分辨率为2013*2902。数据集中出现会场、街道、教堂等多种场景,从不同视角进行采集,并存在不同强度光线。 UCF CC 50数据集中包含50幅密集场景下的灰度图,分辨率为201O*2888,每幅图像人数从94到4543不等。 为验证所提算法的有效性,对生成结果与现存算法进行客观比较,用均值绝对误差(MAE)与均方误差(MSE)进行网络性能的量化比较。MAE反应算法映射密度图的精度,MSE反应算法鲁棒性。MAE与MSE定义为: 其中N表示测试数据集图像数量,Ci与CiGT分别表示预估密度图与标定密度图。 2.1数据集预处理 数据集GCC、ShanghaiTech、UCF_CC_50与UCF-QNRF中对人群图像中人群进行标定,对人群个体头部中心点标定为1。为实现网络回归拟合,需要根据标定点生成密度图,利用高斯核对标定区域进行高斯模糊处理,生成对应密度图[14]。高斯模糊处理可表示为: 其中x表示标定点临近像素,N表示标定头部个数。对于每个个体xi,用di表示k个临近像素平均距离,Gσi(*)表示参数为σi的高斯核,σi=βdi,在文中设定β=0.3,k=3。 2.2膨胀卷积层性能的影响 为进一步说明膨胀卷积在处理密度映射中的有效性,在ShanghaiTech_part_A数据集中对不同膨胀系数时算法性能进行比对实验。如表2所示,分别选定膨胀系数d=1,卷积核3*3时,即为普通卷积网络,得到MAE=127.4与MSE=198.1。当d=(1,2,3)时,对人群区间实现多尺度感知,得到MAE=87.3与MSE=125.6。由此可知,膨胀卷积层对人群密度具有更好的感知性,对感知区间的尺寸具有更好的鲁棒性,提高网络对个体尺寸的敏感度,提高映射精度。 2.3密度预估结果比较 为了验证本文所提U-GAnet在人群密度回归中的有效性,分别在ShanghaiTech_part_A+B、UCF_CC_50与UCF-QNRF四个数据库中进行测试实验,并与MCNN[7]与SwitchCNN[9]算法进行比较。如表1所示,通过实验可知,本文算法在稠密人群與稀疏人群中都具有较好的效果,并且相对MCNN与SwitchCNN具有明显的性能提升。通过UCF-QNRF中实验,可以看出本文算法在多种场景下具有较好的实验效果,并对光线的强度具有一定的鲁棒性,有效抑制光强对模型的影响。图5所示为U-GAnet下生成的人群密度图,由图可以清晰看出人群稠密区与于稀疏区域。 3 结论 本文提出的U-GAnet人群密度检测模型,在多尺度密度回归的基础上,利用膨胀卷积完成区域多尺度感知,并实现提取特征稀疏处理,通过多通道特征融合方式,减少密度图构建中特征缺失。通过密度回归网络与残差判别网络的对抗机制保障了模型的最优解。实验结果表明,提出算法在客观指标具有明显优势,优于现存算法,但是仍存在问题:稠密区域感知能力有限,不能对稠密区域个体进行很好的感知区分。因此这将是需要进一步研究的关键问题。 参考文献: [1]M. Rodriguez,I.Laptev,J.Sivic, et al.Density-aware persondetection and tracking in crowds. In 2011 International Confer-ence on Computer Vision,IEEE,2011:2423-2430. [2]M.Wang and X.Wang. Automatic adaptation of a generlc pe-destrian detector to a specific traffic scene. In 2011 lEEE Con-ference on Computer Vision and Pattern Recognition,IEEE,2011:3401-3408. [3]B.Wu and R.Nevatia. Detection of multiple, partialIy occlud-ed humans in a single image by bayesian combination of edge-let part detectors. In 2005 Intemational Conference on Com-puter Vision,IEEE,2005:90-97. [4]D. Ryan,S.Denman,C.Fookes, and S.Sridharan. Crowdcounting using multiple local features. In 2009 Digital ImageComputing: Techniques and Applications, pages 81-88. IEEE,2009. [5]A.B.Chan, Z.-S.J.Liang,N.Vasconcelos. Privacy preserv-ing crowd monitoring: Counting people without people modelsor tracking. In 2008 IEEE Conference on Computer Visionand Pattern Recognition, pages 1-7. IEEE, 2008. [6]A. B. Chan and N. Vasconcelos. Bayesian poisson regressionfor crowd counting. In 2009 IEEE 12th international confer-ence on computer vision, pages 545-551. IEEE. 2009. [7]Y. Zhang, D. Zhou, S. Chen, et al. Singleimage crowd count-ing via multi-column convolutional neural network. In Pro-ceedings of the IEEE conference on computer vision and pat-tem recognition,2016:589-597. [8]V. A. Sindagi and V. M. Patel. Generating high-quality crowddensity maps using contextual pyramid cnns. In Proceedingsof the IEEE Intemational Conference on Computer Vision,2017:1861-1870. [9]D. B. Sam, S. Surya, R. V. Babu. Switching convolutional neu-ral network for crowd counting. In 2017 IEEE Conference onComputer Vision and Pattem Recognition(CVPR). IEEE. 2017:4031-4039. [10]Y. Li, X. Zhang, D. Chen. Csrnet: Dilated convolutional neu-ral networks for understanding the highly congested scenes. InProceedings of the IEEE conference oncomputer vision andpattern recognition,2018:1091-1100. [11]Olaf Ronneberger, Philipp Fischer, Thomas Brox. U-Net:Convolutional Networks for Biomedical Image Segmentation.Medical Image Computing and Computer-Assisted Interven-tion(MICCAI), Springer, LNCS, 2015(9351):234-241. [12]Arjovsky M , Chintala S . Bottou. Leon. Wasserstein GAN[J].arXiv:1701.07875v3.2017. [13]He K, Zhang X , Ren S , et al. Deep Residual Learning forImage Recognition[J]. 2015. [14]Y. Zhang, D. Zhou, S. Chen, et al. Singleimage crowd count-ing via multi-column convolutional neural network. In Pro-ceedings of the IEEE conference on computer vision and pat-tem recognition,2016:589-597. 收稿日期:2019-08-20 作者簡介:赵新宇(1990-),男,硕士,主要研究方向为机器视觉、目标识别。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。