《U-GAnet多通道特征重构人群密度检测模型》-工学论文，计算机论文-论文范文参考-科学狗论文网

标题

U-GAnet多通道特征重构人群密度检测模型

范文

摘要：在基于视觉的人群计数研究中，针对计数中人群存在遮挡和个体尺寸不确定问题，提出一种多通道特征重构密度图的计数算法。模型利用膨胀卷积网络对图像进行多尺度特征提取，提高模型的感知区域，增强模型对尺度敏感性;通过多通道融合浅层特征生成人群密度图，结合基于Earth-Mover距离的生成对抗机制提高模型精度。为验证算法的有效性，分别与主流方法在标准数据集ShanghaiTech、UCF-QNRF、UCF-CC-50上进行对比实验。实验结果表明，提出的方法有效地提高了计数准确度，并对场景具有一定鲁棒性。

关键词：人群计数;膨胀卷积网络;多通道;密度图;生成对抗

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2019）35-0197-04

近几年人群密度檢测已经成为计算机视觉领域的重要研究课题，在视频监控、公共安全以及区域智能分析中得到广泛应用。该技术有效解决了大场景中人群计数问题，在人员无感的前提下，通过视频信息检测出当前场景中的人群密度，避免繁杂的卡口检测设备，为安保实施提供准确的数据依据。

早期的人群密度检测基于目标检测方法实现，利用检测器检测场景中人群，并进行数据的统计。基于检测器的方法主要训练分类器，利用多级感知特征或是HOG、小波等特征去实现检测计数[1，2，3]，但在稠密人群图像中，由于人群中存在遮挡与形变，使得依靠检测的方法无法准确识别个体，继而影响计数的准确性。基于回归的密度检测方法，把人群计数问题划归到密度映射，以二维图像到人群密度图为研究对象，构建端到端的映射模型。初期的密度映射模型一般依靠提取前景、边缘、纹理等低级特征，利用贝叶斯一泊松回归或是线性回归等方法学习特征到密度的映射[4，5，6]。随着深度学习技术的不断发展，通过神经网络非线性回归的方式预估密度图，解决了传统回归方法中提取特征表征性能的不足问题。利用深度学习中卷积神经网的特征提取能力，提取表征性能完备的深层特征，精确预估图像中的人群密度。Zhang等人[7]提出多阵列结构的密度特征提取模型，利用多尺度卷积核分别提取图像特征，实现感受野多尺度变换，降低了尺度空间对特征的影响，并对多阵列特征进行融合映射。Sindagi等人[8]提出了一种全局上下文信息与局部上下文信息结合的方法，通过全局上下文信息降低多尺度在人群密度变化中的预估错误，局部上下文信息提升密度图质量。Sam等人[9]提出一种图像区域筛选的思想，根据图像块中人群密度进行卷积网络的选取，针对不同密度选取不同卷积核，实现密度自适应匹配。Li等人[10]提出了应用膨胀卷积神经网络（Dilated Convolutional Neural Network）的方法，利用VGG网络提取密度图特征，对特征进行膨胀卷积重构，降低人群密度离散化影响，保持局部邻域的连续性。虽然深度学习网络在人群计数中取得了较好的效果，但是在人群环境复杂，遮挡严重的情况下，往往会出现透视失真，现有网络无法很好处理高密度区域的密度重构，无法有效提取高密度区域细节特征。在复杂场景中，人群图像前景与后景个体尺寸差别较大，单一尺寸的卷积核已经无法满足任务需要。

针对高密度人群细节丢失与个体目标尺寸变换的问题，本文提出一种多通道特征重构密度图的方法。该方法利用膨胀核对图像进行多尺度感知，扩大感知区域，解决个体空间尺度变化问题，对浅层特征进行多通道融合，保留了区域的细节特征，减少特征损失。并利用Resnet构建残差判别网络，在Earth-Mover距离空间对生成密度图进行判别修正，提高密度回归网络精度。

1 提出算法

本文所提算法主要基于膨胀卷积核实现特征感知，并对多阶特征进行跨层融合，在避免网络扩张的基础上提高网络的感知范围与感知精度。

1.1 U-GAnet网络结构

提出算法分为两个网络：密度回归网络和残差判别网络。密度回归网络用于生成人群密度图，残差判别网络对生成密度图进行拟合修正，调整密度回归网络精度。密度回归网络[11]首先对人群图像进行特征抽象提取，利用不同系数的膨胀卷积核进行局部感知。接着对提取的高阶特征进行上采样，并对网络中的浅层特征进行融合处理，减少重构过程中的特征损失。接着运用Resnet网络对生成的密度图与密度标定图进行判别[12]，判别后的结果对密度回归网络进行反馈，实现密度回归网络的优化调整。

如图1为U-GAnet架构示意图，由图可知，在训练过程中，首先利用密度回归网络实现人群图像到密度图的映射，然后使用残差判别网络对生成密度图与标定密度图进行判别区分。

1.2密度回归网络

1.2.1膨胀卷积层

密度回归网络为增强网络感知能力，提高网络对个体尺寸的鲁棒性，采用膨胀卷积作为特征提取和密度重构的基本单元，可定义为：膨胀卷积输出，x（m，n）表示输入，ω（iJ）表示M×N膨胀卷积核，r为膨胀系数，即r=1时，膨胀卷积为普通卷积层。

膨胀卷积层实现了池化与卷积的结合，完成了卷积过程稀疏化，在不增加网络层参数数量的情况下扩大感受野，减少了层间级联带来过拟合现象。对于膨胀卷积层，一个小尺寸k×k卷积核可以在膨胀系数为r的前提下扩大到k+（k-1）（r-1），因此在回归任务中，膨胀卷积可以更灵活的实现多尺度上下文信息的提取。如图2所示，当膨胀系数为1时，可实现3×3区域的感知，膨胀系数为2和3时，感知区间分别扩张至5×5和7×7。相对于使用卷积与池化实现的特征映射，膨胀卷积可保留更多的细节特征[10]，减少层间特征提取中的信息损失，保障了密度图重构中的深层信息。

1.2.2密度回归网络

密度回归网络如图3所示，网络由特征提取和密度重构两部分组成。特征提取部分基本单元包含两层3×3膨胀卷积，实现膨胀系数为1、2与3局部卷积，每层利用ReLU激活函数实现局部特征的提取。基本单元还包括一个步长为2的2×2最大池化层，对特征层进行下采样，实现特征空间稀疏化。在每一步下采样中，都构建特征融合通道，弥补高阶特征在重构密度图中的丢失信息。密度重构部分基本单元包括一个上采样层，融合浅层特征实现2×2的上采样。之后还包括2层3×3卷积层，并通过ReLU激活函数实现非线性回归。由于每次卷积都存在边界像素的丢失，所以在上采样中需要对特征层中缺失像素进行填补。在密度回归网络最后一层用1×1卷积实现特征向量到密度空间映射。

这种多通道的网络结构，使得在重构密度过程中获取更多的上下文信息，结构采用上下采样对称的方式，便于浅层特征的传递，特征提取过程中对特征向量进行可用区域卷积，减少无关信息加入。

1.2.3残差判别网络

密度回归网络利用多层感知机生成人群密度图，将原图像中高维信息映射到密度空间。但在密度回归网络训练过程中，基于最大似然估计的SGD很难预估较复杂概率分布问题，因此设计残差判别网络提高感知机预估精度。残差判别网络用于区分标定密度图与生成密度图，与密度回归网络形成动态对抗机制，实现网络自适应优化。为防止判别网络在网络层数增加时梯度消失，使用Resnet[13]作为判别网络，如图4所示，构成残差网络的基本单元可表示为：

1.2.4目标函数

为保证密度回归网络和残差判别网络在训练过程中达到动态平衡，避免因残差判别网络效果太好制约密度回归网络性能提升，减少网络间性能失衡，本文使用Earth-Mover距离进行类别分布空间衡量。并且Earth-Mover距离可有效地抑制网络训练过程中模态的消失现象。Earth-Mover距离定义为：

其中π（Pg，Pr）表示Pg与Pr联合分布，x与y表示联合分布γ中真实样本和生成样本。Earth-Mover距离表示联合分布中所有分布样点1范数期望的下确界，即表示Pg分布空间到达Pr所需的最小代价。

为得到EM（Pr，Pg）最优解，通过Kantorovich-Rubinstein du-ality理论使Earth-Mover距离等价于：

其中‖f‖L≤1表示符合1-Lipschitz限制函数，即满足f（x1）-f（x2）|≤|x1-x2。Earth-Mover距离等价于Pg与Pr中所有样本经厂（*）变换后期望差的上确界。由此定义网络目标函数为：

其中x与z分别表示人群图像与标定密度图，Gωg（*）与Dωd（*）分别表示密度回归网络与残差判别网络，ωg与ωd表示密度回归网络与残差判别网络的权重系数。

2 实验结果与分析

本实验所用PC采用i5-6400处理器，主频2.7GHz，TeslaP4 GPU，64位Ubuntu操作系统，模型运行在Pytorch 1.20。U-GAnet在ShanghaiTech_part数据库中进行训练，并在Shanghai-Tech_part、UCF_CC_50与UCF-QNRF数据集中进行分析比对。

ShanghaiTech数据集中包含1198幅标定图像，共含有330165个人，分为A、B两部分。ShanghaiTech_part_A中包含482幅高密度图像，分辨率为589*868，其中300幅用于训练，182幅用于测试。ShanghaiTech_part_B中包含716幅低密度图像，分辨率为768*1024，其中400幅用于训练，316幅用于测试。

UCF-QNRF数据集中包含1535张密集人群图像，分辨率为2013*2902。数据集中出现会场、街道、教堂等多种场景，从不同视角进行采集，并存在不同强度光线。

UCF CC 50数据集中包含50幅密集场景下的灰度图，分辨率为201O*2888，每幅图像人数从94到4543不等。

为验证所提算法的有效性，对生成结果与现存算法进行客观比较，用均值绝对误差（MAE）与均方误差（MSE）进行网络性能的量化比较。MAE反应算法映射密度图的精度，MSE反应算法鲁棒性。MAE与MSE定义为：

其中N表示测试数据集图像数量，Ci与CiGT分别表示预估密度图与标定密度图。

2.1数据集预处理

数据集GCC、ShanghaiTech、UCF_CC_50与UCF-QNRF中对人群图像中人群进行标定，对人群个体头部中心点标定为1。为实现网络回归拟合，需要根据标定点生成密度图，利用高斯核对标定区域进行高斯模糊处理，生成对应密度图[14]。高斯模糊处理可表示为：

其中x表示标定点临近像素，N表示标定头部个数。对于每个个体xi，用di表示k个临近像素平均距离，Gσi（*）表示参数为σi的高斯核，σi=βdi，在文中设定β=0.3，k=3。

2.2膨胀卷积层性能的影响

为进一步说明膨胀卷积在处理密度映射中的有效性，在ShanghaiTech_part_A数据集中对不同膨胀系数时算法性能进行比对实验。如表2所示，分别选定膨胀系数d=1，卷积核3*3时，即为普通卷积网络，得到MAE=127.4与MSE=198.1。当d=（1，2，3）时，对人群区间实现多尺度感知，得到MAE=87.3与MSE=125.6。由此可知，膨胀卷积层对人群密度具有更好的感知性，对感知区间的尺寸具有更好的鲁棒性，提高网络对个体尺寸的敏感度，提高映射精度。

2.3密度预估结果比较

为了验证本文所提U-GAnet在人群密度回归中的有效性，分别在ShanghaiTech_part_A+B、UCF_CC_50与UCF-QNRF四个数据库中进行测试实验，并与MCNN[7]与SwitchCNN[9]算法进行比较。如表1所示，通过实验可知，本文算法在稠密人群與稀疏人群中都具有较好的效果，并且相对MCNN与SwitchCNN具有明显的性能提升。通过UCF-QNRF中实验，可以看出本文算法在多种场景下具有较好的实验效果，并对光线的强度具有一定的鲁棒性，有效抑制光强对模型的影响。图5所示为U-GAnet下生成的人群密度图，由图可以清晰看出人群稠密区与于稀疏区域。

3 结论

本文提出的U-GAnet人群密度检测模型，在多尺度密度回归的基础上，利用膨胀卷积完成区域多尺度感知，并实现提取特征稀疏处理，通过多通道特征融合方式，减少密度图构建中特征缺失。通过密度回归网络与残差判别网络的对抗机制保障了模型的最优解。实验结果表明，提出算法在客观指标具有明显优势，优于现存算法，但是仍存在问题：稠密区域感知能力有限，不能对稠密区域个体进行很好的感知区分。因此这将是需要进一步研究的关键问题。

参考文献：

[1]M. Rodriguez，I.Laptev，J.Sivic， et al.Density-aware persondetection and tracking in crowds. In 2011 International Confer-ence on Computer Vision，IEEE，2011：2423-2430.

[2]M.Wang and X.Wang. Automatic adaptation of a generlc pe-destrian detector to a specific traffic scene. In 2011 lEEE Con-ference on Computer Vision and Pattern Recognition，IEEE，2011：3401-3408.

[3]B.Wu and R.Nevatia. Detection of multiple， partialIy occlud-ed humans in a single image by bayesian combination of edge-let part detectors. In 2005 Intemational Conference on Com-puter Vision，IEEE，2005：90-97.

[4]D. Ryan，S.Denman，C.Fookes， and S.Sridharan. Crowdcounting using multiple local features. In 2009 Digital ImageComputing： Techniques and Applications， pages 81-88. IEEE，2009.

[5]A.B.Chan， Z.-S.J.Liang，N.Vasconcelos. Privacy preserv-ing crowd monitoring： Counting people without people modelsor tracking. In 2008 IEEE Conference on Computer Visionand Pattern Recognition， pages 1-7. IEEE， 2008.

[6]A. B. Chan and N. Vasconcelos. Bayesian poisson regressionfor crowd counting. In 2009 IEEE 12th international confer-ence on computer vision， pages 545-551. IEEE. 2009.

[7]Y. Zhang， D. Zhou， S. Chen， et al. Singleimage crowd count-ing via multi-column convolutional neural network. In Pro-ceedings of the IEEE conference on computer vision and pat-tem recognition，2016：589-597.

[8]V. A. Sindagi and V. M. Patel. Generating high-quality crowddensity maps using contextual pyramid cnns. In Proceedingsof the IEEE Intemational Conference on Computer Vision，2017：1861-1870.

[9]D. B. Sam， S. Surya， R. V. Babu. Switching convolutional neu-ral network for crowd counting. In 2017 IEEE Conference onComputer Vision and Pattem Recognition（CVPR）. IEEE. 2017：4031-4039.

[10]Y. Li， X. Zhang， D. Chen. Csrnet： Dilated convolutional neu-ral networks for understanding the highly congested scenes. InProceedings of the IEEE conference oncomputer vision andpattern recognition，2018：1091-1100.

[11]Olaf Ronneberger， Philipp Fischer， Thomas Brox. U-Net：Convolutional Networks for Biomedical Image Segmentation.Medical Image Computing and Computer-Assisted Interven-tion（MICCAI）， Springer， LNCS， 2015（9351）：234-241.

[12]Arjovsky M ， Chintala S . Bottou. Leon. Wasserstein GAN[J].arXiv：1701.07875v3.2017.

[13]He K， Zhang X ， Ren S ， et al. Deep Residual Learning forImage Recognition[J]. 2015.

[14]Y. Zhang， D. Zhou， S. Chen， et al. Singleimage crowd count-ing via multi-column convolutional neural network. In Pro-ceedings of the IEEE conference on computer vision and pat-tem recognition，2016：589-597.

收稿日期：2019-08-20

作者簡介：赵新宇（1990-），男，硕士，主要研究方向为机器视觉、目标识别。

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。