网站首页  词典首页

请输入您要查询的论文:

 

标题 基于多分支网络的图像分类算法
范文

    杨鑫 杨晶东

    

    

    

    摘 要:为提高卷积神经网络在图像分类中的泛化性,提出基于多分支深度神经网络结构。使用ResNet(残差网络)的跨层连接结构构造多分支网络,各分支网络共享中浅层特征提取,深层网络使用不同卷积核尺寸。分别使用独立损失函数产生多梯度对中浅层特征权值进行同步调整。与ResNet的单重网络进行对比实验,结果表明,在具有相同收敛性的前提下,各个分支网络的泛化性都得到一定提高,在多类别数据集中表现出更优性能。

    关键词:残差网络; 多分支网络; 泛化性能

    DOI:10. 11907/rjdk. 182713 开放科学(资源服务)标识码(OSID):

    中图分类号:TP301文献标识码:A 文章编号:1672-7800(2019)007-0056-04

    Image Recognition Algorithm Based on Multi-branch Network

    YANG Xin, YANG Jing-dong

    (School of Optoelectronic Information and Computer Engineering,

    University of Shanghai for Science and Technology, Shanghai 200093, China)

    Abstract: Aiming at improve the convergence and generalization of convolutional neural networks in image classification, we propose a deep neural network structure based on multi-branch network. Using a cross-layer connection structure of ResNet (residual network), a multi-branch network is constructed, shallow feature extraction is performed in each branch network share, and different convolution kernel sizes are used in the deep network part. Separate loss functions are used, and multiple scale gradients are used to adjust the weights of the middle and shallow features simultaneously. Experiments show that the convergence and generalization of each branch network have been improved compared to the single-net network of resnet. At the same time, the algorithm in this paper shows better performance in multi-category data sets, and has practical significance in the big data environment.

    Key Words: residual network; multi-branch network; generalization performance

    作者簡介:杨鑫(1991-),男,上海理工大学光电信息与计算机工程学院硕士研究生,研究方向为深度学习、计算机视觉;杨晶东(1973-),男,博士,上海理工大学光电信息与计算机工程学院副教授、硕士生导师,研究方向为智能机器人、计算机视觉。

    0 引言

    深度学习通过叠加非线性层[1-2],使深层神经网络可以拟合复杂的非线性映射,相比SVM(支持向量机)、逻辑回归等浅层学习方法,深度学习可在大数据支撑下学习数据内部复杂的模式。深度学习由Hinton等[3]在2006年提出,为解决深度神经网络容易出现的梯度消失、梯度爆炸等问题,当时使用玻尔兹曼机预训练单层参数,使得网络最终可以收敛。计算机视觉是深度学习的重要应用领域,卷积神经网络为计算机视觉领域的诸多问题提供了一种端到端的解决方法。卷积神经网络可以对特征进行分层学习[4],其特征复制思想很好地解决了图像识别中视角差异、物体特征在图像上的维度跳跃问题。Yann LeCun和他的团队提出了著名的卷积神经网络结构LeNet5,成功应用在手写体数字识别上[5],改进的BP网络在手写数字字符识别上的研究取得了一定进展[6]。由于计算机硬件的技术进步,海量图片数据以及神经网络初始化、优化方法的提出,使得深度神经网络容易收敛且不易出现过拟合问题[7-9],但由于网络层数的逐渐叠加,产生了网络收敛困难和优化困难问题。文献[10]引入残差块结构,残差神经网络中的跨层连接思想可使网络层数叠加很深,极大解决了深层网络的收敛问题。残差神经网络开始在计算机视觉应用中占据主导地位,文献[11]提出使用深度残差神经网络进行视频内容的快速检索;文献[12]提出使用深度残差网络进行脱机手写汉字识别;文献[13]提出使用残差神经网络进行结构故障识别,但深度残差网络并没有达到最优输出;文献[14]中提出采用多尺度特征图学习策略改善网络性能,提高训练收敛性和测试泛化性能,但未提出多损失函数策略提高网络识别正确率。本文致力于提高深度学习模型在图像识别领域的收敛性和泛化性,提出多分支网络正则中浅层的特征提取网络,在cifar10与cifar100数据集中分类性能比原有ResNet性能更好。

    1 ResNet残差网络

    ResNet的主要思想是在不同的卷积层中添加跨层连接,改变层与层间的映射关系,使用RseNet的跨层连接结构如图1所示。

    图1 ResNet的跨层连接

    图1增加了层与层的跨层连接结构,网络实际学习的非线性映射为[F(X)=H(X)-X]。叠加卷积神经网络层数会使模型变得更加复杂,较深层神经网络理论上会表现出更好的泛化性能,但实验结果表明,当网络深度达到一定层数时,在训练集上的分类误差开始逐渐变大[15-16]。增加跨层连接,降低了网络优化水平,使得深层网络更容易达到收敛。ResNet折中了复杂网络与简单网络,以适应不同复杂程度的分类模式。

    2 基于多分支网络的深度网络结构

    本文将图1中ResNet的跨层连接作为一个残差块,将3个具有相同特征图数目的残差块作为一个scale,使用3个具有特征图数目的scale构成残差网络中的特征提取部分,各个scale间使用最大池化降低特征图像素数。[H(X)=F(X)+X,]当[F(X)]与[X]特征图数目不一致时,采用[1×1]卷积核进行变换。本文构建三分支网络,各个分支网络共享scale1与scale2中浅层特征提取,3个scale3分别采用[3×3、5×5、7×7]卷积核尺寸,scale1與scale2采用[3×3]卷积核尺寸,网络整体结构如图2所示。

    ResNet1、ResNet2、ResNet3分别使用独立的交叉熵损失函数,由于scale3中设置了不同尺寸的卷积核,对于scale1与scale2中的梯度调整将进行一定程度的互相正则。设scale2中一层卷积层的权值为Wc,其对应的梯度由下式产生:

    图2 三分支残差网络结构

    [dWc= ?Lr1?Wc+?Lr2?Wc+?Lr3?Wc]? ?(1)

    式(1)中,[Lr1]为ResNet1的损失函数,[Lr2]为ResNet2的损失函数,[Lr3]为ResNet3的损失函数。不同尺寸的卷积核提取特征具有不同范围大小的感受野,对于每个独立的网络连接scale1与scale2,类似于产生了具有正确导向的噪声信号。Scale2与scale3衔接部分输入部分卷积层,损失函数对其特征图激活值的偏导[dA]由式(2)给出。式中[H3×3]为输出卷积层特征图高度,[ahw]为输出卷积层特征图切片激活值,[dZhwc]为损失函数关于输出卷积层第h行w列c深度被激活前特征图像素值。scale1与scale2中的权值更新梯度由[dA]回传,网络最终在共享权值部分产生多梯度的混合调整。实验证明该方法可提高单分支网络的泛化性能。

    [dA3×3=h=1H3×3w=1W3×3c=1Cahw×dZhwc]

    [dA5×5=h=1H5×5w=1W5×5c=1Cahw×dZhwc]

    [dA7×7=h=1H7×7w=1W7×7c=1Cahw×dZhwc]

    [dA=dA3×3+dA5×5+dA7×7]? ? ?(2)

    正则化方法dropout[17]可随机训练一定比例失活神经元后的网络,网络训练被认为是在众多的子网络中进行一个特殊意义的融合。本文使用多分支网络结构,同时利用dropout技术进行网络的正则化以提高模型的泛化性能。

    Scale3将每一特征图使用平均池化转化为1个标量,减小分类器输入的特征维度。分类器使用两层全连接网络,隐藏层使用1 024个神经元,同样使用ReLU函数作为激活函数,全连接层间使用Batch Normalization[18]进行批归一化。

    对于ResNet的输入,使用一定的数据增强技术。数据增强方法为:将原始图像进行宽度为4的黑色像素边缘填充,随机裁剪为32×32×3尺寸图像,随机翻转、随机变换图像亮度、对比度,对图像进行标准化。在测试时对图像进行标准化操作。本文权值初始化使用He[19]的方法,采用Adam[20]优化权值更新算法。

    3 实验结果分析

    本实验通过阿里云机器学习PAI深度学习平台实现,GPU型号为NVIDIA Tesla M40,可用GPU显存为11.07GB,显卡频率1.112(GHZ)。本实验基于的开源平台为tensorflow1.0,使用的编程语言为python2.7。本文将针对不同分类样本数据集cifar10和cifar100分类精度、泛化性能进行对比研究。

    3.1 cifar10数据集实验与分析

    cifar10数据集由60 000张[32×32×3]的彩色图片组成,总共包含10个类。其中50 000张图片作为训练,? ? 10 000张图片作为测试。10个类分别为飞机(airplane)、汽车(automobile)、鸟(bird)、猫(cat)、鹿(deer)、狗(dog)、青蛙(frog)、马(horse)、船(ship)、卡车(truck)。

    本实验采用的训练参数:采用dropout方法,scale1中keep_prob值为0.85,scale2中为0.8,scale3中为0.75,全连接层中为0.6。在卷积层中使用dropout随机训练整张特征图。初始学习率设为0.01,30 000step时将学习率降为0.001,50 000step时将学习率降为0.000 1。采用mini_batch 随机梯度下降,batchsize取128。

    在过了50 000step时,每隔1 000step对测试集的10 000张图片进行测试,结果如图3所示。在训练过程中minibatch会因为样本的不同导致网络无法完全收敛到极值点,权值会存在一定的波动,导致曲线存在一定的振荡。本文取所有采样值中的最大值作为模型泛化性的最终评估指标,对比在相同卷积核尺寸下分支ResNet与单重ResNet测试集正确率。在具有相似收敛性前提下,本文采用共享中浅层残差块的分支ResNet,比单重ResNet具有更好的泛化性能。当采用3×3卷积核尺寸时测试集正确率为93.65%,比单重ResNet提高了0.09%;当采用5×5卷积核尺寸时,测试集正确率为93.70%,比单重ResNet提高了0.16%;当采用7×7卷积核尺寸时,测试集正确率为93.80%,比单重ResNet提高了0.47%。

    3.2 cifar100数据集实验与分析

    Cifar100与cifar10使用相同的训练数据和测试数据,不同在于ciar100比cifar10具有更加精细的类区分,共分为100类,将其中50 000张作为训练集,10 000张作为测试集。由于数据集的变动,每一类样本数变少,原有参数设置没有足够的容量拟合cifar100数据。将dropout参数keep_prob值重新调整,scale1中keep_prob值为0.95,scale2中为0.9,scale3中为0.85,全连接层中值为0.8,其余的超参数与cifar10的实验一致。

    采用cifar10实验相同的数据采样方式进行测试集正确率数据采样,结果如图4所示,同样将采样值中最大值作为模型测试集最终正确率。由图4可知,scale3采用不同的卷积核尺寸共享中浅层特征提取残差块,分支ResNet在测试集上的正确率都要高于单重ResNet。本文方法中,当采用3×3卷积核尺寸时测试集正确率为76.27%,比单重ResNet提高了1.01%;当采用5×5卷积核尺寸时,测试集正确率为76.24%,比单重ResNet提高了1.47%;当采用7×7卷积核尺寸时,测试集正确率为76.42%,比单重ResNet提高了2.6%。

    4 结语

    本文提出一种共享中浅层特征提取的多分支残差网络,结合dropout,通过独立梯度,在保证各个分支网络scale3独立性的同时,提高了共享网络部分正则化,在多分类、精细化数据集方面比单重ResNet性能更好。未来将重点研究分支网络的自适应融合。

    参考文献:

    [1] BENGIO Y. Learning deep architectures for AI[J]. Foundations & Trends? in Machine Learning, 2009, 2(1):1-127.

    [2] BENGIO Y,LAMBLIN P,DAN P,et al. Greedy layer-wise training of deep networks[J]. Advances in Neural Information Processing Systems,2007(19):153-160.

    [3] HINTON G E,OSINDERO S,TEH Y W. A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

    [4] MATTHEW D,ZEILER,ROB FERGUS. Visualizing and understanding convolutional networks[J]. Computer Vision-ECCV,2013(8689):818-833.

    [5] LéCUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.

    [6] 曾志军,孙国强. 基于改进的BP网络数字字符识别[J]. 上海理工大学学报,2008,30(2):201-204.

    [7] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. Image net classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.

    [8] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science,2014(1):2253-2259.

    [9] SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions[C]. Computer Vision and Pattern Recognition. IEEE, 2015:1-9.

    [10] HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition[C]. In:Proceedings of Computer Vision and Pattern Recognition,IEEE,2016:770-778.

    [11] 李瞳, 李彤, 趙宏伟. 基于残差神经网络的视频内容快速检索系统研究[J]. 吉林大学学报:信息科学版, 2018(4):158-161.

    [12] 张帆, 张良,刘星,等. 基于深度残差网络的脱机手写汉字识别研究[J]. 计算机测量与控制, 2017(12):259-262.

    [13] 胡寿松,汪晨曦,张德发. 基于递阶残差神经网络的结构故障模式识别[J]. 飞机设计,2001(3):6-11.

    [14] LI B Q,HE Y Y. An improved resnet based on the adjustable shortcut connections[M]. IEEE Access,2018,18967-18974.

    [15] HE K, SUN J. Convolutional neural networks at constrained time cost[EB/OL]. http://xueshu.baidu.com/usercenter/paper/show?paperid=7477b7fa311a30b9917cfeb726a258ff&site=xueshu_se

    [16] SRIVASTAVA R K,GREFF K,SCHMIDHUBER J. Highway networks[J]. Computer Science,2015(3):128-122.

    [17] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012,3(4):212-223.

    [18] IOFFE S,SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]. International Conference on International Conference on Machine Learning. JMLR.org, 2015:448-456.

    [19] HE K,ZHANG X,REN S,et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[J]. IEEEXplore,2015:1026-1034.

    [20] KINGMA D P,BA J. Adam: a method for stochastic optimization[J]. Computer Science, 2014(6):202-208.

    (责任编辑:杜能钢)

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/10 15:19:09