《藏文文献版面分析中去噪方法研究》-工学论文，计算机论文-论文范文参考-科学狗论文网

标题

藏文文献版面分析中去噪方法研究

范文

管美静珠杰吴燕如

摘要：针对藏文文献版面的特征，本文结合藏字结构的特征，提出一种基于卷积神经网络的DnCNN藏文文献版面去噪算法。该方法采用17层网络结构深度学习版面特征，在训练过程中结合批量标准化和ReLU激活函数提高训练速度和特征的学习精度，最后使用残差学习输出残差图像。实验结果表明，针对藏文文献版面中易出现的噪声有良好的去噪表现，不但有较高的峰值信噪比，而且在主观评价方面也有不错的评价。

关键词：图像去噪;卷积神经网络;残差学习;藏文文献版面

中图分类号：TP18 文献标识码：A

文章编号：1009-3044（2020）29-0196-03

随着现代科技的发展和电子数码产品的普及，图像在人们生产和生活中的应用越来越普及[1]。但是，由于物理或人为等因素，可能会导致图像在采集和传输过程中受到不同程度噪声的干扰[2]。因此，图像去噪是图像研究领域极其重要的一步。

1 研究基礎

现如今图像去噪的研究发展已经较为成熟，以神经网络的普及为分界点，图像去噪方法可以分为传统的去噪方法和基于神经网络的去噪方法。传统去噪方法主要可以分为基于空间域的去噪方法和基于变换域的去噪方法[3]，其中，基于空间域的去噪方法常见的有均值滤波和中值滤波，基于变换域的去噪方法常见的有傅里叶变换和小波变换等去噪方法[4]。但是传统的去噪方法如K-SVD去噪方法、BM3D去噪算法通常会有去噪后图像整体模糊、计算量较大等问题[5]。基于神经网络的去噪方法常常结合深度学习，例如Jain[6]等提出一种卷积神经网络的去噪模型，该模型相比传统的去噪方法在计算量和去噪效果上都有较好的表现;Kai Zhang[7]等人提出了一种基于残差学习的深层卷积神经网络图像去噪方法，该方法通过使用卷积神经网络结构，并结合批量标准化和激活函数，使用残差学习的方法实现图像去噪，该方法不仅计算速度快，而且去噪效果较好;此后，Chen H[8]等提出了一种用于低剂量CT图像去噪的浅层残差编解码递归网络，网络结构为REDNet（Residual Encoder-Decod-er Network），使用基于对称跳跃链接的深度卷积编码解码框架，在递归过程中，每一次都使用上一级处理过的低剂量CT图像作为下一层网络的输入，该方法在去噪的同时能较好地保留图像细节特征，但是网络结构较为简单;Tai Y[9]等提出一种延长记忆的去噪模型，主要思想也是基于卷积核迭代实现去噪，不同的是各个模块都参与了最终输出，主要通过使用门控机制建立长期记忆，该模型最大的特点是网络结构深度有80层，网络结构密集使得特征信息在各记忆单元之间的流动更加灵活。

以上去噪方法在图像去噪领域都有较好的去噪效果，但主要是应用在自然图像或者医学图像等图像处理上。对于在藏文文献版面方面的去噪还未有人涉及。由于藏文适用范围较小和藏字结构的复杂性，藏文版面较中文、英文或其他普通图像各方面的研究较少。本文研究了藏文版面的特征，提出了DnCNN模型的藏文文献版面去噪方法。实验中首先对原始藏文版面添加不同程度的椒盐噪声，构造仿真噪声图像;然后将图像输入网络，使用卷积神经网络并结合批量标准化和ReLU激活函数，学习藏文版面结构特征;最后整合残差学习实现去噪。实验结果表明，该算法在藏文文献版面有较好的去噪效果。

2 图像预处理

2.1 灰度化

目前大多数图像通常是RGB三通道的彩色图像，为了降低计算量，本实验在对藏文版面加噪之前，首先对其进行灰度化。本文采用处理效果较好的加权平均法，得到藏文文献版面灰度图像：

Gray（i，j）=0.30' R（i，j）+0.59' G（i，j）+0.11' B（i，j）

2.2 藏文版面特征

现代藏文版面已趋于标准化，印刷物的版面形状主要呈长条式，常见的版面主要有报纸期刊、装订书等。宏观上格式统一，如页面布局清晰、模块之间独立等;微观上藏字与藏字之间有固定的字号和行间距，且现代保存手段较为完善，一般版面很少含有噪声。但是在版面的采集或传输过程中不可避免可能会混入或多或少的噪声，并且在藏文文献书写中，除了藏字自身结构的复杂性外，藏字的音节点在处理过程中跟噪声颗粒尤其与椒盐噪声类似，极易混淆，也在一定程度上增加了去噪难度。

2.3 加噪过程

结合藏文版面文字特征，主要使用椒盐噪声作为藏文文献版面的仿真噪声，构造一种由含噪声图像到去噪图像的非线性映射，映射过程如式（1）描述，其中g（x，y）为加噪后的图像，f（x，y）为原始图像，N（x，y）为噪声。

g（x，y）=f（x，y）+N（x，y）（1）

实验通过对相同的干净藏文版面添加不同强度的噪声，将加噪后的图像输入模型实行去噪处理，最后对去噪后图像进行评估，分析模型的去噪效果。

3 藏文版面去噪算法

3.1 网络结构构建

本文主要针对藏文版面方面噪声特点，结合批量标准化和残差网络研究了DnCNN图像去噪方法。该去噪算法的核心部分在于结合残差学习方法并加入了批处理操作，建立的网络结构如图1所示。将初始含噪图像输入网络，建立17层卷积层，在网络内部主要通过3x3的卷积核逐层提取图像特征。在每一层的卷积之后进行ReLU和规范化处理，最后得到残差图像。

3.2 模型训练

首先，在正式卷积之前，先对图像进行边界处理，主要通过在卷积开始之前都进行一次zero padding操作，这种零填充处理不仅操作简单，在保证提取到更多边缘特征的同时也不会产生任何边缘影响。

正式卷积过程中，设置卷积核尺寸为HxWxC，其中H表示卷积核高度，W表示卷积核宽度，C表示特征通道数目。训练过程中采用灰度图像大小为256x256，卷积核大小为3x3xl。网络结构分为三大部分：

第一部分：第1层卷积网络Conv（ 3x3x64）+ReLU，对输入含噪图像先进行zero padding进行边界填充处理，保证每一层的输入、输出尺寸都保持一致，防止出现边界伪影。随后使用64个3x3的卷积核对图像进行卷积，将得到的图像p进行ReLU函数激活，得到第1层卷积后输出图像pl，将其作为第2次卷积的输入。

第二部分：主要指的是第2层卷积网络到第16层卷积网络，可以将其称为隐藏层，对于这15层隐藏层的处理采用相同的卷积过程，这里仅以第2层Conv（ 3x3x64）+BN（batch normal-ization）+ReLU为例。对第1层得到的输出图像pl进行zero pad-ding处理之后采用3x3的卷积核进行卷积，在每一层卷积之后中使用与第一步相同的ReLU激活函数进行线性修正。值得一提的是这里与第1层卷积不同之处在于，在每一个卷积和ReLU之间分别加入了BN批量规范化处理操作，目的是解决内部变量偏移问题防止梯度消失并加快训练速度，得到输出图像p2，作为第3层卷积网络的输入;第3层重复第2层的操作，依次进行zero padding边界处理、使用64个3x3卷积核进行卷积、批处理、ReLU线性激活得到输出图像p3，p3作为第4层卷积网络的输入，再重复第3层的操作得到输出图像p4作为第5层的输入，以此类推，一直到第16次卷积结束得到输出p16，将p16作为第17层的输入。

第三部分：最后一层全连接Conv（ 3x3x64），将第16层得到的p16进行zero padding与卷积之后，得到图像p17，此时的图像p17相当于不断学习残差得到的噪声图像。结合残差去噪的原理，需要用第1层的噪声输入图像与最后一层的p17相减，得到输出图像p18。

4 实验结果与分析

4.1 实验数据

实验中采用数据集为JPG格式的西藏日报藏文版面，通过切片方法将1346x1092较大版面裁剪为多个256x256的小尺寸图像，到扩充数据集的目的。然后进行灰度化，得到100600张256x256藏文版面灰度图像，其中，训练集为90000张，验证集为10000张，测试集为600张。

4.2 实验结果分析

本实验环境采用Windows1064位操作系统，使用的GPU为NVIDIA GeForce RTX2080，同时采用TensorFlow-GPUl.14.0深度学习框架进行实验。

实验采用经典的3x3的卷积核和17层的网络结构，主要针对训练次数和噪声强度两个方面展开实验，利用峰值信噪比客观评价和主观评价分析去噪结果。

1）训练次数的实验

本文将训练次数Epoch分别设置为30、40、50。网络的训练过程中实际上是梯度下降的过程，实验中采用的Adam优化函数和自适应学习率的方法。在本次实验过程中，数据集为添加了椒盐噪声强度6为0.01的藏文版面。去噪效果如图2、3、4所示，左边是原始灰度图，中间是添加椒盐噪声的噪声效果图，右边是去噪后的图像。本文选取三个关键节点进行举例说明。

观察训练过程去噪效果，从图2对比图可以得出，在Epoch=30时模型学习特征还较少，图片呈现效果较差;随着训练次数的增多，当Epoch达到40时，如图3可看出，去噪效果有明显改善;继续增加Epoch为50，如图4所示，噪声去除效果已较为明显，去噪效果良好。实验表明，当Epoch达到50时，去噪效果达到最好，去噪后图像的峰值信噪比如表1所示。

2）不同噪声强度的实验

根据以上得到的成熟的去噪模型，将600张测试集藏文图片输入DnCNN网络，去噪效果对比如图5、6、7所示，左边图为藏文版面原始灰度图，中间图为加噪后的藏文版面，右边图为去噪后的藏文版面。

对图5、6、7纵向对比分析，由去噪效果图可以看出，如图5椒盐噪声6为0.01时，图像去噪效果良好;对于中等强度6为0.05的噪声，如图6所示，在去除大量噪声的同时藏字结构保留完整，仍然有较好的去噪效果;对于高强度6为0.10的噪声，可能存在无法准确区分噪声点和藏字符号，如图7所示图像去噪效果较差。可见，噪声强度的高低和版面内容的高复杂度是造成去噪效果变差的主要原因。

对去噪处理后图像的峰值信噪比取均值，可以看出随着噪声强度的增加，去噪后PSNR呈下降趋势，具体表现如表2所示。

使用主观评价对去噪后的藏文版面做出如下总结，如表3所示，可以看出，随着噪声强度的不断提高，去噪后版面质量的视觉效果也逐渐变差。

5 结论

本文主要研究了DnCNN模型的藏文文献版面去噪方法，DnCNN网络模型训练过程中使用3x3的卷积核和17层的网络层数，卷积过程中结合批量标准化和激活函数解决网络内部协变量偏移和梯度消失等问题，并整合残差学习提高训练精度。针对藏文文字复杂特征和音节点的特殊性，使用不同强度的椒盐噪声作为仿真噪声输入网络训练模型，得出DnCNN去噪方法对藏文文献版面在不同椒盐噪声强度下的去噪效果。实验结果表明，DnCNN去噪模型在藏文文献版面中有较高的去噪效果和较好的视觉体验。

参考文献：

[1]阮秋琦.数字图像处理学[M].2版.北京：电子工业出版社， 2007.

[2]任静.基本卷积神经网络的图像去噪算法研究[D].西安：西安电子科技大学，2015.

[3]谢鹏.基于卷积神经网络的图像去噪研究[D].湘潭：湘潭大学，2019.

[4]杨亚男，小波变换在彩色图像数字水印技术中的应用[D].西安：西安电子科技大学，2019.

[5]李伟.车辆检测中噪声去除方法研究[D].青岛：中国海洋大学，2007.

[6] Jain V，Seung H S.Natural Image Denoising with ConvolutionalNetworks[C]//Conference on Advances in Neural InformationProcessing Systems.Curran Associates Inc.2008：769-776.

[7] He K M，Zhang X Y，Ren S Q，etaI.Deep residual learning forimage recognition[C]//2016 IEEE Conference on Computer Vi-sion and Pattern Recognition（CVPR）.27-30 June 2016，LasVe-gas，NV，USA.IEEE，2016：770-778.

[8] Chen H，Zhang Y，Kalra M K，et aI.Low-dose CT with a residu-al encodeI-decoder convolutional neural network[J]. lEEETransactions on Medical Imaging，2017，36（12）：2524-2535.

[9] Tai Y，Yang J，Liu X M，et aI.MemNet：apersistent memory net-work for image restoration[C]//2017 IEEE International Confer-ence on Computer Vision（ICCV）.22-29 0ct.2017，Venice，ltaly.IEEE。2017：4549-4557.

【通联编辑：唐一东】

作者简介：管美静（1993-），女，硕士研究生，主要研究方向為图形图像处理、版面分析;珠杰（1973-），男（藏族），通讯作者，博士，王要研究方向为藏文信息处理、数据挖掘;吴燕如（1993-），女，硕士研究生，主要研究方向为图形图像处理、版面分析。

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。