标题 | 基于图象模式识别的数字图书资料修复及应用 |
范文 | 陈旭平 摘 要:图像模式识别作为一种新型数字图书修复技术,在修复图书资料中能够起到较好的作用,通过计算机的结合,利用模式识别对数字图书资料的内容进行修复,采用扫描等方式将不清晰的图形修复,使数字图书资料得到较好的恢复。文章对图像模式识别的数字图书资料修复进行了详细的分析。 关键词:图像模式识别;数字图书资料;局部二值化 1 数字化图书背景 图书向着电子化和网络化的特点发展,形成了数字形式的图书,经过数字化的图书可以在数据库中进行保存和使用,使用者利用网络可以对数字化图书进行阅读和下载等,同时这种资料的内容和实际的内容没有差异,内容一致,由于数字化的图书经过了特殊处理可以保留原本图书中的完整内容,但是两种形式的展现方式具有很大的差异。数字化图书的产生中,需要借助先进的技术实现,并且技术起到了重要的作用,比如清华同方等文献资料的数据库已经将数字化图书建立并且开始进行使用,更加的简便,有着较好的效果。 2 数字图书资料修复过程的问题 图书资料需要结合数字化技术进行处理,将收集的数据输入到计算机中,之后对出现的长方形框进行图像的预处理,使在其区域之内的部分能够被识别,进而将图像转换成文字,这种方式可以使图书等中的文字更加的明确的展现,对图书资料的修复起到了重要的作用,也能够提供帮助,经过这种方式的处理,能够使图书等资料的数字化得到成功的实践。 二值化方式在数字化处理图书资料中比较常用,数字图书资料在修复中,需要通过数据的处理来完成,二值化方法可以使这个过程得到实现,由于这种方式具有较高的效率,所以有着一定的优点,将数字图书进行二值化处理后可以使图像的对比度提高,相比原来的图书,具有更好的清晰度,这样可以使识别更加的有效,也可以利于进行阅读。然而二值化处理中也有一些问题,二值化会使图像中的模糊的部分变得更加的不清晰,使识别无法正常的进行,这个问题会导致图书的数字化处理受到较大的不良影响,导致数字化处理中的要求不能得到满足,管理人员在处理中会由于这个现象而放弃对部分图书资料继续修复。图像采集过程中,收集的图像会成为BMP格式的文件,这种格式的文件在计算机中显示的不是正常的状态,而是灰度较高的图像状态,图像还会出现不清晰和字符笔画不连贯等问题,这些问题会使图像的识别受到影响,同时存在孤立噪声的现象,导致识别的难度大大提升。 数字化图书资料等具有的问题,为了将其解决,通过对二值化技术的改善进行处理,改为局部的形式,使不清晰的数字化图书资料能够更好的得到修复,还可以使图书资料的数字化水平提高。 3 图像模式识别方式的使用原理 3.1 图像模式识别含义 模式识别指的是对事物中的现象进行分析,包括文字、逻辑等,经过处理,使事物以及现象得到描述和分辨,同时使事物能够被分类和阐述的这个过程,这种方式在识别上能够更加的准确,通过信息的处理来进行计算机计算和推理,将识别内容的性质分析出来,包括对形状、数字和图形等的分析,这就是模式识别。 3.2 局部二值化的含义 先对整个大图像进行分割,使之变成若干张大小相等的小图像,然后利用二值化方法对这些小图像进行阀值计算,而后将经过二值化之后的小点阵进行整合,得到最后的结果,这种方法就是局部二值化。在对数字图书资料中的图像进行二值化的过程中,需要先将图像的局部切割成小块,这样就能将大图像的二值化问题转换成为小图像的二值化问题。 3.3 图像模式识别的原理 图像模式识别的工作原理主要由两部分构成,即局部二值化的原理和图像分块的确定。下面就对这两方面进行具体分析。 3.3.1 局部二值化原理 所谓的局部二值化就是将一张比较大的图像分割成若干比较小的图像,然后对这些比较小的图像进行二值化,经过组合之后形成完整的二值化图像。换句话说,只需要分割、块二值化和合并三个步骤就能完成图像的二值化处理。 3.3.2 图像分块的确定 在对大图像进行分割时,应该将图像的局部灰度平均值作为分割的依据,这样就可以使一些质量较差图像的局部二值化效果得到提高。从理论上讲,对大图像分割的小图像数量越多,最后二值化的效果就会越好。但是在实际的操作过程中,这样的分割方法会大大降低计算的速度。而且,图像分割得越小,经过局部的二值化之后,最后整合出来的二值化的噪音就会越多,这样就会给后面的平滑处理带来更多的问题,增加后期处理的难度。 4 数字图书资料的修复方法 4.1 对图像进行预处理 基于图像模式识别的数字图书资料修复及应用一方面,受扫描系统的版本、光电转换的不同位置以及工作环境中的光电等因素的影响,会使图书或者是档案资料在进行数字化的过程中,出现图像扫描不均匀、对比度差异较大等问题,导致图像的清晰度不够,还原度和可视程度降低。光电敏感元件中的载荷粒子会随着机器的运转产生一定的噪音灰度图像在经过数字化的处理之后,都会含有一定的噪声。在对图书或者是档案图像进行二值化的处理之前,都需要对图像进行预处理。图书资料数字化的过程中,对图像进行预处理的办法主要有两种,即灰度变换和平滑滤波。 4.2 提取图像中的字符信息 对于亮度比较大的点,可以将它的值假设为0;对于亮度较小的点,可以假设它的值为1。像素的集合就是图像的背景区域,如果将小于或者是等于阈值N的像素设置成黑色,那么像素的值就为1,通过这样的方法就能得到只有黑白两个等级的二值化图像,图像中字符信息就会显示出来。通常情况下,数字图书资料的背景色都很浅,而字符的颜色比较深。以纸质图书为例,它的背景色通常都是白色,而字符则是黑色。 4.3 二值化图像的二次处理 对图像进行局部二值化的处理之后,就能得到各个小块图像的值点。虽然这种方法能够避免部分小块颜色暗淡只是整体图像没有值点现象的产生,但会使图像中包含很多的噪音。这些噪音在进行图像的重组之前必须去除,一般情况下,可以使用图像重构的方式进行处理。采用图像重构法不仅能够得到完整的原始图像,还能够构造出BMP位图文件,打印出比原来效果更好的图书资料,达到修复图书资料的目的。 5 结语 随着网络技术的应用逐渐普及,数字图书资料的占据的部分会随着扩大,其中包括较多的损坏的资料,或者不完整的资料,为了将损坏资料进行修复,需要加强数字图书资料的修复效果,使用有效的技术,比如图像模式识别,使数字图书资料得到有效的修复,还可以利于科技水平的提升,使图像模式识别方法的质量提升,还可以使修复的效果逐渐提高,保证数字图书的使用效果。 参考文献 [1]趙迎春.计算机模式识别技术在图书馆的应用研究[J].科学技术创新,2016(14):186-186. [2]赵登攀,刘娟.计算机模式识别技术在图书资料数字化中的应用[J].电子技术与软件工程,2016(16):169-169. [3]姜雅慧.基于模式识别的图像处理方法[J].通讯世界,2016(4):262-262. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。