标题 | 基于深度学习文字识别技术发展现状及展望 |
范文 | 刘水丽 吴恋 吴文宇 严东发 潘承昌 郭倩 摘要:文字识别技术是利用计算机自动识别纸质媒介文字,该技术被广泛应用,并且在各领域中都扮演着非常重要的角色。本文针对基于深度学习的卷积神经网络([CNN])模型、[LeNet]卷积神经网络的理论以及文字的处理过程进行论述。 关键词:文字识别;深度学习;卷积神经网络 中图分类号:TP18? ? ? ? 文献标识码:A 文章编号:1009-3044(2019)18-0202-02 现在是一个信息时代,我们所面临的不仅是信息数量大而杂乱,于其他信息载体而言,文字的优点不仅易于信息保存,同样也便于信息传递,正是如此,才得以让信息在时间和空间上都得到了迅速扩散。我们的生活中需要识别的文字数量十分庞大,但是我们却很少借用计算机。近些年来,随着科学技术不断发展以及持续进步,文字识别的应用领域也得到相应的扩展,当前主要有文字识别和数字识别。 1 文字识别意义 我们的时代随着信息化的发展,文字识别的意义主要有: 1)文字识别是中文信息录入的方法之一,但是汉字不同于简单的字母或单一的拼音,汉字笔画复杂且无确定性,仅依靠人工键入是非常缓慢的,其工作量也十分巨大,所谓耗时耗力。但是随着文字识别技术的崛起,这一难题得到了解决,速度也明显的提高。 2)现在大家都提倡智能化,我们一直苦恼如何提高办公自动化水平,现在结合文字识别技术,就可以解决我们的苦恼了。我们可以利用计算机代替我们对文档进行分类处理,从而把人从日常烦琐的办公活动中解放出来,因此文字的自动识别对图像的处理意义深远。 随着信息产业的飞速发展以及政府对信息的高度重视,可以看出,文字识别技术具有很大的市场潜力。 2 当前技术与以往技术的比较 以往文字识别的基本原理是模式匹配,即将输入的文字和每个标准的文字相比较,然后计算匹配文字的类似度,将其中最大类似度的标准文字作为识别结果。当时的文字识别流程如下: 由表1我们发现,印刷体[OCR]主要应用于规范纸质媒体,识别率很高;手写体[OCR]就适用于手写纸稿,但是这个难度系数极大,因为如法提取汉字的笔画笔顺等信息;专用[OCR]主要应用于票据、名片等;而联机笔输入是在联机的情况下,可以实时提取汉字的笔画以及笔顺,但是输出的并不唯一,且连笔字的识别率及准确率都较低,输入速度比较慢。 现在的技术有使用[Matlab]实现,需要在得到原始图像的基础上得到灰度图像,再得到二值图像等一系列的步骤,调用相关代码,就可以得到所需要识别的文字。如图: 3 基于深度学习的文字识别技术性能优势 基于深度学习进行文字识别的方法有很多,例如基于[CNN+RNN+CTC]算法、基于[FCN]算法和基于卷积神经网络等等,每种算法都有一定的优点和缺点,本文着重介绍基于卷积神经网络。当前大多数文字识别技术都是以卷积神经网络模型为基础,和传统的技术相比,卷积神经网络的原理是将输入的图像里包含的特征信息通过一层一层的卷积和采样等一系列操作进行提取以及精炼。 从21世纪起,卷积神经网络就被应用于图像分割、检测、识别等。从2012年的[ImageNet]比赛之后,卷积神经网络就已经开始受到很大的关注。该比赛使用一个由1000种类别、上百万张网络图片组成的数据集对机器学习算法进行评估。这是第一次基于卷积神经网络的神经网络模型获得第一名的佳绩,比在此之前被认为是最先进的算法几乎降低了一半的错误率。 卷积神经网络主要包括卷积层和池化层,卷积层的输出被稱为特征图。在特征图中,每个单元对应一组输出,任意一个输出结果都是上一层的一个局部块的加权和。对于同一特征图,过滤器共同享用每个单元的权值,目的是通过降低网络参数量,从而达到降低网络复杂度的目标。池化层也称为下采样层,池化后的特征具有一定的平移和旋转不变性,图4是对此进行的详细分析: 4 基于深度学习文字识别技术的当前应用 文字识别技术应用十分广泛,例如道路智能交通系统,该系统作用是通过对车牌的监测实施,进而对车辆违章的罚款或者是对出入的车辆进行管理收费等等,如图5: 5 文字识别的技术发展趋势 文字识别技术融合了多种学科,其随着图像和计算机等技术的发展而变化,当前最需要攻克的难题就是文字识别的速度和正确率。印刷体和自由手写体是当前文字识别技术的两个主要研究方向。 很早之前,国外就已经开始了文字识别技术的研究,他们初期主要是研究识别方法。由于国外文字相对于汉语来说较为简单,所以国外比我国有很大的研究优势,在理论研究和产品开发上更加成熟。[Omnipage]是号称世界上最强的英文光学字符识别产品,它对英文字符的识别率达到了99%,而我国任何一个产品都达不到这么高的识别率。 我国民族多样化,文字也是多种多样,由于大多数人都是汉字的使用者,我国产品研究的中心还是汉字的研究。但是汉字数量大、变化多端、笔画复杂,目前还没有哪一款产品能够对汉字进行准确的识别。同时对少数民族文字的识别也是不可或缺。 现如今,神经网络已经成为研究人工智能的重要组成,还是受到广泛关注的研究领域之一。现在实现文字识别最流行的方法之一是利用神经网络模型。 未来文字识别技术的发展方向应该是在高效、准备、智能的识别同时于行业应用结合更加紧密。 6 总结与展望 文字作为获取信息和交流信息的主要途径,我们的生活、学习、工作都不可避免地涉及文字识别技术。随着时代的变迁以及科学技术的发展,文字识别已经被广泛应用到各个方面的社会活动,例如无人驾驶,车牌识别,教育,虚拟现实等领域。由此可见,文字识别技术一定会是未来科学研究的主流。 参考文献: [1] 黄攀. 基于深度学习的自然场景文字识别[D].浙江大学,2016. [2] 李月洁. 自然场景中特定文字图像优化识别研究与仿真[J]. 计算机仿真,2016,33(11):357-360. [3] 樊雅琴,王炳皓,王伟,等. 深度学习国内研究综述[J]. 中国远程教育,2015(6):27-33+79. [4] 冯子勇. 基于深度学习的图像特征学习和分类方法的研究及应用[D].华南理工大学,2016. [5] 刘仁军. 基于神经网络的室内场景的文字识别研究[D].武汉工程大学,2017. [6] 张烨,陈波. 文字识别原理概述[J]. 装备制造,2009(12):230-231. [7] 张华萍,黄辰. 文字识别技术研究[J]. 物联网技术,2018,8(8):17-19. 【通联编辑:唐一东】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。