标题 | 古文献版本考究中的图像文字自动比对方法设计与应用研究 |
范文 | 周生龙 张忠林 摘 要:古文献版本比对研究是文献研究的重要方向之一。为提高古文献的研究效率,文章提出了在古文献版本差异比对中的图像文字自动比对方法,本方法的主要内容包括信息采集与分类、文献图像预处理、文字切分与存储、文字比对与文献差异标注等。作者采用本设计方法对现存文渊阁、文津阁、文溯阁《四库全书》书前提要的图像文字进行了自动比对研究,验证了该方法的比对效果,以期为古文献不同版本的比对研究提供借鉴。 中图分类号:G250文献标识码:A文章编号:1003-1588(2018)09-0072-03 关键词:古文献;版本差异;图像处理;文字比对 1 背景 我国传世的古籍汗牛充栋,而同一部书因编辑、传抄、刻板、排版或装订形式的不同而产生不同的本子,这就使文献产生了各种版本[1]。从不同版本研究文献的内容及其存在的差异性上看,古文献版本比对研究一直以来都是版本研究及文献研究者们研究的重点之一,了解和研究书籍的版本差异和变化也是顺利进行文献研究的重要条件之一。随着信息化技术的发展,中文古文献的数字化建设在我国和日本取得了较快的发展[2-3]。由于文献种类和版本繁多,利用信息技术手段辅助研究人员提高文献比对研究效率,已成为文献研究领域亟待解决的问题。 笔者通过对相关资料的查阅发现,目前国内外对这方面的研究甚少,笔者之前曾对现存文渊阁、文津阁、文溯阁(以下简称“三阁”)三种《四库全书》提要图片进行过相关研究,并设计出了《四库全书》提要比对系统[4]。但因时间和经费等原因,当时的研究成果只能对“三阁”《四库全书》提要图片进行智能检索,找到相关的提要图片,而后要靠人力查找三种提要之間内容的不同,进而对其进行提要比对研究。2016年6月,《四库全书》提要比对系统曾在湖南大学主办的“中国四库学高层论坛”会议分组讨论时进行过演示,与会专家对该系统给予了一致肯定,同时也对该系统提出了宝贵的改进意见:建议《四库全书》比对系统要进一步将提要图片中的每个文字做到智能比对,并标记出异同。 笔者基于上述意见,设计出了一种对若干古文献图片中的文字进行自动比对的有效方法。 2 图像文字自动比对的设计 笔者设计的图像文字自动比对方法主要由四个部分组成,即信息采集与分类、文献图像预处理、文字切分与存储、文字比对与文献差异标注等。 2.1 信息采集与分类 信息采集即采集古文献不同版本的文字图像信息。通俗地讲就是对文献的原版进行扫描或拍照,获得其图像版,这样可以让研究者真实地看到古文献的原貌,提高研究对象的准确性,但在信息采集过程中必须尽量减少光线等其他因素的影响。当信息采集完成后,再对图像进行分类存储。存储结构应按照书目结构设计,确保准确、有序、快捷地存放。笔者以《四库全书》为例,其下可按“三阁”建立三个不同的文件夹,每个文件夹下再按照部、类、属、书名的顺序逐级设计子文件夹,此后在书名文件夹下存放本书按页编号命名的各页图像。存储结构如图1所示。 按照图1存储结构存储的主要目的有三个:①图像查找的快速有序。②方便文件的管理。③为图像切分后的文字存储提供依据。 2.2 图像预处理 图像预处理是对已采集到的古文献不同版本的文字图像进行处理,以消除噪点等对后续处理的影响因素。周进和吴钦章认为,图像预处理的方法有多种[5],在本文中图像预处理包括图像灰度化、图像二值化、图像倾斜矫正、图像噪点的去除等。其中,图像的灰度化、图像二值化、图像倾斜矫正都是采用目前较为成熟的技术。但是,在图像噪点的去除中横竖格线的处理采用了“留全去不全”的方法。其主要内容是对于横竖格线,如果该格线是一条完整的即它在长度上满足足够的距离且起始和结束位置都在指定的范围内,则保留该格线,否则去掉该格线。 2.3 文字切分及存储 文字切分采用分步切分方法实现。整个切分包括两个步骤——列切分和字切分。列切分是对竖版文字进行列切分,字切分是对每一列文字进行切分。字切分又分粗切分和细切分。其中,粗切分应用于相离字(上下字之间有间隔)的切分;细切分应用于重叠、粘连字的切分。细切分的方法包括二分投影法和始末笔画特征切分法两种。文字切分的流程如图2所示。单字的存储采用跟踪分类结构的方法,即在图像的路径下建立和图像名称相同的文件夹用以存储该图像的所有单字。 2.3.1 列切分。古文献通常采用按列的书写方式,列切分主要把一幅图像按照书写的规则分割成列。笔者设计的图像文字自动比对方法是采用统计过滤的方法进行列切分。其主要内容:首先,利用计算机程序在X轴方向对文字图像进行投影统计出每单位(像素)上的黑色像素的个数构成直方图并找到最大值。其次,程序再对直方图进行过滤,即所有小于阈值的位置的黑色像素个数设置为零,其余不变,其中阈值是动态变化的,阈值从零开始,最大为直方图最大值的1/3。最后,计算机程序根据每一个阈值得到的过滤结果对图像进行列切分,选取得到的列的宽度相对集中的一种切分结果作为最终的切分结果。 2.3.2 字切分。字切分是整个文字切分的核心,它是在列切分的基础上进行的,旨在切分出列中所包含的所有文字,并以个体的形式出现。字切分包括粗切分和细切分。粗切分的主要目的是分割出每一列中的相离字。王江晴、曹卫认为,系统粗切分采用传统的投影法[6],首先对每一列在Y轴上进行投影构成投影直方图,然后在投影直方图上找到黑色像素个数为零的Y轴位置作为切分点,最后再把错误切分的字进行合并,并统计出字的平均高度,如“吕”字会错误切分成两个字,此时要对其进行合并。细切分是在粗切分的基础上对字与字之间存在重叠及粘连情况的字串进行切分。笔者设计的图像文字自动比对方法的细切分采用二分投影切分,并在此基础上采用始末笔画特征切分。①二分投影切分。二分投影切分的主要内容是将存在重叠、粘连的字串在X轴方向分为两部分,并分别对字段的前半部分和后半部分做Y轴方向上的投影并构成投影数组。然后,在每一个投影数组中对每两个字找到一个分割点或分割范围,在查找分割点或分割范围时采用从上到下的顺序分析黑色像素的走势,根据走势在两个投影数组内找到黑色像素变化的转折点,从而定位字与字的分割点,对重叠、粘连字进行切分。②始末笔画特征切分是对二分投影切分的一个补充,因二分投影中采用直线切分,会使有些笔画的一部分被分割到与它相邻的字的像素数组中。始末笔画特征切分就是把错误分割的部分抓取出来并把它放在应该放的位置上。始末笔画特征的提取是根据汉字的开始笔画和结束笔画进行的,其内容是:①读取顶部第一行和底部第一行即最后一行的像素并记录黑色像素的位置。②对相连的黑色像素进行合并,并记录合并后的黑色像素点集的起始位置、结束位置和长度。③采用像素跟踪法[7]跟踪每一个黑色像素点集,得到每一个黑色像素点集对应的笔画。④对每一个得到的笔画根据其走向及走向上的长度判断出笔画的类型(横、竖、撇、捺、点)。⑤根据汉字开始笔画和结束笔画的特点,判断是属于该字还是该字的上一个字或是下一个字。此外,对于同一个目录下的多页扫描图像,按图像编号顺序切分,而后对经过切分后的单个文字图像进行统一编号命名,存储到对应的文件目录中。 2.4 文字比对与文献差异标注 文字识别自身存在的错误较多,加上古文献文字的自身特点,本系统直接使用文字图像相似性算法实现文字比对。因为此前切分后的比对对象已经分别存储在各自文件目录之下,所以系统就可将每一个文字图像作为比对对象[8]。在比对过程中,首先,相关工作人员要对文字图像进行归一化处理,设置文字图像相似度置信阈值。其次,相关工作人员采用双重循环方法逐一对两个文件目录下的序列图像进行相似度计算,并对计算结果与相似度置信阈值进行比较,并将满足条件的位置信息记录下来。最后,相关工作人员根据所记录的位置信息,分别在两幅原扫描图像中进行背景标记,完成图像版本差异比对结果的存储和显示。比对过程如图3所示。 3 结语 笔者以古文献版本比对研究为背景,提出了图像文字自动比对的有效处理方法,包括图像采集和分类、图像预处理、文字切分及存储、文字比对与差异标注等。其中,文字切分是整个信息化处理的核心环节。笔者通过采用图像文字自动比对方法对“三阁”《四库全书》的书前提要文字图像进行实验,发现本方法是可行且高效的。周生龙、吴相锦认为,图像文字自动比对方法是对《四库全书》书前提要比对系统的重大改进[9],可以完成不同版本的图像文件的自动分割、图元对比和差异标注,对利用计算机更高效、快速地自动提取古文献文字差异等具有很大的帮助,可为古文献版本差异研究提供更加有效快捷的技术支持。 参考文献: [1] 李庆文.同种文献的版本与版次的区分[J].国家图书馆学刊,2012(1):48-51. [2]曾偉忠.数字时代古籍目录学的发展研究[J].图书馆学研究,2010(5):2-5. [3] 毛建军.日本中文古籍数字资源的建设[J].图书馆建设,2009(3):33-35. [4][9] 周生龙,吴相锦.《四库全书》书前提要比对系统设计[J].图书馆工作与研究,2015(6):26-28. [5] 周进,吴钦章.数字视频判读中图像预处理技术研究[J].光电工程,2006(10):141-144. [6] 王江晴,曹卫.基于极小阈值和曲线拟合的垂直投影汉字切分[J].中南民族大学学报(自然科学版),2011(4):82-85. [7] 高彦宇,杨扬.无约束手写体汉字切分方法综述[J].计算机工程,2004(5):144-146. [8] 吴相锦,张忠林.古文献文字图像差异性比对方法研究[J].兰州交通大学学报,2015(6):101-105. (编校:马怀云) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。