标题 | 图像检索技术在书法古籍数字化中的应用 |
范文 | 张攀峰 张彦斌 摘 要:传统纸质书法古籍作品在保护、传承方面存在诸多不便,很难满足书法爱好者个性化阅读需求,因此古籍数字化非常必要。古籍数字化研究内容已经从载体转换、存储技术升级发展到基于个性化需求的检索。设计一套基于JPEG2000的图像内容检索技术,并应用于米芾书法资源数字化。具体步骤包括:以宋代书法家米芾现存最经典的书法作品为蓝本,采用JPEG2000格式进行图像数据库存储,并将与其相关的索引资料进行匹配并保存于资料数据库中,将每幅书法作品相关解释性文字信息存储于文字数据库中,用户可以检索米芾书法中任意一种字体,既可以对某一作品进行搜索,也可以对整个数据库进行搜索,实现个性化检索。实践证明,利用该系统可对扫描作品数据库所有文字进行对应检索工作。 关键词:JPEG2000格式;图像检索技术;古籍数字化;米芾书法 DOI:10. 11907/rjdk. 191124 中图分类号:TP319文献标识码:A文章编号:1672-7800(2019)004-0115-04 0 引言 随着数字化时代的到来,电脑、手机和移动互联网设备在日常生活中日益普及,数字化技术对传统书法古籍也产生了重大影响[1]:利用现代技术手段,对书法古籍进行有效整理和挖掘,发挥其对现代社会发展有益的部分;同时用户查阅古籍的方式发生了改变,用户可以使用移动硬盘或存储器随时随地查阅互联网资源[2]。正如学者所言:“中文古籍数字化所使用的知识和技术方法不同于传统的古籍整理所积累的经验和方法。它是使用计算机、语言学、学术等现代科学知识和技术。”对于古籍的属性处理不应仅局限于文本本身(包括图像),而对于古籍的“声、色、味、触觉”等方面恰恰是古籍数字化目前瓶颈和不足之处[3]。 古籍数字化是传统与现代、古籍特点与数字技术特点的结合[4]。最初古籍数据库检索技术主要应用于书目数据库,方便读者建立馆藏古籍书目检索;而后发展至全文数据库,将古籍资源全文录入并转化为电子本,可提供一种以字符为主要处理对象的查询手段。图像版利用扫描技术将古籍以图像方式存入光盘,技术简单,容易保存古籍全貌[5]。古籍原始面貌可为研究者提供丰富的有用信息,但是传统古籍图版数据库不能满足书法研究者高级个性化需求,图片放大后会失真,不能更好地查看书法细节,无法同时检索同一个文字的不同写法。JPEG2000图像文件可以在保证图像质量前提下提供更高的压缩比,对用户感兴趣区域进行压缩保存,同时保证放大后的高清晰度。因此,本文利用JPEG2000图像基于内容检索的优势,选取古代书法家米芾的书法作品全集作为蓝本,将米芾的书法进行整理归档,制作米芾书法检索系统。用户可以通过该系统进行碑帖原图检索与文字个别化检索,更加全面了解、研究米芾书法的特点。 1 图像检索技术发展现状 1.1 数字存储技术 数字存储技术飞速发展,使许多事物数字化成为可能 [6]。目前世界各国都在积极建设数字图书馆,数字图书馆的内容不仅包含纸质图书,还包含许多具有民族特色的、以书画、歌曲、文物等为载体的物质或非物质人类文化。书法作品是我国民族文化最具代表性的部分,不仅记录历史文化、历史事件、历史环境、历史人物情感及互相交往状况,而且书法本身是一种拥有两千多年历史的艺术。将历代书法书籍数字化图像存于磁盘库中,使书法作品拥有数字備份,从而可更好地传承民族文化。但如何管理书法作品图像,并提供方便、准确的书法检索服务成为难题。 数字化存储技术主要集中于存储介质与存储格式的选择。目前古籍数字化产品存储格式主要有文本文件格式、数据库格式、电子书格式、超文本格式、图片格式、多媒体格式、数字化古籍格式[7]。书法字检索主要基于图像检索,传统图像信息检索方法常使用文字标识符,先对所有图像进行文字标注,再使用数据库技术与文本信息检索技术搜索图像。该方法的优点在于检索操作简单、速度快,但存在工作量大等缺点。近年来随着技术发展,基于内容的图像检索成为研究热点,目前多数基于内容的图像检索技术主要是针对非压缩格式的原始点阵数据进行的。但在实践中,由于原始图像数据量较大,大部分图像均经过压缩处理。对于压缩格式图像,一般需先进行解压操作,造成大量时耗。通过挖掘图像压缩时的中间结果或最终码流包含的信息,力争在不解码或部分解码的情况下提取图像内容特征,并进行相应图像处理以缩短检索时间,提高检索效率。 JPEG2000是为了弥补JPEG的不足而提出的新一代静止图像压缩国际标准。JPEG 2000与传统 JPEG 最大区别在于其放弃了 JPEG 采用的以离散馀弦转换(Discrete Cosine Transform)为主的区块编码方式,改用以小波转换(Wavelet transform)为主的多解析编码方式。小波转换的主要目的是将影像频率成分抽取出来。因此JPEG 2000不仅在性能上超越JPEG,而且增加和增强了可缩放性与可编辑性的特性。在高压缩比有损压缩的情况下,JPEG 2000的一个显著优点是没有JPEG压缩中的马赛克失真问题,所以在高清显示重要图片时具有独特优势。 1.2 古籍数字化存在的问题 书法古籍作品存世不多,且不容易保存和广泛传播,因此书法古籍数字化工作非常有意义。以米芾书法为例:米芾作为宋代行书四大家之一,其书法对后世影响深远,具有很高的学习、研究与欣赏价值。因此,将米芾书法进行整理归纳,制作成米芾书法光盘,可以使后人以更便捷的方式深入、全面地学习、研究米芾书法特点,多角度欣赏米芾书法艺术。传统书法数字化技术不能满足用户高清晰度观赏字体细节和个别化检索的需求。古籍数字化在不损伤古籍原件的同时给古籍阅读和利用带来了革命性改变,既不直接接触古籍,读者也可以检索、浏览、阅读利用古籍,挖掘古籍信息资源 [8]。本研究采用JPEG2000图像检索技术在中国传统书法教学与研究中的应用作出积极探索,促进了信息技术与书法课程整合,使书法学习不仅局限于对字帖的简单临摹。 古籍信息采集方法主要分为两类:①通过扫描或拍照等方式存储古籍整体图像信息;②对古籍版本进行文献归纳统计 [9]。但是对于古籍作品原有整体图像信息进行采集、加工、保存、传播,已经不能满足专业用户在高清放大基础上查看细节笔画的需求,其次用户无法对比查看同一文字的不同书写。日本在书法文化保护和传承方面做得非常好,相关研究者在原有图像压缩技术的基础上,采用基于内容检索的图像压缩算法,对书法进行高清晰度扫描,从而对每一个文字进行定位编码,进行精确的数字化处理,为书法个性化检索提供了基础数据。本文将米芾现今存世的所有书法作品转化为300dpi的JPEG2000格式的图片存储于图片数据库中,并附上相关资料及所有文字信息。用户可检索米芾书法中任何一个字体,既可以对某一作品进行搜索,也可以对整个数据库进行搜索。搜索完毕后,可以点击检索结果再跳转至所搜内容。根据当前画面大小以最为合适的尺寸显示图像。 书法作品精确检索的基础是建立大批数据库,需要大量人工和前期投入,书法作品初期采集工作量庞大,且比较枯燥、单调,但是对于构建书法作品数字库的基础数据采集工作必不可少。构建米芾书法光盘系统主要包括数据层、逻辑层和表示层等。其中数据层主要包括用于存放扫描书法原件的图片数据库、用于存放资料相关信息的资料数据库以及用于记录书法作品中每个文字信息的文字数据库。逻辑层主要处理系统逻辑关系,用于连接数据层和表示层。表示层主要处理数据显示问题。 在现实生活中使用的大部分图像都经过高压缩处理,而相关数据压缩算法无法满足特殊领域的需求。因此,如何在保持数据原始清晰度的基础上进行图像保存是目前图像数据压缩面临的难题。原始基于问题的图像处理以及现在流行的基于无压缩图像内容的图像处理技术无法满足日常应用,所以JPEG2000压缩域图像检索技术的研究将对图像检索技术应用产生积极意义。 2 米芾书法古籍资源数字化过程设计 2.1 基于内容检索的古籍数字化基本原理 随着多媒体技术的不断发展,产生了巨大的多媒体信息库资源,使用户接触到丰富的多媒体信息,因此用户需要更快捷、准确的多媒体检索技术,满足其个性化需求。基于内容的图像检索(CBIR)技术通过分析图像内容,建立特征索引并存储在特征库中,用户在查询时,只需描述相关图像需求,即可在大量图像库中快速找到想要的图像 [10]。本文主要关注基于内容的多媒体检索技术在基于内容的静态图像检索中的应用。基于内容的检索突破了传统基于文本检索技术的局限,直接对图像等多媒体内容进行分析,提取并利用关键特征建立索引进行检索。将传统数字化JPG格式的碑帖放大后会失真,书法爱好者不能很好地欣赏书法大家笔韵风格,对感兴趣的文字内容也无法快速检索,使其欣赏书法作品的需求难以充分满足。本文主要采用JPEG2000图像编码技术解决该问题,JPEG2000是JPEG的升级版,其压缩率比JPEG高约30%,同时支持有损和无损压缩。JPEG2000格式一个极其重要的特征在于可实现渐进传输,即先传输图像轮廓,然后逐步传输数据,不断提高图像质量,使图像由朦胧变化至清晰。它是一个对图像检索友好的编码标准,有利于对图像进行快速、有效的检索,因此JPEG2000图像可满足书法爱好者查看书法细节和进行个性化检索的需求。 基于内容的图像检索系统一般包括图像检索模块、查询模块、对象库与特征库、知识库等,系统主要可分为图像库检索模块与图像库建库模块两部分。建库模块主要用来建立与维护整个图像库图像抽取特定特征生成相应的特征矢量,其与图像一起存入圖像库,从而形成基于内容的图像数据库 [11]。对书法字的检索本质上是一种基于内容的图像检索,书法字形状是书法字的关键特征[12]。本研究系统核心是基于JPEG2000的图像检索系统。该系统主要包含3个数据库:图片数据库、资料数据库、文字数据库。图片数据库主要用于存放书法原件的扫描图片,资料数据库用于存放相关资料信息,文字数据库主要用于记录书法作品各个文字的信息,系统以3个数据库为基础,构建可从图片中检索出相应文字的书法检索系统,其中文字数据库及检索方法的设计是系统重难点。为提高光盘检索效率,需先对作品图片进行预处理,将书法作品中每个文字的信息提取后存储于文字数据库。当进行数据检索时,采用相应数据库检索技术,检索出需要的文字信息。系统既可以针对某一作品进行文字检索,也可以针对全库进行检索。 2.2 古籍资源数字化一般流程 古籍文献数字化指通过信息技术对古籍文献进行加工,使其成为可重复利用的数据资源。古籍纸质载体转换为数据载体后,古籍数据被赋予复制、传播属性。通过建模采集、分析等方式将古籍文献数字化资源建成数据库,既能保护珍贵的古籍,又能扩大其实用性,方便大众使用[13]。古籍资源数字化一般流程包括:数字采集、数字存储、数字处理、数字展示、数字传播、数字解读等环节。将书法古籍作品通过数字转换、数字再现复原成可共享、可再生的数字形态,并以新的视角加以解读,以新的方式进行保存,根据新的需求加以利用。 基于内容的数字资源检索体系一般包括:数据库特征子系统提取与数据库子系统查询,其中数据库特征子系统由媒体库与特征库组成,采集书法原始媒体数据之后根据特征进行提取,再将目标识别录入媒体库中进行编码,用户可通过查询界面,利用系统检索引擎与索引过滤功能在知识库中进行内容检索和知识呈现。 2.3 米芾书法古籍检索系统功能实现 一般古籍文本的数字化是通过人工录入古籍文字或光学字符识别(OCR)的方式进行数据库输入,从而形成文献。用户可阅读、定位检索该类数字古籍文献,虽然古籍数据资源具有一定的检索性,但是对于古籍原貌的客观表现不够完善[13]。本文将米芾书法作品分为卷册、碑铭及拓本三大类,原版古籍作品量大、书目纷杂,如何在保持作品原貌基础上进行个性化检索,是本文研究重点,其核心是构建基于JPEG2000的图像检索系统。该系统主要包含3个数据库:图片数据库、资料数据库、文字数据库。系统以3个数据库为基础构造书法检索系统,使相应文字可从图片中检索出来。为提高使用光盘的检索效率,需要先对作品图片进行预处理,提取书法作品文字信息后存储于文字数据库中,再采用相应数据库检索技术检索出需要的文字信息,实现单一作品文字检索和全库检索。 2.3.1 基于内容检索的新模型创建 数字化古籍按载体形式可分磁盘资源和网络资源两大类。磁盘版古籍资源一般有3种类型:①图像版,即将古籍直接以图像格式扫描存储;②全文版,即存储的不是古籍图像,而是数字化古籍文本,以便全文检索与查找;③图文版,即在古籍书页图像存储基础上,将书中具有检索意义的内容数字化,为用户提供多种检索功能[14]。本文主要采用第3种方法为用户提供更高质量的检索服务。以米芾书斋“宝晋斋”为名设计可视化检索系统平台,搜集、整理米芾书法法书(米芾书法作品原件)、法帖(米芾书法作品装裱成册的刻帖)、碑刻(米芾书法碑刻拓片)等作品珍本。首先将原始书法作品由专业人员高清晰度扫描为JPEG2000图片格式(扫描精度300dpi),形成图片数据库;其次,将每幅书法作品进行编号,包括卷号、碑帖名字、碑帖说明、页码、碑帖尺寸等信息,形成资料数据库;最后由技术人员对书法作品的每一个文字进行切割、编码,记录每个文字的大小及在图片中的位置信息,形成文字数据库。通过3个主要数据库建立相关索引机制,用户可以通过作品检索模式快速查看感兴趣的书法作品,也可以通过文字检索模式,快速查找某一个文字在不同碑帖中的不同写法,以上是传统方法不能实现的功能。本文在原有内容检索模式基础上进行模式创新与改进,模型结构如图1所示。 2.3.2 书法图像数据采集与图片数据库建立 古籍数字化主要是利用微缩摄影、拍照或扫描技术采集古籍原始图像,建立影像数据库或进行影印出版,以及在此基础上通过文字自动识别(OCR)或人工录入等方式进行元数据著录,从而生成基础的文本数据库或进行文字出版[15]。书法鉴赏已经从纸张方式延伸到数字方式,通常可將书法作品页面切分成单字,建立书法单字库,用户可从中选择单字进行分类欣赏、比较研究等[16]。本文将原始米芾书法资料数据进行编号,录入数据库系统。分别按照原资料名称(卷号)、原资料尺寸、合成后文件名、扫描分辨率、色彩模式、合成图像横纵向个数、扫描文件名,扫描人员,扫描日期等分类并建立初始资料数据库。其中分辨率300dpi,色彩模式RGB,图像保存格式TIF。合成图像横纵向个数指图像从单张到合成时纵向和横向的个数。录入书法碑帖卷号、图版题名、页数、原始尺寸等。原始数据采集数据量大,工作繁琐,但是它是数据入库的基础环节,也是后续进行数据特征提取、建立数据图片子库的基础。 2.3.3 书法资料数据库整理与入库 古籍数字化需要对原始数据进行标准化处理,以实现数据交流、共享。古籍数字化元数据包括书法古籍版本信息、收藏信息、作者信息、作品信息等[17]。在书法图像数据采集完毕之后,还需录入每幅书法碑帖原版文字说明,以便后期制作时进行匹配信息显示,如将以书法卷号、图版题名、图版文字说明、页码、图版大小等信息一一录入数据表格中,这些信息是后续文字资料库的基础数据。 2.3.4 书法古籍检索平台原型设计 中华古籍资源库以国家图书馆藏善本古籍为主体,依托全国图书馆文献微缩复制中心,采用模转数技术将善本古籍缩微胶片转换为高清数字化影像资源。其中中华古籍资源库设置了3种检索途径,即题名、善本书号和责任者,简繁体通用 [18]。本文米芾书法作品检索系统以米芾书斋“宝晋斋”为主界面,为用户提供2种模式:浏览模式和搜索模式。第一种模式将米芾法帖、碑刻以作品名和作品略图等方式进行展示,右侧配有图版说明和释文,下方提供文字检索功能;第二种模式提供类似百度的检索框界面,用户输入书法作品中的关键词后,可检索出作品相关信息,点击后可进行作品细节浏览。在作品检索模式中,作品可以进行放大、缩小、移动查看;在文字检索模式中,可查找不同作品中相同文字的不同书写效果。 2.3.5 书法古籍检索系统界面设计 古籍数字化为中华文化传承与发扬带来巨大积极影响的同时,也产生了一些问题,例如:降低了读者阅读纸质古籍的乐趣,缺少阅读情境性[19]。因此本系统在界面设计时采用米芾书斋“宝晋斋”为界面主风格,家具均为宋代代表性桌椅、书斋、瓶饰等,界面采用隐形热点交互设计,文案上的砚台和书画即为进入两种不同浏览模式的热区,浏览方式也采用古轴书画徐徐展开的方式。整体界面古朴典雅,使浏览者可静心体会书法家当时的环境和心境。 3 结语 基于内容的检索技术是多媒体技术研究热点,并逐渐在多个领域得到了广泛应用。随着超大型多媒体信息资源库的产生,用户对信息检索的要求越来越高,单纯基于关键词的检索已经不能满足用户检索需求,基于个性化需求的检索技术成为研究重点。随着教育大数据的迅猛发展,多媒体检索技术势必与用户个性化需求相匹配,如何为用户(研究者)推送符合其个性需求的学习资源,如何将学习资源以个性化的形式呈现,如何将现代媒体手段与中国传统文化相结合,孕育出新型媒体形式,将中国传统文化发扬光大,是今后研究方向与目标。同时,利用书法古籍数字化可以有效减少纸质古籍流通量,降低由于人为使用造成的古籍文献资料损伤率,有效保护历经岁月沧桑的古籍文本,还可通过数字化技术保存古籍真实原貌 [20]。 参考文献: [1] 向彬,南彬. 数字化时代的书法教育与文化传承[EB/OL]. https://news.artron.net/20180820/n1019749.html. [2] 刘伟红. 中文古籍数字化的现状与意义[J]. 图书与情报,2009(4):134-135. [3] 刘明华,赵天一. 古籍数字化背景下的技术与学养[EB/OL].? http://www.guoxue.com/?p=14527. [4] 姜春钰. 论古籍数字化对古籍文献 “藏用矛盾”的影响[J]. 内蒙古科技与经济,2017(11):145-146. [5] 陈阳. 中文古籍数字化的成果与存在问题[EB/OL]. http://blog.sina.com.cn/s/blog_8f298e570101igsn.html. [6] 王春贺. 个性化推荐技术研究及其在数字图书馆中应用[D]. 杭州:浙江大学,2007. [7] 郭伟玲,戴艳清. 论古籍数字化的检索问题[J]. 图书馆理论与实践,2011(10):13-15. [8] 石光莲,郑伟伟. 中国古籍文献数字化研究综述[J]. 重庆图情研究,2014(3):49-51. [9] 刘冬雪. 古籍数字化信息采集技术研究——以文物保护为视角[D]. 北京: 北京印刷学院 ,2017. [10] 肖丹卉. 基于内容的图像检索技术在外观设计专利检索系统中的应用[J]. 数字化用户,2017(5):12-14. [11] 陈仕先,尹丹. 基于内容的图像检索关键技术[J]. 内江科技,2011(4):103-104. [12] 章夏芬. 自适应书法字图像匹配和检索[J]. 浙江大学学报:工学版,2016(4):134-135. [13] 杨凡. 大数据框架下古籍数字化发展趋势研究[J]. 图书馆学刊,2017(9):74-76. [14] 魏芳. 古籍数字化技术发展的几点建议[J]. 丝绸之路,2012(22):101-102. [15] 郭静. 浅述古籍出版项目数字化标准和操作规范[J]. 古籍数字化推广,2018(11):17-21. [16] 石雷等. 基于轮廓拟合的新风格书法字合成[J]. 计算机应用与软件,2017(6):134-135. [17] 胡红. 古籍数字化的现状及建议[J]. 重庆图情研究,2014(3):57-60. [18] 刘明. 善本古籍数字化实践的意义和启示范[J]. 古籍整理出版情况简报,2017(2-3):47-49. [19] 曹天晓. 新技术下古籍数字化分类及意义探究[J]. 图书馆研究与工作,2017(9): 37-38. [20] 万晶晶. 浅论古籍数字化优点[J]. 青年文学家,2016(92):194. (责任编辑:江 艳) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。