网站首页  词典首页

请输入您要查询的论文:

 

标题 数字图书馆中图片图像资源库的建设及组织技术研究
范文 郭瑞芳
[摘要]在阐述了数字图书馆中图片图像信息保存的重要性后,重点就如何建设图片图像资源库以及相应的技术难点进行了分析和研究,通过分析研究给出了建设图片图像资源库的相关步骤和规程,实践表明该研究对目前数字图书馆的建设有着积极的指导作用。
〔关键词〕数字图书馆;图片图像;数据库建设;组织技术
DOI:10.3969/j.issn.1008-0821.2011.03.020
〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2011)03-0083-03
Research on the Construction and Organization Technology of Pictures and Images in the Digital LibraryGuo Ruifang
(Library,Zhaoqing University,Zhaoqing 526061,China)
〔Abstract〕It is very important to keep the pictures and images in the digital library.This thesis analyzed how to built the pictures and images resource bank,and pointed out the procedure and rules.This has the positive function to the construction of the digital library.
〔Keywords〕digital library;pictures and images;resource bank;organization technology
计算机技术和网络通信技术的飞速发展,因特网的广泛应用,使图书馆的功能模式发生根本性的改变。数字图书馆的成功运用使图书馆信息实现数字化管理,并提供优质的上网服务,Internet用户可随时随地查阅所需资料,同时数字图书馆的功能在不断的丰富和完善。与传统图书馆有所不同的是,实现了从以书本纸张式载体保存信息转变为以磁盘、光介质等形式来存储信息资料,从而实现最大程度的信息共享。其实对于数字图书馆来说首先是一个数字信息资源库,它可以具有丰富的内涵及延伸,其资源可以包括文字、声音、图片图像等多种媒体形式。相比文字信息等,图片图像作为一种信息载体以其鲜明、生动、形象、明确、清晰、真实细腻的特点展现给我们直观的信息,它具有其他任何载体文献不可比拟的显著特点[1]。在纯文字时代,学者们描述一件事物,常常是费尽心机,极尽文字之能,却往往是数千字甚至几万字也未必能将它的外部特征与内在联系详尽无遗地描述清楚[2];特别是对那些需要科学、客观地记述的事物,不能用文学语言描述,文字的贫乏无力则于此暴露无遗;而图片,特别是一组附有文字说明的专题图片,以其特有的镜头语言,向人们传递最直观的视觉信息;一组专题图片提供的全部信息,往往超过文字所能表达的信息含量。在因特网上,有许多免费图片的资料和资源,但是真正含有学术资料的图片并不多,显然这与人们对该类资源的重视程度以及实现技术难度有关。如何组织这类资源,并实现其真正的价值,发挥其更大的潜在价值,在过去的10多年中学者对该方面做了一些探索性的研究,但其这方面的研究力度尚显不足,与日益增长的需求明显滞后。
传统的图书馆大部分是以藏书的数量、种类的多少等指标来衡量一个图书馆的规模及影响,伴随着数字化时代的到来其评价指标又进一步得到了提升。通过研究我们发现图片图像作为一种信息资源其潜在价值越来越高,对该类资源的收集也越来越受到重视,作为信息资源共享的主要平台数字图书馆其收藏图片图像这类资源的价值就更高。在传统的图书馆中图片图像这类信息只是作为很小的一部分来进行保存的,没有进行有价值的大规模开发,我们认为随着数字图书馆的日益普及其作用会得到进一步的提升,因此在图书馆中专门设立图片图像数据库就成为可能。目前人们越来越多地接触到大量图片图像信息,伴随图像数据库技术的日益成熟其运用也会更加丰富,对数字图书馆中如何来保存、检索图像信息也就成为其建设中要研究的一个方面。对于这方面的研究热点主要集中在以下几个方面:
(1)图片图像元数据格式;
(2)检索技术;
(3)图片图像压缩算法;
(4)图片图像资源库建设。
目前,从国内可以查阅的一些文献来看研究主要集中在一些实例的运用上,对进一步研究具有一定的借鉴意义,本文就是在这些学者的研究基础之上针对图片图像数据库的组织、建设、管理应用等方面做一些探索性的研究。
1 数字图书馆下图片图像资源库的建设难点及共享技术研究在数字图书馆建设方面首先要进行信息的归类,通常我们可以将文献资料信息可以划分为两大类:一类是能够用数据或统一的结构加以表示的信息类型,如数字、符号等,我们称之为结构化数据;而另一类是无法用数字或统一的结构来表示的信息类型,如图片、图像、声音等,我们称之为非结构化数据。图像数据库兴起于上个世纪80年代初期,来源于图像解释、分析和模式识别领域。图像数据库所包含的信息有图标型数据(图像本身)、图像相关数据(分辨率、格式描述)、从图像中提取的信息(数值、结构特征)以及其它程序型数据等。图像数据库经历了从简单到复杂、从图像解释到基于内容检索的发展过程,是一种较为成熟的数据库之一。对于图书馆建设中有关该类资源的建设还属于探索阶段,因此以下就在数字图书馆建设中有关图片图像资源库建设所涉及的一些主要内容和难点将分别进行研究和探讨。
1.1 图片图像库的建设难点研究
1.1.1 图片图像的收集与整理
图片图像资源库属于特色库,其建设属于特色资源建设,特别是对于地方图书馆来说具有创新意义。收集和整理图片图像文献无疑是建立图片数据库的前提,离开了良好的文献收集整理工作,就不能建成颇具特色的图片数据库。建立这一特色文献资源,需要有前瞻意识,要有人员、经费的支持,对于具体主持图片库建设的馆员来说,除具备传统图书馆专业知识外,还应懂得摄影与电脑处理技术等。由此可见建立这样一个特色资源库需要高素质的复合型人才,同时还需要各方面的配合,其难度较大。因此,对于该类资源的收集及整理要作为一项系统工程来进行规划和建设。
1.1.2 图片图像的存储问题
图片图像的存储涉及到图像格式的选择,图像格式是指我们利用计算机以数字方式存储图像的方法, 不同的图形格式意味着不同的编码方法。对于图片的存储有多种形式可供选择;在实际工作中,图片图像大多是通过扫描仪扫描后进行存放的。通常扫描软件提供多种格式,因此在图片存储时,可以采用灵活的存放标准,比较常用的格式可以分为两种类型,一种是采用统一的压缩形式存放,另一种是保留非压缩存储形式。
数字图像是数字信息资源的重要组成部分,它不同于一般文献资源,其内容特征涉及非文字性的图形、色彩、色调、纹理、内容对象、物理制作要素等信息。对这类资源进行组织、收藏和检索时,更需要一个规范和全面的描述格式。目前,在不同领域和不同应用项目中,存在多种对数字图像进行描述的元数据格式,由于本文涉及的只是资源库的建设问题,因此本文对这些内容就不再介绍和比较。
1.1.3 图片图像数据库的建设问题
对于资源库来说图片图像最终都将以文件的形式进行保存,在确定了存储格式后在建设资源库时就要涉及到文件的命名以及数据库的建设问题。一般来说图片的命名包括存放图片的文件夹的命名和图片本身的命名两部分。对于这两个部分的命名既具有惟一性,又避免了名称重复出现,同时又具有一定的规律性。而数据库的建设涉及到数据库软件的选择、规模的大小、成本以及访问共享的数量问题,这方面的技术比较成熟,可以参阅其它的文献及资料,这里不再展开讨论。
1.2 共享与图像检索技术研究
如何在浩如烟海的图像数据库中检索到所需的图像数据成为近年来人们关注的领域,对图像检索展开的研究也取得了很大的进展,图像检索发展到现在经历了两个阶段:基于文本的检索和基于内容的检索。在图书馆大部分的传统数据库中,图片图像数据库检索采用基于关键词或描述性文本的检索方式,如图像作者、标题、创作时间等,查询时需要指明文本特征,要求用户对文本特征的描述具有一定的规范性和正确性。然而不同用户对同一幅图像的内容可能有不同的抽象,事实上在现实生活中,人们使用信息的方法很多情况是靠直觉的印象,而且图像的视觉特征难以用关键词描述,所以这种方法往往不能达到满意的效果。因此,国外许多机构为了提高检索图像的有效性,开始研究基于内容的图像检索方法,并有以IBM的QBIC为代表的成功产品。
文本的图像检索存在着两大困难,尤其是当图像的数量非常大的时候,其一是手工对图像进行注解所需的工作量太大,其二是图像注解的主观性和不精确性可能导致检索过程失败[3]。为了克服这些弊端,研究者们提出了基于内容的图像检索,即通过分析图像的内容,如颜色、纹理、形状等,建立特征索引,并存储在特征库中。用户在检索查询时,只需把自己对图像的模糊印象描述出来,就可以在大容量图像库中找到所需的图像。总之,基于内容的图像检索技术融合了图像理解技术,从而可以提供更加有效的检索途径[4]。采用该方法,用户不需要对检索的媒体对象进行精确描述,比较适合实际应用;具有很强的交互性,用户可以参与检索过程;引入了特征库和知识辅助的概念,即便于保存描述图像内容的特征,又有利于查询优化。
2 图片图像数据库的建设相关标准工作规程研究
通常在设计图像数据库时,需要包括以下几方面内容:首先是进行图像的扫描及预处理,即格式的转换、统一尺寸、图像增强与去杂,为图像提取做准备;其次,进行图像的特征提取,例如图像的形状与颜色特征、图像的纹理特征等;接下来,由数字化图像信息构成的图像库、图像经特征提取后构成的特征库、由文本信息构成的知识库三方面组成数据库系统。本着打造精品的指导思想,在数据库的建设过程中,我们通常可以将图像数字化的过程分为3个阶段,即图像扫描、图像处理、图像文件的发布[5],这是一项系统工程,每个阶段都要明确任务。
图像数字化的第一阶段,是图像扫描。图像扫描的质量如何,直接影响到后期的制作。在实际工作中可采用较新的图像扫描仪,并针对扫描的图像不同,参照相关的数字化资源建设标准,进行了反复的试验、比较,确定较为合理的、可操作的技术指标。同时扫描指标的设置,尽可能满足今后的多种不同数字产品输出需要,避免重复建设。第二阶段是图像处理。为此,必须进行专题研究,如:图像画面的选取、图像发布的格式、水印的嵌入、图像文件压缩与优化、图像文件传输与存贮、数字资源长期保存、图像的数字版权等方面,进行了反复的测试、比较,从而选取最佳的技术指标。第三阶段是图像文件的发布。这一阶段的主要任务是:图文比对,力求图文并茂,根据浏览效果,对图像进一步调整。
从以上的研究可以得出,在实际的建设过程中,我们首先要制定数据库建设相关标准和规范,其中主要包括图像扫描规范、图像文件处理规则、文献标引规则、文献分类词表、数据入库规则。
当然,最终用户检索时的数据库界面也是必不可少的。用户在查找一个图像时,通过示例或特定的查询语言形成一个检索提问,计算机将查询特征与特征库中的特征按照一定的匹配算法进行相似性匹配,在这之后会输出满足一定相似性条件的一组候选结果,并按相似度大小排列后返回用户。
通过对国内相关图像数字资源建设标准和部分图书馆的图像数据库建设状况的系统调研,我们对图像数据建设的思路、技术平台、图像数据库文献收录的范围、数字资源的制作标准、发布与存贮管理等一系列问题进行了分析和研究,发现由南京图书馆建设的《中国近代文献图像数据库》建设具有良好的借鉴作用,他们成功运用科技部科技基础条件平台工作重大项目《中国数字图书馆标准规范建设》所明确的数字图书馆数字加工标准和规范,采用国内成熟的商用软件,建设一个立足馆藏特色,具有自主版权、鲜明时代特色,集史料性、学术性和观赏性为一体的综合性中国近代文献图像数据库。有关这方面的研究可以参阅文献。
3 结 语
图片图像作为一种重要的信息载体,具有形象直观、内容丰富等特点,是表达信息的一种重要方式,但图像在使信息的表达更加准确和丰富的同时,一直面临着如何对图像进行有效的管理,使用能迅速准确地得到自己所要的图像的问题。通过以上的研究我们发现,作为数字图书馆中不可缺少的资源类型,特别是针对教、学和科研工作读者而设计的图片图像数据库资源,具有一定的借鉴作用。本文结合了当前我国数字图书馆建设中图片图像数据库建库研究与实践,探讨该类资源建设的难点,给出了实际建设中的操作规程。以目前的检索技术要解决基于图像内容的查准率和查全率尚有很长的路要走,本文只是对这类资源建设中的一些问题进行了分析和探讨,对于实际的应用具有重要指导意义。
参考文献
[1]朱晓燕,白建明.图书馆特色文献图片库建设[J].图书馆建设,2002,(5):44-46.
[2]许延长.中小型图书馆特色文献图片库建设[J].图书馆建设,2001,(3):33-35.
[3]吕娜,孙扬民,黄国丰.对图像检索应用概况的研究[J].情报科学,2002,(3):324-329.
[4]肖明,王永红,石勇.基于内容的图像检索研究进展[J].情报杂志,2007,(1):43-45.
[5]何惠芬.数字图书馆中基于内容的图像数据库检索技术[J].情报杂志,2002,(7): 33-36.
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/6 10:10:58