基于兴趣点检测的视觉关键词提取新方法研究

陈晓宁 赵健 杨润丰
摘 要: 基于内容的图像检索的一个突出问题是提取整幅图像的全局特征,而用户通常只关注一幅图像中的局部区域。对于如今海量的数据库,提取图像的全局特征使得数据库的信息量变得非常大。这样,从巨大的图像特征库中查找匹配的图像特征时检索准确率将大大降低。針对用户感兴趣的局部区域,提出视觉关键词的概念。一幅图像用若干个视觉关键词替代,这样一幅图像的特征量将大大减小。视觉关键词是用户感兴趣的图像区域,这样使得检索更加具有针对性。实验结果表明检索准确率有明显提高。
关键词: 图像检索; 兴趣点; 感兴趣区域; 视觉关键词
中图分类号: TN911.73?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)21?0062?04
Study on visual keywords extraction new method based on points of interest detection
CHEN Xiaoning1, ZHAO Jian2, YANG Runfeng1
(1. Department of Electronic Engineering, Dongguan Polytechnic, Dongguan 523808, China;
2. School of Information Science and Technology, Northwest University, Xian 710069, China)
Abstract: The content?based image retrieval has a prominent problem of extracting the global feature of the whole image, however the users usually pay close attention to the local region in an image. For the massive database, the extraction of the image′s global feature makes the information quantity of the database increase greatly, which can reduce the retrieval accuracy while the matched image feature is searched in the enormous image feature database. Aiming at the local region of the users′ region of interest, the concept of visual keyword is put forward, with which an image is replaced by several visual keywords to reduce the characteristic quantity greatly. The visual keyword is regarded as the image region interested by users to make the retrieval more targeted. The experimental results show that the retrieval accuracy is improved significantly.
Keywords: image retrieval; points of interest; region of interest; visual keyword
0 引 言
人工标注是基于文本的图像检索技术的核心工作,人工标注必然存在很强的主观性且需要花费大量的人力,那么面对如今海量的数据库,使用传统的文本检索将不能满足用户的需求。因此,出现了基于内容的图像检索技术,其原理是先获得图像底层特征,进行特征匹配得到检索结果。面对如今海量的数据库,图像的底层信息量将非常巨大,那么,使用基于内容的检索技术在速度上已经不能很好地满足用户的需求。综合考虑两种不同的检索技术,得到启示,将图像通过对其局部内容的提取,形成视觉关键词,然后利用成熟的文本关键词检索技术实现对图像的检索。
1 感兴趣区域的特征提取
1.1 感兴趣区域的提取
基于内容的图像检索技术通常是对图像的全局特征进行分析计算。在多数情况下,用户并不关心整幅图像,而是只对自已感兴趣的局部区域关注,然而,图像的局部细节部分并不能通过图像的全局特征来很好的描述。因此,不用去考虑图像的全局特征而是仅对用户感兴趣的局部区域特征进行提取。
兴趣点通常是含有丰富图像内容且具有较高信息量的点,这些点是一幅图像中最有代表性的点。那么,由此可以得到兴趣点周围的局部小区域也一定具有较高的信息量,含有丰富的图像内容。因此,选择兴趣点周围局部作为感兴趣区域是非常合适的。它忽略了全局特征,信息量将大大减少,通过含有丰富信息量的感兴趣区域就能够很好地描述图像的局部内容。
1.1.1 兴趣点检测
兴趣点就是图像中具有较高信息量的那些点,这些点是一幅图像中最有代表性的点。一般来说,对于整幅图像的像素点而言,提取到的兴趣点数目是极少的,因此,相对提取整幅图像特征来说,使用兴趣点来描述一幅图像将会使得图像特征提取的复杂度大大缩减。
兴趣点周围局部小区域要尽可能完整地描述整幅图像特征,所以,这些兴趣点应该在不同视角或者不同的亮度等变化下都能检测到这些点,也就是说这些点应该具有可重复性。
兴趣点也称为角点(Conner point),它是能够用来表达图像的一个很重要的特征,因为兴趣点集中描述了图像上很多非常重要的形状信息。
Harris角点检测算法是一种改进的角点算法,目前来说是一种较好的方法。因此,本次研究中,对图像兴趣点的检查采用性能优越的Harris算子。
利用Harris算子提取图像兴趣点的一个难点在于对图像兴趣点数目的确定。兴趣点是图像中那些边缘突出的点,因此,一般来说,不同图像的边缘必然不同,也就是说不同图像提取的兴趣点数目也会不同。同时存在一些极端的情况,一幅图像中没有检查到那些边缘突出的点,即兴趣点数目为零。但是能够确定感兴趣区域的前提是必须有相应的兴趣点存在,所以,兴趣点的数目不允许为零。参考相关研究,并经过实验对比,得出每幅图像采取的兴趣点数目过多或者过少都不合适,取兴趣点的数目为50~80个是比较合适的。
1.1.2 感兴趣区域的确定
有了兴趣点,就可以基于兴趣点来确定感兴趣区域。感兴趣区域的选择方法有很多,感兴趣区域的选择品质直接影响到是否能够完美地描述图像特征。
经实验研究,最后对感兴趣区域的确定如下:
以得到的50~80个兴趣点为基础,应得到50~80块感兴趣区域,每一个感兴趣区域的确定是以该兴趣点为中心,根据经验值取兴趣点周围41×41像素块为一个感兴趣区域,实现对感兴趣区域的提取。
1.2 感兴趣区域内图像的特征提取
1.2.1 感兴趣区域内的颜色特征提取
本文采用HSV(hue,saturation,value) 颜色模型实现颜色特征的提取。
(1) 首先将图像的颜色空间由RGB转换为HSV颜色模型。将彩色信息表示为三种属性,即色调、饱和度和亮度。
(2) 对于一幅图像来说,它的颜色种类信息很多,也就是说颜色直方图矢量维数非常庞大。庞大的维数矢量将会使得计算变得非常复杂和低效。因此,为了提高计算效率,需要对HSV空间进行量化。研究证明这种方法对于彩色图像和灰度图像同样适用。
将量化后的最终结果用[T]表示,公式计算如下:
[T=0,v0.2,s<0.24H+2S+V+8,other] (1)
式中[?]表示不小于“[?]”的最小整数。最终在HSV空间中得到了36维颜色直方图。
基于式(1)计算将得到一系列[T]值,并对其进行归一化处理。最后,图像的感興趣区域的颜色特征将用这个归一化后的值来表达。
1.2.2 基于感兴趣区域的纹理特征提取方法
纹理特征是图像灰度等级在空间上分布的一种描述,它能够在一定程度上对图像中的空间信息进行定量描述。Gabor滤波器是其中一种已经被广泛应用的比较理想的滤波器,原因在于它能够最大程度地减小空间域和频域内的联合二维不确定性,最接近人对形状的视觉感受。因此本文采用Gabor小波变换实现对图像的纹理特征提取。
如果[I(x,y)]为给定的一幅图像,那么对图像的Gabor小波变换可以定义为:
[Wmn(x,y)=I(x1,y1)g(x,y)dx1dy1] (2)
式中[g(x,y)]表示Gabor小波的基函数,在式(2)的描述下,能够弥补颜色直方图不能描述对象位置的不足,其表明了对象所在的空间位置。
采用均值[μmn]和标准方差[σmn]对一幅图像进行纹理特征的描述,其中[μmn]和[σmn]的数学计算公式分别如下:
[μmn=Wmn(x,y)dxdy] (3)
[σmn=Wmn(x,y)-μmn2dxdy] (4)
利用Gabor滤波器得到的特征向量表示为:[g=μ00,σ00; μ01,σ01; …; μ35,σ35]。然而这样得到的特征向量中各个分量的物理意义和取值是不相同的,必须对其进行优化处理,在后续的应用中,对其进行了归一化处理。
2 视觉关键词的生成
2.1 提取特征向量
(1) 由上面颜色特征向量的提取方法得到一系列归一化后的[T]值,用来表达图像感兴趣区域的颜色特征。从而获得了在HSV空间下具有36维的颜色直方图。
(2) 经过对纹理特征的提取可以得到特征向量表示为:[g=μ00,σ00; μ01,σ01; …; μ35,σ35]。式中包含了两个物理意义和取值均不相同的分量,需要将其处理为具有一致性的分量。采用高斯归一化方法对这两个分量进行归一化处理,使得他们具有相同的权重。并且使用高斯归一化方法进行归一化处理后的值具有如下的特性:少数突出的元素对其将产生非常小的影响。基于以上原因,本文对特征向量归一化的处理采用高斯归一化方法。
经过高斯归一化处理后,[g]的取值就是[-1,1]区间的一个数值,不仅使得纹理特征变得非常简单,而且各个物理量有了相同的权值。因此,经过归一化后,得到了36维的纹理特征向量。
2.2 K均值聚类形成视觉关键词
利用72维(36维颜色特征向量和36维纹理特征向量)的特征向量来代表一个兴趣点的局部区域。然而,对于如今海量的数据库,尤其是当今规模庞大的高维向量来说,整个图像库的图像特征都被提取后,图像特征向量库将会无比巨大。因此,必须先对特征向量库进行优化处理。经试验对比,采用改进型K均值算法对特征向量进行聚类。因此,那些具有相似特征的向量经过聚类处理后被聚为一类,距离最近为其聚类原则。检索到的图像其每个描述子被归放到一个最近的聚类之中,这样就能在整个图像库中很快地生成对所有图像的匹配。
改进型K均值算法的描述如图1所示。
所以,这些具有相同特征的向量为一个聚类中心,将这个聚类中心称为一个视觉关键词。那么,视觉关键词实际上就是一个数字,代表这个聚类的中心。因此,一幅图像可看成由视觉关键词库中的若干关键词组成的“文本”关键词。因此,原本要描述的区域需要72维的特征向量,在通过聚类处理后,现在只需要用这个视觉关键词来表示即可。一幅图像实际上就可以用一系列的视觉关键词来表示。因此,使用视觉关键词将大大降低后面的计算复杂度,使后期图像的检索效率将会大幅提高。
3 研究结果及分析
3.1 视觉关键词效果
采用以上方法对图像库的特征向量聚类后,那些具有相同特征向量的图像区域归类为一个视觉关键词。因此,数据库中的所有图像将用一个个视觉关键词来代替。如图2所示的两个视觉关键词,是从本次实验的图像库中随机选取的,可以看出视觉关键词是图像的一个局部小区域,本文采用感兴趣区域内的图像特征,也就是本文所说的视觉关键词。视觉关键词是一幅图像内信息丰富的图像局部小区域,因此具有很好的鉴别力。从视觉关键词的提取过程可知,视觉关键词都是一些具有明显变化的区域。
同一个视觉关键词所包含的一幅图像的局部小区域是非常相似的,如图2所示为两个视觉关键词。
3.2 实验检索结果及分析
经过聚类后,利用关键词的匹配替代原来的相似度度量来实现图像之间的匹配,因此,可以借鉴传统文本成熟的技术对图像进行检索。
本文选择的研究对象是Corel图像库中的1 000幅图像。如图3所示,两个检索图例为本次实验的检索结果。
图3(a)和图3(b)是分别利用视觉关键词进行检索的结果图,每幅图的左上方是目标图像,紧接着的一系列图像为检索到的结果图像。从图3可以看出检索结果有这样的特性:越是靠前的图像和目标图像越是接近,从左往右,从上往下,图像的相似性逐渐减小。
实验对比了基于颜色的图像检索技术、基于颜色和纹理的图像检索技术,从最终的实验结果来看,对图像库中不同类别的图像,应用本文算法其平均检索准确率都有明显提高。利用平均检索准确率来衡量本系统的性能,对比基于全图颜色和纹理及基于兴趣点的图像检索两种方法,其结果如图4所示。
从图4得到的平均检索准确率图像可以看出,利用本系统的检索方法均优于另外两种算法。
4 结 论
本文以传统的基于文本的检索技术为依据,结合图像的内容特征的提取技术,提出基于视觉关键词的图像检索方法。详细介绍了视觉关键词的概念及生成。基于视觉关键词的图像检索方法具有很好的适应性和可扩展性,检索的准确性也有所提高。对于大容量、高维数据库来说具有很好的前瞻性和一定的应用价值。
参考文献
[1] 黄元元,刘宁钟.一种新的基于颜色特征的图像检索方法[J].小型微型计算机系统,2012,33(3):88?92.
[2] 杨学志,徐勇,方静,等.结合区域分割和双边滤波的图像去噪新算法[J].中国图象图形学报,2012,17(1):40?48.
[3] LIU Guanghai, YANG Jingyu. Content?based image retrieval using color difference histogram [J]. Pattern recognition, 2013, 46(1): 188?198.
[4] 毕国玲,赵建,续志军,等.基于角点和局部特征描述子的快速匹配算法[J].光电工程,2014(9):63?68.
[5] 侯刚.基于内容的图像检索中特征表示与检索策略研究[D].长春:吉林大学,2014.
[6] 杨世沛,陈杰,周莉,等.一种基于SIFT的图像特征匹配方法[J].电子测量技术,2014(6):50?53.
[7] 郭海凤,李广水,仇彬任.基于融合多特征的社会网上图像检索方法[J].计算机与现代化,2013(12):159?163.
[8] 孙亮.内容图像檢索的特征及策略分析[J].桂林航天工业学院学报,2016(2):159?162.
[9] WANG Feng, LIN Lanfen, TANG Min. A new sketch?based 3D model retrieval approach by using global and local features [J]. Graphical models, 2013, 76(3): 128?139.
[10] VERMA G K. A computer vision based framework for visual gun detection using Harris interest point detector [C]// Proceedings of the Eleventh International Conference on Communication Networks. Bangalore, India: Elsevier, 2015: 703?712.