标题 | 一种面向大建筑物的移动视觉定位算法 |
范文 | 徐田帅 房胜 刘天池 摘 要:针对目前智能手机难以拍摄大建筑物全貌以及基于移动视觉检索的户外定位系统匹配大建筑物失准的问题,提出一种面向大建筑物的移动视觉定位算法。基于尺度不变特征变换理论,该算法通过提取建筑物不同角度的特征建立一种建筑物多视角特征模型,并基于该模型建立建筑物特征库,同时通过在特征库中匹配用户提交的不同角度建筑物照片的特征点实现定位。实验结果表明,与基于GPS定位的算法相比,该算法能够通过建筑物图像匹配精确的进行定位,解决了GPS在高楼林立的市区定位不准的问题;并且该算法通过保留建筑物特征的空间位置信息,能较好地过滤错误匹配,与基于BOF(bag of feature)算法的移动视觉定位算法相比,提高了匹配精确度,具有较强的实用价值。 关键词:定位系统;大建筑物;多视角特征模型;移动视觉搜索;尺度不变特征变换 DOIDOI:10.11907/rjdk.151238 中图分类号:TP312 文献标识码:A 文章编号:1672-7800(2015)007-0071-05 0 引言 随着带有GPS功能的智能手机的普及和互联网技术的进步,基于位置的服务(location-based services, LBS)得到了较快发展。然而,作为LBS最重要的信息,位置信息主要通过卫星导航的方式获得,在市区由于高楼林立引起的多路径效应问题,卫星导航获取的位置信息通常偏差较大[1]。针对这一问题,G Schroth与R Huitl等[1-3]从视觉匹配的角度出发,研究了基于移动视觉检索的定位方式。近年来,谷歌、亚马逊等公司都开始在移动视觉搜索上进行探索,并取得了一些成果。谷歌在安卓平台开发了Goggles[4],用于查询商标、图书、艺术品等。亚马逊在IOS平台上开发了Snaptell[5],用来识别图书、DVD和游戏封面。oMoby在IOS平台上开发了oMoby,用来识别普通物体。以上系统在商标、图书等小图案上检索效果较好[6],但是并不能很好地检索跨越整幅图片的户外建筑物图片。户外建筑物的检索面临诸多挑战:①建筑物的描述因为遮挡和覆盖变得复杂;②查询图像与数据库图像的光照情况不同,产生的倒影与反射也不同;③查询图像与数据库图像中都存在汽车、行人等改变成像内容的动态物体;④手机拍照造成的抖动模糊也会对匹配查询造成影响[1]。 G Schroth基于移动视觉定位系统的研究使用谷歌球形全景图作为数据库图像,同时为了实现普通照片与球形全景图的匹配,采用了基于BOF(bag of feature)[7]算法的图像检索匹配方法。该算法通过K-means算法将高维特征描述子聚类量化为视觉词汇,将图片检索再表示为文本检索。但是由于BOF算法将原始特征量化为视觉词汇,忽略了特征点的原始信息与空间联系[1,7-8],使得查准率不能保持在较高水平。而且球形全景图存在宽基线效应,改变了原图像的三维视图、尺度、灰度等信息。同时球形全景图缺乏针对性,道路与树木占据了图片的大部分。 针对以上问题,本文在保证检索效率的前提下,设计了一种面向大建筑物的移动视觉定位算法。该算法使用普通建筑物图像作为数据库图像,避免了球形全景图存在的宽基线效应以及缺乏针对性的问题;并且通过提取建筑物不同角度特征建立建筑物多角度特征模型,并基于该模型建立建筑物特征库。最后通过在特征库中匹配用户提交的不同角度的建筑物照片的特征点实现定位。在建筑物多角度特征模型中,该算法保留了建筑物的特征信息与位置信息,在特征匹配中通过RANSAC[9]算法进一步保证了准确度。 1 移动视觉定位相关技术 1.1 移动视觉定位基本架构 移动视觉定位系统与移动视觉搜索系统的基本结构大致相同,即用一幅或几幅图像查询数据库,然后得到匹配检索结果[8]。目前,移动视觉检索基本架构主要有3种模式[10-11]。 模式1:用户通过手机客户端拍摄建筑物图像,经过部分预处理后将照片上传到服务器,服务器进行特征提取、图像匹配,将得到的检索结果返回到手机客户端。 模式2:用户通过手机客户端拍摄建筑物图像,并在手机端进行特征提取,然后将提取的特征上传至服务器进行特征匹配,最后服务器将匹配结果返回到手机客户端,并显示在手机屏幕上。 模式3:用户通过客户端拍摄建筑物图像,并在手机端进行特征提取与特征匹配。 模式1主要针对运算能力较差,无法在手机端运行特征提取算法的手机。模式2主要针对运算能力较好的手机,可以在手机端提取特征,减小上传的数据量,减轻服务器运算压力。模式3减少了网络传输环节,能较明显地节省时间,但对运算性能要求最高[12]。 在手机端对图像提取特征计算量很大,不仅考验手机的运算能力,在电量方面也会增加消耗,而且运算时间如果过长也会影响用户体验。因此,该算法在结构上选择模式1,即从手机端上传图像到服务器并从服务器端进行特征提取和图像匹配,再将匹配结果排序返回手机端。 图1 移动视觉定位系统基本结构 1.2 图像特征提取与描述方法 本文采用SIFT(scale-invariant feature transform)[13]算法作为图像的特征提取与描述算法。SIFT算法不仅对旋转、尺度、亮度变化保持不变性,而且对视角变化、仿射变换、噪声也保持一定的稳定性。SIFT算法分为特征点检测与描述两个部分。(1)特征点检测。首先构建尺度空间,采用唯一线性的高斯卷积核与原图像I(x,y)进行卷积。 L(x,y,σ)=G(x,y,σ)*I(x,y)(1) 将相邻高斯尺度空间的图像相减得到高斯差分图像,并建立高斯差分金字塔。 D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)(2) G(x,y,σ)=12πσ2e-(x2+y2)/2σ2(3) 其中,(x,y)为空间坐标,σ为尺度,k为乘积因子。通过对每个采样点比较其图像域和尺度域中的相邻点来确定极值点的位置,并去除低对比度的极值点和不稳定的边缘响应点得到最终特征点。(2)描述子生成。首先计算特征点领域像素的梯度方向得到该特征点的主方向。将坐标轴旋转到特征点主方向,然后以特征点为中心取16×16的邻域作为采样窗口,将采样点与特征点的相对方向通过高斯加权后归入包含8个bin的方向直方图,最后获得4×4×8的128维特征描述子。在特征匹配时,SIFT算法选择欧式距离作为128维SIFT算子的距离函数。设检索图像A的特征集合为Fa = \{ f(a)1 ,f(a)2 ,...f(a)Na \} ,特征数据库中的一个特征集合为Fb = \{ f(b)1 ,f(b)2 ,...f(b)Nb \} ,其中Na、Nb为对应的特征点个数。特征向量的欧氏距离可用式(4)表示: d(fa,fb)=∑128i=1(fia-fib)2(4) 根据式(4)计算Fa中每个特征向量与Fb中每个特征向量的距离,得到Fb与Fa中每个向量最近的两个距离d1、d2。将最近距离d1与次近距离d2的比值与阈值进行比较来确定是否为正确匹配的特征点对。 2 多角度特征模型与匹配算法 2.1 多角度特征模型 该定位算法的应用场景是在道路上随拍随查,拍摄角度要求不高。手机镜头由于其自身局限性,并不能拍摄建筑物的全貌。并且,对于同一建筑物,拍摄地点不同,也会造成视角的改变,建筑物的成像内容也会发生改变。这种视角的大范围变换并不能通过SIFT算法解决。为了解决该问题,本文提出了一种多角度特征表示建筑物的方法,通过提取建筑物不同角度特征建立建筑物多角度特征模型,并基于该模型建立建筑物特征库。其中,建筑物多角度特征模型是对建筑物的整体描述,定义如下:定义1:建筑物多角度特征模型由建筑物人文信息与建筑物特征点描述向量与空间坐标集合构成,可以描述为: MN=I∪UN(5) 其中,N表示图像库中该建筑物图像的数量,I为建筑物位置、功能、历史等人文信息的集合,UN为建筑物特征与空间坐标结合。 ui=Fi∪Ki(6) UN={u1,u2,...,uN}(7) Fi为建筑物第i幅图像的特征向量集合,Ki为建筑物第i幅图像特征向量对应的空间坐标集合。ui为建筑物第i幅图像特征向量与空间坐标的集合。如式(7)所示,UN是由以图像为单位的ui组成的集合。该算法在特征匹配时采用如下匹配方式,即以最近距离与次近距离比作为特征点匹配的标准。若单独将特征向量集合作为建筑物的描述信息,在特征匹配时由于特征点分布于多幅不同角度的图像中,符合最近距离的特征点与次近距离的特征点常位于不同的图像上,容易造成匹配失败。因此在模型M中,特征的集合以图像为单位进行存储与匹配,之后再通过对应的位置信息,使用RANSAC算法对错误匹配的特征点进行过滤。 2.2 多角度特征模型指纹库 特征库主要用来存储建筑物特征。与G Schroth使用视觉词汇作为移动视觉定位系统特征库不同的是,本文使用更有针对性的建筑物多角度特征模型建立特征库。具体流程如图2所示。 图2 多角度特征模型指纹库流程 (1)环绕建筑物,每隔N米拍摄不同角度的建筑物原始图像,建立原始图像库P(p1,p2,p3…,pn),本文N取15。对于较大较长的建筑物,可以将建筑物分块处理,分别采集每块建筑物不同位置不同视角的图片。 (2)对P(p1,p2,p3…,pn)中的图像进行预处理,得到新的图像集P'(p'1,p'2,p'3…,p'n)。由于拍摄的图片中存在树木、草地、道路、汽车等噪声,需要进行预处理去掉这些噪声。校内建筑物的主题颜色均为红色与白色,可以通过颜色特征过滤掉草地与树木枝叶。建筑物在空间分布上一般位于照片上半部分,道路与汽车位于照片下半部分,可以通过空间区域划分去掉底部的无关内容。 (3)对图像集P'中的图片进行相互匹配。 (4)以正确匹配特征点的数量评价匹配的优劣,将正确匹配特征点数超过阈值T的图片记录为正确匹配的特征信息,构建多角度特征模型MN。 (5)将建筑物多角度特征模型MN写入指纹库。 实验发现,对于同一建筑物,由于拍摄方向、角度不同,图像在内容上差别较大。例如,一号教学楼东西长250m,整体具有一定弧度,具有中间凸两边凹的特点。如图3所示。 图3 一号楼不同角度照片 图3为一号楼4幅不同角度的照片。可以看出,由于镜头的限制,一幅图片很难涵盖整座建筑物,而且由于拍摄地点、角度等不同,几幅图片差别较大。若只采用一幅特定角度的照片表示一号教学楼,则当检索图像角度差别较大时,匹配就会失败。例如,实验中发现图3 (a)和图3(b)正确匹配的特征点为0。因此,为了获得整栋建筑物各角度的特征同时考虑到特征数据库的大小,本文采取每隔15m采集一次建筑物图像的方法。如图4所示。 图4 建筑物连续角度照片 图4(a)—(e)是在不同地点拍摄的连续6幅一号教学楼照片。其中,(a)(b)、 (a)(c)、(a)(d)、(a)(e)、(a)(f)之间的距离渐次增大。实验发现,图4 (a)与图4(b)、图4(c)匹配特征点数量均大于100,与(d)匹配数量低于100,与(e)、(f)匹配失败。可以看出,当拍摄地点距离较远,引起视角变化较大时匹配基本不成功,因此只需要相互匹配邻近的四五个图像采集点的不同视角的图像即可。最后筛选匹配特征点数量较多的图片对,得到稳定的特征点。 2.3 在线特征匹配 由于照片拍摄环境复杂,为了得到准确的特征匹配,本文在匹配过程采用了RANSAC[9]算法过滤错误匹配。特征匹配具体步骤如下: (1)获取用户上传的图像IQ并提取其特征FQ(f1,f2...fn)。 (2)依次读取特征库中的特征文件J(J=1,2,3…N)中的特征FD与FQ进行特征匹配,其中N为特征文件的个数。 (3)利用RANSAC算法过滤错误匹配。通过建筑物特征文件中保留的匹配特征点位置信息求得单应性矩阵H。设PD(x1,y1),PQ(x2,y2)分别为数据库与检索图片中一对匹配的特征点。PD(x1,y1)经过矩阵H变换后得到PD′(x1 ′,y1′)。若PD′(x1 ′,y1′)与PQ(x2,y2)的欧式距离小于阈值,则认为PD(x1,y1),PQ(x2,y2)是一对正确匹配。 (4)累计每个特征文件J(J=1,2,3…N)中与IQ特征成功匹配的特征点的数量Num。 (5)将建筑物特征点匹配数量Num与阈值Tn进行比较,若大于阈值Tn,则该建筑物为候选匹配建筑物。 (6)返回匹配特征点数量最多的候选建筑物信息。 具体匹配流程如图5所示。 本文以特征点匹配数量作为图片匹配标准,其中阈值Tn的设定决定了算法的准确度。本文取不同建筑物不同角度照片与指纹库中的特征文件进行特征匹配。表1和表2描述了指纹库中部分建筑物与自身图片及其它建筑物图片匹配的结果。 可以看出,指纹库中建筑物的测试照片与指纹库进行匹配时,匹配特征点个数均大于20,而指纹库以外建筑物的照片与指纹库进行特征匹配时匹配数量普遍较少,且最高匹配数量均小于10,具有良好的区分性。因此本文将阈值Tn设为20,同时采用匹配特征点数量排序来保证匹配的准确性。 3 实验结果与分析 本文实验采用浪潮英信NF280D作为服务器,其配置为2.67GHz CPU,8GB内存;手机端采用华为honor3C智能手机、三星SM-G3812、红米手机等5部不同品牌型号的手机,其配置均为1GB内存;无线网络采用传输速度为54Mbps的WiFi。 算法采用第一种架构模式,特征提取、匹配运算都集中在服务器端,性能评估也主要集中在服务器端,数据传输效率与匹配准确度是需要重点解决的问题。为了评估服务器端识别算法的性能,本文使用随机拍摄的校内建筑照片进行精确度测试。测试系统数据库中存储15座建筑物的特征信息。 图6 测试数据集图片 如图6所示,校内每座建筑选择随机拍摄的20幅不同角度、不同时间、不同天气、不同光照情况下的照片共300幅,再选择数据库外建筑照片100幅对系统的精确度进行测试。 表3记录了15座建筑物的匹配结果,分别用查全率与查准率对匹配结果进行评估。测试结果查全率在0.75~1之间,查准率在0.94~1之间,而G Schroth基于BOF算法的定位算法的查准率最大值为0.7[1],可以看出本算法在查准率上有了较大提高,这主要是因为在每一次进行特征匹配后都会通过RANSAC算法进行一次几何一致性校验,来降低误识别率。查询图像与建筑物数据库中的所有图像匹配完成后,算法将每座建筑所有匹配的特征点累加,再对特征点数量排序,选择匹配特点数量最多的建筑作为最后结果,进一步保证了查准率。 图7是一号教学楼两幅不同角度的测试图像,(a)为一号楼中部正面照片,(b)为一号楼西部正面照片。图中黑色的点是图像与特征库实现匹配的特征点。若采用单一角度的特征作为建筑物的特征库,特征匹配过程中只能匹配图7(a)、图7(b)中的一幅图像。而采用多角度特征描述模型能够保留建筑物不同角度的特征,在匹配过程中系统针对不同角度的上传图像匹配不同角度下的特征点(图7(a)和图7(b)中黑色的点),实现图像匹配。 图7 同一建筑不同角度照片匹配结果 图8是一号楼匹配失败图像。可以看出,图片中树木遮挡严重,建筑物比例较低。匹配的特征点本身较少,经过几何一致性校验后低于成功匹配的阈值。针对这种遮挡严重的情况,在后续工作中可以通过对图像分块的方式,获取图像中受遮挡干扰较小的部分实现匹配。 图8 一号楼匹配失败图片 通过对实验结果进行综合分析可知,基于建筑物多角度特征模型的特征库通过存储建筑物不同角度的稳定的特征信息,能较好解决视角变化造成的图像不匹配问题。同时特征点的空间位置信息在过滤错误匹配和提高图像搜索匹配查准率上具有重要作用。该算法查准率均大于90%,与基于BOF算法的移动视觉定位系统相比,精度有较大提高。实验结果证明了该算法的可行性与优越性。 4 结语 本文提出了一种面向大建筑物的移动视觉定位算法,通过提取建筑物不同角度的特征建立建筑物多角度特征模型描述建筑物,并基于该模型建立建筑物特征库,最后通过在特征库中匹配用户提交的不同角度建筑物照片的特征点实现定位。该算法让用户可以通过拍摄周围的建筑物即时定位,解决了GPS在高楼林立的市区定位不准,只能定位地图中相应坐标,不能获取相应位置的人文资讯的问题;同时,相比基于BOF算法的移动视觉定位系统, 提高了匹配的精度。 如何提高算法匹配效率,并研究能够在手机端运行的特征提取算法,减轻服务器压力,提高算法实时性,都有待进一步研究。 参考文献: [1] G SCHROTH,R HUITL,D CHEN.Mobile visual location recognition[J].IEEE Signal Processing Magazine, 2011, 28(4): 77-91. [2] G SCHROTH,A AL-NUAIMI,R HUITL.International rapid image retrieval for mobile location recognition[C].Acoustics, Speech and Signal Processing (ICASSP), 2011: 2320–2323. [3] R HUITL,G SCHROTH,S HILSENBECK.TUMindoor: an extensive image and point cloud dataset for visual indoor localization and mapping[C].IEEE International Conference on Image Processing (ICIP 2012), 2012: 1773–1776. [4] GOOGLE.Google goggles [EB/OL].http: // www. google.com/mobile/goggles/,2009. [5] AMAZON.SnapTell[EB/OL].http://www.snaptell.com,2007. [6] XU LIU,JONATHAN HULL,JAMEY GRAHAM,et al. Mobile visual search, linking printed documents to digital media [C]. In CVPR 2010 Demonstrations,2010. [7] J SIVIC,A ZISSERMAN.Video google: a text retrieval approach to object matching in videos[C]. IEEE Int. Conf. Computer Vision,2003: 1470-1477. [8] B GIROD,V CHANDRASEKHAR,D CHEN,et al. Mobile visual search [J].IEEE Signal Processing Magazine, 2011, 28(4): 61-76. [9] FISCHLER M A,BOLLES R C.Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography [J].Communications of the ACM,1981, 24(6): 381-395. [10] ZHUANG XINGWANG,HUANG XIAOBIN.An overview of mobile visual search abroad[J].Journal of Library Science in China,2014: 114-128. [11] LING-YU DUAN,FENG GAO,JIE CHEN,et al.Compact descriptors of mobile visual search and MPEG CDVS standardization[C].International Symposium on Circuits and Systems (ISCAS),2013:885-888. [12] 段凌宇,黄铁军,高文.移动视觉搜索技术研究与标准化进展[J].信息通信技术,2012(6):51-58. [13] D LOW.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision, 2004, 59(1): 91-110. (责任编辑:孙 娟) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。