标题 | 基于AKAZE算法的户外建筑场景识别 |
范文 | 石力 摘要:近些年来,图像识别技术发展迅速,识别精度越来越高,应用领域也越来越广。但是传统算法在大规模复杂场景的识别效率和准确度不高,尤其当场景中有大型建筑物时,由于建筑物复杂的结构以及户外环境如天气、光照、遮挡等因素,特征点多而杂,分布不均匀,难以获取正确的特征信息。文章应用了AKAZE算法来进行户外场景识别,并构建了基于词汇树的海量图像识别框架。实验证明,该识别框架在户外建筑场景中识别准确度和识别效率较高。 关键词:AKAZE;户外建筑场景识别;词汇树算法 1 AKAZE特征提取算法 传统的SIFT,SURF及ORB算法等都是牺牲了局部精度,使用线性高斯金字塔构建图像尺度空间来提取稳定的特征点,造成的精度损失会影响图像的鲁棒性。2012年,Alcantarilla等[1]提出了 KAZE算法,采用非线性尺度分解来提取特征。2013年9月,该作者提出了改进的AKAZE算法[2],该算法使用FED算法代替KAZE的AOS算法求解非线性扩散滤波,并且基于新的M-LDB描述符,相比KAZE算法计算速度有了很大提高。 1.1 非线性扩散滤波 基于线性高斯金字塔进行尺度分解会发生高斯模糊,高斯模糊在过滤图像噪声的同时过滤掉了边缘纹理信息,造成边界模糊和图像细节缺失。相较而言,非线性扩散滤波算法能够在过滤图像噪声的同时,保留相对重要的边界细节信息。而AKAZE算法就是通过非线性扩散滤波算法构建非线性尺度空间,保证了算法的准确性。 FED算法的核心思想是对n个显示扩散过程采用改变步长τj的方式进行M步的循环,求解扩散方程。如式(1): FED算法是将非线性扩散方程的数值迭代分成了若干循环进行计算,替代了每步的求逆运算。相较于AOS算法,提高了计算效率,同时使算法结果更加稳定。 1.2 构建非线性尺度空间 AKAZE算法构建的非线性尺度空间,所有共有O组,每组S层,其尺度层级按对数增长呈三角状,与SIFT和SURF算法构建的线性尺度空间类似。不同的是,AKAZE构造的尺度空间,每层图像的分辨率等同于原始图像。每层的尺度参数计算公式如式(3): 将σi转化为时间单位,以表示尺度参数,可得映射公式如式(4): FED算法将利用得到的进化时间、对比度参数以及时间步长构建非线性尺度空间。 1.3 特征点检测及描述 AKAZE算法在传统二值描述子的基础上,提出了改进的局部差分二值描述子,即M-LDB描述子。M-LDB把图像划分成n×n个网格单元,计算每个网格单元的一阶梯度和灰度,获取网格单元内部如边缘大小和方向等信息,然后进行二值化处理构建出二值描述向量。 AKAZE算法寻找各个尺度下Hessian局部极大值点来获取稳定的兴趣点。当前尺度下Li利用Hessian矩阵检测方法如式(5): LDB描述子需要通过中心像素点其邻域的灰度值来确定主方向,重新计算积分图像,这增加了计算复杂度和时间消耗。而M-LDB描述子不再计算网格内所有像素的平均值,而是以尺度σ进行采样,以部分点进行近似的二值描述,使描述子具有尺度变化的稳健性。同时将特征点检测过程中计算的方向导数用于描述阶段的计算,大大减少了计算量。 2 户外建筑场景识别 传统的暴力识别法是在线下提取训练集图像特征并存储,当进行实时识别时,首先获取真实场景的实时图像幀,在线提取特征,与训练集图像特征进行逐一匹配,选取匹配度最高的图像返回为识别结果。实时帧提取的特征需要与训练集所有特征进行匹配,耗时较长。本文选取AKAZE算法对训练集和实时帧进行特征提取,使用基于词汇树的图像检索技术[3]代替暴力图像特征匹配,构成适用于海量户外建筑场景识别模块的关键技术框架。 2.1 离线训练 2.1.1 词汇树构建 训练集中所有图像的特征向量构成特征向量集合F={fi},特征向量集合中每一个特征向量对应图像ID的集合为imageld={pi},表示特征向量fi属于ID为pi的图像。 继而对特征向量集合F进行分层聚类,本文采用K-Means聚类算法,设定分支因子A:,首先将原始特征集合进行第一层K-Means聚类,得到k个簇,每一个特征向量分别被划分到聚类最近的簇中,每一个簇是第一层的个节点,将该k个簇分别再进行K-Means聚类,可以得到k×k个新簇。按照上述规则,对每一个簇不断的进行K-Means聚类,直到树的深度达到预先规定的L层。每个新簇中特征向量个数小于时便不再进行聚类。此时整棵词汇树的节点总数为式(6): 2.1.2 图像向量 词频-逆文件频率(Termfre Quency-Inverse DocumentFrequency, TF-IDF)[4]是一种常用的加权计算方法,TF的基本思想是:若某词汇在一篇文档中出现频率高,同时在其他文档中出现频率较低,则能够较好地表征该篇文档的内容,同时具有很好的分类功能;逆文档频率(Inverse Document Frequency,IDF)思想主要是若某词汇在少数文档中出现,则表明该词汇有较好的分类能力。 词频(Term Frequency,TF)为给定词汇ti在文档dj中出现的频率,表示为式(7): 其中,ni,j是给定词汇在查询文档中出现的次数,分母为查询文档中所有词汇出现的频率之和,因此若给定词汇在查询文档中出现的次数越多,贝瞭示它在文档中的重要性就越高。 另一个重要的参数——IDF表示给定词汇ti在整个查询文档集中的重要程度,可表示为式(8): 利用词频向量表示文档,向量的不同分量代表词汇,分量数值为该词汇在文档中出现的频率,由于不同词汇在文档中权重不同,表现在向量中即权值词频向量。因此,对于给定的词汇ti,在当前查询文档dj中的权重可以量化。 2.2 在线识别 将带查询图像q和训练集中图像d用权值词频向量表示,则二者的相似度可以归一化表示为式(9): 假设参数服从高斯分布,为了防止模型迎合训练集而过于复杂造成过拟合的情况,提高模型的泛化能力,采用L-2范数简化为式(10): 式(10)将图像间的相似性度量转化为特征向量上对应维度上非零元素的累计求和,加快了计算速度。在词汇树中表现为比较两幅图像自上而下的相似程度。 最后对西安建筑科技大学南门的识别结果,训练集图像规模为300张,输入了30张对南门从不同角度、尺度、光照下拍摄的图像。其中一张测试图像的结果集返回了前4个匹配结果,当前图像匹配度从高到低分别为98.56%,95.88%,52.41%,51.71%,成功返回了匹配到的结果集,识别时间平均约为123.7 ms,成功识别到28张,成功率约为93.3%。 3 结语 本文介绍了AKAZE特征提取算法,提出使用AKAZE算法完成户外建筑场景识别中图像特征的提取和描述。并基于词汇树算法提出了适应于海量图像识别的算法技术框架,包括服务器端离线训练工作和在线图像识别方法。实验部分,利用该识别框架进行了户外建筑场景识别实验,取得了较为理想的实验效果。 [参考文献] [1]ALCANTARILLA P F, BARTOLIA, DAVISON A J.KAZE features[C].Berlin:European Conference on Computer Vision, 2012:214-227. [2]ALCANTARILLA P, NUEVO J, BARTOLI A.Fast explicit diffusion for accelerated features in nonlinear scale spaces[C].Bristol:British Machine Vision Conference, 2013. [3]佘曼桂.基于词汇树检索的智能手机图书感知系统[D].北京:北京邮电大学,2013. [4]赵小华.KNN文本分类中特征词权重算法的研究[D].太原:太原理工大学,2010. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。