基于场景语义的遥感图像目标识别
刘宁波++孙艳丽+王杰
摘 要: 高分辨率遥感图像的信息解译的通常思路是从特定类型目标的检测与识别分析入手,最终实现图像场景的认知理解。给出一种利用CSIFT特征的遥感图像视觉特征表示方法和基于PLSA的遥感图像场景语义识别方法,并利用10类典型遥感图像场景进行实验,充分验证了该方法的有效性。
关键词: 高分辨率遥感图像; 场景语义识别; 视觉特征表示; 概率潜在语义分析
中图分类号: TN751?34 文献标识码: A 文章编号: 1004?373X(2017)11?0043?03
Remote sensing image target recognition based on scene semanteme
LIU Ningbo1, SUN Yanli2, WANG Jie2
(1. Research Institute of Information Fusion, Naval Aeronautical and Astronautical University, Yantai 264001, China;
2. Department of Basic Experiment, Naval Aeronautical and Astronautical University, Yantai 264001, China)
Abstract: The typical thought of information interpretation for high?resolution remote sensing image proceeds from the detection and recognition analysis of the specific targets to understand the image scene. A remote sensing image visual feature representation method based on CSIFT feature and a remote sensing image scene semantic recognition method based on probabilistic latent semantic analysis (PLSA) are given. Effectiveness of the proposed methods was verified in the experiment with ten typical remote sensing image scenes.
Keywords: high?resolution remote sensing image; scene semantic recognition; visual feature representation; PLSA
0 引 言
高分辨率遙感图像的信息解译是近年来的研究热点,从特定类型目标的检测与识别分析入手,最终实现图像场景的认知理解[1]是广泛采用的研究范式,乃至形成一种思维定势,即只有完整地检测与识别场景中的各种目标才能进行场景的认知理解。然而,在军事侦察中经常需要从高分辨率遥感图像中快速识别出诸如港口、机场、油库等有明确语义的局部图像场景,这些局部场景往往对应一个复杂的目标群,由很多不同类型的刚性子目标按照一定的空间拓扑关系构成。如果采用常规的方法,首先检测复杂目标群的子目标,然后利用其空间拓扑关系进行推理以确定复杂目标群语义属性,其处理效率将是非常低的。而且对子目标的分析主要是利用其隐含的启发式特征在像素层进行,这种完全像素层的处理与图像的语义理解之间存在难以逾越的鸿沟[2]。建立一种能够快速识别遥感图像中复杂局部场景的语义认知方法,进而指导该场景中特定目标的检测与识别具有非常重要的意义。本文首先概述图像场景语义识别的有关概念与方法,然后给出遥感图像的视觉特征表示和基于PLSA的遥感图像场景语义识别方法,最后利用10类典型遥感图像场景进行实验验证。
1 图像场景语义识别的概念与方法
图像中层语义建模主要有以下三类方法:
(1) 构建语义对象法[3],通过检测或识别出图像中的语义对象来描述整幅场景。
(2) 文献[4]提出的场景Gist模型,该模型避开了对单个目标或区域的分割,利用一种低维的空域包络描述场景的结构,其中自然度、开放度、粗糙度、展开度和崎岖度这五种感官属性分别对应于空域包络空间中的一维,每一维均对应于场景中的某一个有意义的空间属性,作为场景语义划分的依据。
(3) 建立图像的局部语义概念[5],首先在图像中自动地检测出感兴趣点,并采用局部描述子描述这些点,随后建立局部描述子到某种局部语义概念的映射,再利用图像中局部语义概念的分布实现图像场景的识别。本文针对遥感图像的场景识别主要采取此方法。
2 遥感图像的视觉特征包表达
为了实现遥感图像场景的准确识别,无论采取低层特征建模法还是中层语义建模法,都必须从遥感图像中提取有鉴别力的特征。如区域特征、分块特征、局部不变特征等。由于不同的特征反映不同的类别信息,对特定的类别各有其优势,而在很多情形下,分析图像内容也需要结合不同的特征,所以集成多种特征对提高图像场景识别的性能是有益的。词袋模型(Bag of Words,BOW)[6]是文本处理领域最常使用的文本简化描述模型,该模型不考虑语法与词序,将文本表达成无序的单词组合。在文本分类应用中,BOW模型常和SVM分类器、朴素贝叶斯分类器结合,获得了非常好的分类效果。该模型应用于计算机视觉领域后被推广为特征包(Bag of Features, BOF)方法[5,7],其基本原理是通过矢量量化各种局部视觉特征,生成视觉词语或词汇表来描述图像或图像集。
对于一幅待识别遥感图像(或区域),采用与训练图像相同的方法提取其CSIFT特征[8],根据最近邻规则,确定各个CSIFT的视觉词汇类别,统计待分类遥感图像(或区域)中各视觉词汇出现的频率,即得到待识别遥感图像的视觉特征包表达。遥感图像的视觉特征包表达避开了场景中目标分割和检测的过程,将场景的识别问题转化为对视觉词汇分布的学习问题,从而为跨越图像低层特征表示与高层语义之间的“语义鸿沟”搭建了桥梁。
3 基于PLSA的图像场景语义识别
尽管视觉词汇的出现频率可以作为区分不同场景的一项重要依据,但是在复杂的遥感图像场景中,由于相同的目标实体可能出现在不同的场景类别中,由此导致视觉词汇与场景语义之间出现多义性和相似性问题。在训练样本不充分的情况下,采用将场景类别与提取的特征向量直接相关联的识别方式,无法逼近实际的场景语义,导致场景识别的准确性下降。本文的思路是将概率潜在语义分析(PLSA)模型[9]应用到典型的训练图像中,提取图像中的潜在语义,根据潜在语义的概率分布完成待识别图像的场景类型判断。
算法流程具体如下:
(1) 提取所有图像的特征。从每类训练图像集中随机选取部分图像,提取这些图像的CSIFT特征向量,用K?均值聚类算法生成个视觉词汇。把各视觉词汇与每一幅训练图像的特征向量进行相似性度量,得到维的“图像?词汇”共现频率矩阵其中表示视觉词汇在图像中出现的频率。
(2) 利用EM算法求得PLSA模型的近似最大似然解,获取图像中潜在语义出现时视觉词汇的分布规律。
(3) 提取测试图像的特征向量,分别与步骤(1)中得到的个视觉词汇进行相似性度量,得到测试图像的“图像?词汇”共现频率矩阵将和测试图像的共现频率矩阵作为PLSA模型的输入,保持不变,得到测试图像的潜在语义分布,构成测试图像的维语义向量。
(4) 对测试图像的潜在语义向量应用KNN分类器,完成图像的场景识别。
4 实验结果与分析
从Google Earth上截取来自10类不同场景的图像切片共计1 794幅,对图像分辨率和大小不做限定,场景类型是由切片中的主体目标确定的。从10类图像中分别随机选取50幅作为训练图像,其余作为测试图像。
为了验证本文算法的性能,首先分析采取不同特征提取方法对识别结果的影响,再进一步比较直接采用基于CSIFT特征的BOF表达进行最近邻分类和引入PLSA模型的识别效果,最后比较不同视觉词汇数和不同潜在语义主题数条件下的识别效果。
4.1 采用不同低层特征提取方法的比较
本文设计的视觉词汇生成方法是CSIFT特征,而最常用的SIFT特征主要针对灰度图像,提取该特征时首先将彩色图像转换为灰度图像。密集网格采样间隔为8×8,视觉词汇数量为600个,潜在语义主题数为20。图1给出了采用不同低层特征描述方法得到的实验结果。
从图1中来看,利用CSIFT特征作为低层特征整体优于常规的基于灰度的SIFT特征,仅对于“oil?fuel depot”场景基于灰度的SIFT特征识别性能略优。这主要是因为这类场景中处于主体地位的目标是一些圆筒状的储油罐,其形状特征是最有效的鉴别特征,而不同地区的油库在色调上的差异较大,因此,对于该类型的场景,CSIFT的优势并不明显。就10类目标的平均识别率而言,CSIFT为90.2%,SIFT为79.67%,前者明显占优。
4.2 引入PLSA对识别结果的改善
本文算法是在遥感图像BOF表达的基础上引入PLSA模型训练KNN分类器而实现的,记为PLSA+BOF?KNN,而实际上得到遥感图像的BOF表达也可以直接训练KNN分类器进行场景识别,记为BOF?KNN。仍然设置密集网格采样间隔为8×8,视觉词汇数量为600个。识别结果以分类混淆矩阵的形式分别给出,如图2所示,直接应用BOF进行识别,部分场景之间由于共享了大量视觉词汇,由此导致识别结果存在较大歧义,而引入PLSA后,可有效消除这种“一词多义”的现象,提高场景识别性能。
4.3 不同视觉词汇数量对识别结果的影响
前面的实验中,视觉词汇的数量均设置为600,下面仅调整视觉词汇数量,密集网格采样间隔和潜在语义主题数均不变,比较最终的平均识别率。结果如图3所示,视觉词汇数量在500~900之间取值时,总体性能相对较好,较少的视觉词汇数量会导致有鉴别力的潜在语义主题缺失,过多的视觉词汇中大量冗余信息增大了部分潜在语义主题的模糊性,因而导致总体性能的下降。
4.4 不同潜在语义主题数目对识别结果的影响
实验中待识别场景类型数目为10,视觉词汇提取方法不变,固定视觉词汇的数量为600,潜在语义主题数目在8~50之间变化,比较其平均识别率,结果如图4所示。
当潜在语义主题数为20时的平均识别率最高,过多或过少的潜在语义主题数都会导致识别率的下降。尽管最优视觉词汇数和潜在语义主题数在理论上是存在的,但在实际应用中要准确求解却是十分困难的,目前主要是通过大量实验来确定一个经验值。
为进一步驗证场景语义识别方法的可行性,沿用前述实验中训练得到的识别模型对朝鲜平壤地区的一幅遥感影像进行交互式标注。考虑到该识别模型仅对10类典型的场景进行了有针对性的训练,因此在交互式选择时,尽量选取能够人工判定为前述10类场景的区域。识别结果如图5所示,可以看出对不同类型的场景都有较好的识别效果。
5 总 结
图像场景的语义识别是高分辨率遥感图像解译的重要内容,本文在梳理图像场景语义识别有关概念与方法的基础上,给出一种利用CSIFT特征的遥感图像视觉特征表示方法和基于PLSA的遥感图像场景语义识别方法,并利用10类典型遥感图像场景进行实验,充分验证了该方法的有效性。训练得到的识别模型还可进一步应用于对大幅遥感图像进行交互式标注。
参考文献
[1] 高隽,谢昭.图像理解理论与方法[M].北京:科学出版社,2009.
[2] GROSKY W I, ZHAO R. Negotiating the semantic gap:from feature maps to semantic landscapes [C]// Proceedings of the 28th Conference on Current Trends in Theory and Practice of Informatics Piestany: Theory and Practice of Informatics. London: Springer, 2001: 33?52.
[3] BARNARD K, FORSYTH D. Learning the semantics of words and pictures [C]// Proceeding of 2001 IEEE International Conference on Computer Vision. Vancouver: IEEE, 2001: 408?415.
[4] OLIVA A, TORRALBA A. Building the gist of a scene: the role of global image features in recognition [J]. Progress in brain research, 2006, 155(2): 23?26.
[5] LI F F, PERONA P. A Bayesian hierarchical model for learning natural scene categories [C]// Proceedings of 2013 IEEE Confe?rence on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 524?531.
[6] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// Proceedings 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2006: 2169?2178.
[7] XU Sheng, FANG Tao, LI Deren, et al. Object classification of aerial images with bag?of?visual words [J]. IEEE geoscience and remote sensing letters, 2010, 7(2): 366?370.
[8] LOWE D G. Distinctive image features from scale?invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91?110.
[9] HOFMANN T. Unsupervised learning by probabilistic latent semantic analysis [J]. Machine learning, 2001, 42(1/2): 177?196.
摘 要: 高分辨率遥感图像的信息解译的通常思路是从特定类型目标的检测与识别分析入手,最终实现图像场景的认知理解。给出一种利用CSIFT特征的遥感图像视觉特征表示方法和基于PLSA的遥感图像场景语义识别方法,并利用10类典型遥感图像场景进行实验,充分验证了该方法的有效性。
关键词: 高分辨率遥感图像; 场景语义识别; 视觉特征表示; 概率潜在语义分析
中图分类号: TN751?34 文献标识码: A 文章编号: 1004?373X(2017)11?0043?03
Remote sensing image target recognition based on scene semanteme
LIU Ningbo1, SUN Yanli2, WANG Jie2
(1. Research Institute of Information Fusion, Naval Aeronautical and Astronautical University, Yantai 264001, China;
2. Department of Basic Experiment, Naval Aeronautical and Astronautical University, Yantai 264001, China)
Abstract: The typical thought of information interpretation for high?resolution remote sensing image proceeds from the detection and recognition analysis of the specific targets to understand the image scene. A remote sensing image visual feature representation method based on CSIFT feature and a remote sensing image scene semantic recognition method based on probabilistic latent semantic analysis (PLSA) are given. Effectiveness of the proposed methods was verified in the experiment with ten typical remote sensing image scenes.
Keywords: high?resolution remote sensing image; scene semantic recognition; visual feature representation; PLSA
0 引 言
高分辨率遙感图像的信息解译是近年来的研究热点,从特定类型目标的检测与识别分析入手,最终实现图像场景的认知理解[1]是广泛采用的研究范式,乃至形成一种思维定势,即只有完整地检测与识别场景中的各种目标才能进行场景的认知理解。然而,在军事侦察中经常需要从高分辨率遥感图像中快速识别出诸如港口、机场、油库等有明确语义的局部图像场景,这些局部场景往往对应一个复杂的目标群,由很多不同类型的刚性子目标按照一定的空间拓扑关系构成。如果采用常规的方法,首先检测复杂目标群的子目标,然后利用其空间拓扑关系进行推理以确定复杂目标群语义属性,其处理效率将是非常低的。而且对子目标的分析主要是利用其隐含的启发式特征在像素层进行,这种完全像素层的处理与图像的语义理解之间存在难以逾越的鸿沟[2]。建立一种能够快速识别遥感图像中复杂局部场景的语义认知方法,进而指导该场景中特定目标的检测与识别具有非常重要的意义。本文首先概述图像场景语义识别的有关概念与方法,然后给出遥感图像的视觉特征表示和基于PLSA的遥感图像场景语义识别方法,最后利用10类典型遥感图像场景进行实验验证。
1 图像场景语义识别的概念与方法
图像中层语义建模主要有以下三类方法:
(1) 构建语义对象法[3],通过检测或识别出图像中的语义对象来描述整幅场景。
(2) 文献[4]提出的场景Gist模型,该模型避开了对单个目标或区域的分割,利用一种低维的空域包络描述场景的结构,其中自然度、开放度、粗糙度、展开度和崎岖度这五种感官属性分别对应于空域包络空间中的一维,每一维均对应于场景中的某一个有意义的空间属性,作为场景语义划分的依据。
(3) 建立图像的局部语义概念[5],首先在图像中自动地检测出感兴趣点,并采用局部描述子描述这些点,随后建立局部描述子到某种局部语义概念的映射,再利用图像中局部语义概念的分布实现图像场景的识别。本文针对遥感图像的场景识别主要采取此方法。
2 遥感图像的视觉特征包表达
为了实现遥感图像场景的准确识别,无论采取低层特征建模法还是中层语义建模法,都必须从遥感图像中提取有鉴别力的特征。如区域特征、分块特征、局部不变特征等。由于不同的特征反映不同的类别信息,对特定的类别各有其优势,而在很多情形下,分析图像内容也需要结合不同的特征,所以集成多种特征对提高图像场景识别的性能是有益的。词袋模型(Bag of Words,BOW)[6]是文本处理领域最常使用的文本简化描述模型,该模型不考虑语法与词序,将文本表达成无序的单词组合。在文本分类应用中,BOW模型常和SVM分类器、朴素贝叶斯分类器结合,获得了非常好的分类效果。该模型应用于计算机视觉领域后被推广为特征包(Bag of Features, BOF)方法[5,7],其基本原理是通过矢量量化各种局部视觉特征,生成视觉词语或词汇表来描述图像或图像集。
对于一幅待识别遥感图像(或区域),采用与训练图像相同的方法提取其CSIFT特征[8],根据最近邻规则,确定各个CSIFT的视觉词汇类别,统计待分类遥感图像(或区域)中各视觉词汇出现的频率,即得到待识别遥感图像的视觉特征包表达。遥感图像的视觉特征包表达避开了场景中目标分割和检测的过程,将场景的识别问题转化为对视觉词汇分布的学习问题,从而为跨越图像低层特征表示与高层语义之间的“语义鸿沟”搭建了桥梁。
3 基于PLSA的图像场景语义识别
尽管视觉词汇的出现频率可以作为区分不同场景的一项重要依据,但是在复杂的遥感图像场景中,由于相同的目标实体可能出现在不同的场景类别中,由此导致视觉词汇与场景语义之间出现多义性和相似性问题。在训练样本不充分的情况下,采用将场景类别与提取的特征向量直接相关联的识别方式,无法逼近实际的场景语义,导致场景识别的准确性下降。本文的思路是将概率潜在语义分析(PLSA)模型[9]应用到典型的训练图像中,提取图像中的潜在语义,根据潜在语义的概率分布完成待识别图像的场景类型判断。
算法流程具体如下:
(1) 提取所有图像的特征。从每类训练图像集中随机选取部分图像,提取这些图像的CSIFT特征向量,用K?均值聚类算法生成个视觉词汇。把各视觉词汇与每一幅训练图像的特征向量进行相似性度量,得到维的“图像?词汇”共现频率矩阵其中表示视觉词汇在图像中出现的频率。
(2) 利用EM算法求得PLSA模型的近似最大似然解,获取图像中潜在语义出现时视觉词汇的分布规律。
(3) 提取测试图像的特征向量,分别与步骤(1)中得到的个视觉词汇进行相似性度量,得到测试图像的“图像?词汇”共现频率矩阵将和测试图像的共现频率矩阵作为PLSA模型的输入,保持不变,得到测试图像的潜在语义分布,构成测试图像的维语义向量。
(4) 对测试图像的潜在语义向量应用KNN分类器,完成图像的场景识别。
4 实验结果与分析
从Google Earth上截取来自10类不同场景的图像切片共计1 794幅,对图像分辨率和大小不做限定,场景类型是由切片中的主体目标确定的。从10类图像中分别随机选取50幅作为训练图像,其余作为测试图像。
为了验证本文算法的性能,首先分析采取不同特征提取方法对识别结果的影响,再进一步比较直接采用基于CSIFT特征的BOF表达进行最近邻分类和引入PLSA模型的识别效果,最后比较不同视觉词汇数和不同潜在语义主题数条件下的识别效果。
4.1 采用不同低层特征提取方法的比较
本文设计的视觉词汇生成方法是CSIFT特征,而最常用的SIFT特征主要针对灰度图像,提取该特征时首先将彩色图像转换为灰度图像。密集网格采样间隔为8×8,视觉词汇数量为600个,潜在语义主题数为20。图1给出了采用不同低层特征描述方法得到的实验结果。
从图1中来看,利用CSIFT特征作为低层特征整体优于常规的基于灰度的SIFT特征,仅对于“oil?fuel depot”场景基于灰度的SIFT特征识别性能略优。这主要是因为这类场景中处于主体地位的目标是一些圆筒状的储油罐,其形状特征是最有效的鉴别特征,而不同地区的油库在色调上的差异较大,因此,对于该类型的场景,CSIFT的优势并不明显。就10类目标的平均识别率而言,CSIFT为90.2%,SIFT为79.67%,前者明显占优。
4.2 引入PLSA对识别结果的改善
本文算法是在遥感图像BOF表达的基础上引入PLSA模型训练KNN分类器而实现的,记为PLSA+BOF?KNN,而实际上得到遥感图像的BOF表达也可以直接训练KNN分类器进行场景识别,记为BOF?KNN。仍然设置密集网格采样间隔为8×8,视觉词汇数量为600个。识别结果以分类混淆矩阵的形式分别给出,如图2所示,直接应用BOF进行识别,部分场景之间由于共享了大量视觉词汇,由此导致识别结果存在较大歧义,而引入PLSA后,可有效消除这种“一词多义”的现象,提高场景识别性能。
4.3 不同视觉词汇数量对识别结果的影响
前面的实验中,视觉词汇的数量均设置为600,下面仅调整视觉词汇数量,密集网格采样间隔和潜在语义主题数均不变,比较最终的平均识别率。结果如图3所示,视觉词汇数量在500~900之间取值时,总体性能相对较好,较少的视觉词汇数量会导致有鉴别力的潜在语义主题缺失,过多的视觉词汇中大量冗余信息增大了部分潜在语义主题的模糊性,因而导致总体性能的下降。
4.4 不同潜在语义主题数目对识别结果的影响
实验中待识别场景类型数目为10,视觉词汇提取方法不变,固定视觉词汇的数量为600,潜在语义主题数目在8~50之间变化,比较其平均识别率,结果如图4所示。
当潜在语义主题数为20时的平均识别率最高,过多或过少的潜在语义主题数都会导致识别率的下降。尽管最优视觉词汇数和潜在语义主题数在理论上是存在的,但在实际应用中要准确求解却是十分困难的,目前主要是通过大量实验来确定一个经验值。
为进一步驗证场景语义识别方法的可行性,沿用前述实验中训练得到的识别模型对朝鲜平壤地区的一幅遥感影像进行交互式标注。考虑到该识别模型仅对10类典型的场景进行了有针对性的训练,因此在交互式选择时,尽量选取能够人工判定为前述10类场景的区域。识别结果如图5所示,可以看出对不同类型的场景都有较好的识别效果。
5 总 结
图像场景的语义识别是高分辨率遥感图像解译的重要内容,本文在梳理图像场景语义识别有关概念与方法的基础上,给出一种利用CSIFT特征的遥感图像视觉特征表示方法和基于PLSA的遥感图像场景语义识别方法,并利用10类典型遥感图像场景进行实验,充分验证了该方法的有效性。训练得到的识别模型还可进一步应用于对大幅遥感图像进行交互式标注。
参考文献
[1] 高隽,谢昭.图像理解理论与方法[M].北京:科学出版社,2009.
[2] GROSKY W I, ZHAO R. Negotiating the semantic gap:from feature maps to semantic landscapes [C]// Proceedings of the 28th Conference on Current Trends in Theory and Practice of Informatics Piestany: Theory and Practice of Informatics. London: Springer, 2001: 33?52.
[3] BARNARD K, FORSYTH D. Learning the semantics of words and pictures [C]// Proceeding of 2001 IEEE International Conference on Computer Vision. Vancouver: IEEE, 2001: 408?415.
[4] OLIVA A, TORRALBA A. Building the gist of a scene: the role of global image features in recognition [J]. Progress in brain research, 2006, 155(2): 23?26.
[5] LI F F, PERONA P. A Bayesian hierarchical model for learning natural scene categories [C]// Proceedings of 2013 IEEE Confe?rence on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 524?531.
[6] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// Proceedings 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2006: 2169?2178.
[7] XU Sheng, FANG Tao, LI Deren, et al. Object classification of aerial images with bag?of?visual words [J]. IEEE geoscience and remote sensing letters, 2010, 7(2): 366?370.
[8] LOWE D G. Distinctive image features from scale?invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91?110.
[9] HOFMANN T. Unsupervised learning by probabilistic latent semantic analysis [J]. Machine learning, 2001, 42(1/2): 177?196.