多模态图像检索技术的研究

2023.04.24

曾瑞　王英彦

摘要：随着人类社会的不断进步和信息技术的发展，对智能化设备和技术需求越来越高，为了让计算机更好的理解世界，诞生了计算机视觉这门科学。目前计算机视觉已经遍及生活各个方面，并且在日常生活、医学应用、工业检测等领域中发挥重要的作用。图像纹理是人类观察物体获取的重要信息之一，也是最有感知意义的主要特征。在计算机视觉技术的应用中，图像分析、物体识别等应用都和匹配密切相关。此研究从图像的纹理特征为切入点，研究多模态图像检索技术，讨论纹理特征抽象与图像查询的匹配方法，对跨媒体图像检索技术具有借鉴和指导意义。

关键词：多模态；检索；图像特征

0 引言

现阶段基于图像检索普遍采用方式是人工对上传到网络中的数字图像进行文字标注，根据每幅图像的视觉特征人为的设置他们的文字描述。在检索时，使用标注的文字作为关键字来检索我们想要的数字图像。这种依据图像标注的文字匹配检索的方法简称为“字找图”，它的缺点为：（1）由于需要大量的人工对每幅图像进行文字标注，数字图像的数量是海量的，标注工作是非常耗费人力和时间；（2）由于每个人对图像的认识不同，所以，在标注的过程中会按照自己对图像的认识来选择标注文字，这样会使不同的人对图像的标注不同，而在检索中会产生很大误差；（3）不同国家使用的标注文字不同，所以在匹配文字时也会产生很大的偏差；（4）有的图像里面含有大量的内容，不可能用几个关键字就能表达清楚。为解决标注图像检索的缺陷问题。学者着手开展对内容的图像检索技术的研究。基于多模态的图像检索的改善了此类瓶颈问题，主要从被检图像库根据海量图像特征进行检测和匹配，获取图像之间的相关性特征信息。

1 基于多模态的图像特征匹配方法

（1）直接从图像中寻找匹配线索，而不是通过人为的文字标注，正因为这个特点，突破了传统的关键字标注的耗费人力时间的缺点，而是直接对图像本身进行处理和分析，使检索更贴近图像本身。

（2）检索可以是人机交互的，当使用一种特征选取方式检索的结果不能满足人们的需求时，人们可以人工的改变特征选取方式使检索结果向于人们需求的方向接近。这样避免了计算机检索图像时的不灵活性，加入了人为的因素。因此，人和计算机结合检索能使效率和准确率更高。

（3）基于内容的图像检索是一种相似性检索，可以将检索结果进行相似性排序，我们可以采取逐步求精的算法，不断减小检索的范围，直到定位到准确目标，这与传统数据库精确匹配有很大的不同。

由于这些方法，基于多模态内容的图像检索渐渐成为人们研究的重点，此类技术可以应用在社会安全、遥感、医学、数字图书馆、建筑、计算机辅助设计、地理信息系统、商标版权管理、等诸多领域。

2 基于纹理识别的多模态的图像检索系统的框架和技术

基于纹理识别的多模态图像检索系统组成部分如图1所示。

（1）输入模块：分析和获取图像的纹理特征值，并将特征向量输入图像特征数据库。

（2）描述模块：利用查询抽象检索技术，实现将用户需求抽象提取相关图像特征语义，并完整描述成计算机能进行识别的特征向量。

（3）检索模块：与图像数据库的图像纹理特征值进行相关性匹配，根据机器学习和神经网络技术，对跨语义的特征向量进行学习和筛选，获取最符合查询要求的图像信息，并返回给用户。

3 基于图像纹理特征的检测方法

图像有三大底层特征，分别是颜色特征、纹理特征和形状特征。纹理特征是显著的视觉特征，其弱化了颜色和亮度的作用，但它吸收了表面结构的排列与组织次序，而且表现出了上下文的关系，反映出了同质再现的视觉特征。

纹理源于人们对物体表面触感的概念，这种固有的内在特征反映了物体表面的组织结构或者上下文内容的关系等诸多有用的信息，或者反映了图像像素间的灰度变化情况或者颜色变化情况。组成纹理的基本元素叫作纹元或者纹理基元，是一个触发视觉感知并且特性相对稳定的基本单元，这些单元在一定的区域内的不同位置会以不同的形态再现，主要是灰度或色彩模式呈现不同特点，其包含多个像素，在物体表面呈现三种：周期性、准周期性或随机性。

如今，神经网络、最近邻分类器、决策树和支持向量机等模式方法已经广泛的应用到了许多领域，譬如图像分类、视频处理、检索等。模式类就是由一些共同属性所决定的，模式分类就是根据对象的特征或属性进行分类。

按照学习方法的监督程度，也就是根据否存在先验知识并且是否使用到这些先验知识，模式分类方法可以分为监督分类和非监督分类。

监督分类对各对象分类的依据是通过训练样本，选择合适的特征参数，以此建立判别函数。监督分类必须要有分类区域的先验类别知识用以建立判别函数，从而获得训练分类器，它把图像分解为多个组成部分，求解各部分之间的空间关系。一般监督分类在训练阶段需要手工选择分类区域从而可以确定模型。

在没有先验知识情况下，非监督分类能够有效地分类，是因为其根据图像像元间的相似度和从分析数据上得到的统计特性，它不需要获取判别函数集而去进行场地训练。熟知并且常用的K-means和ISODATA法就是非监督分类方法，也是一种聚类分析方法。这种方法是将图像视作一些特征的集合，先对这些特征进行聚类分析，得到特征单词和特征码，再用统计方法对特征单词和特征码进行统计分析，最后根据统计特征进行有效分类。

前面一种分类是根据监督程度来划分，模式分类方法还可以分为经验型分类方法和理论型分类方法，此时是根据有无前人分类算法的思想。经验型方法中比较常用的有最近邻分类器、RBF网络和神经网络等。理论型模式分类算法比较常用的有贝叶斯分类器，支持向量机，这种分类算法数量较少，远没有经验型分类方法多。贝叶斯分类器通过计算样本概率的差异，将样本进行分类，但是分布函数的求取较为困难；支持向量机方法SVM基于统计学习理论，在实际应用中取得了一定的成效。

4 结语

此研究根据图像特征信息提出了基于多模态的图像检索思路，研究了基于纹理的多模态检索和朴素贝叶斯分类的实现方法。设计了基于多模态内容的图像检索系统的框架，归纳了实现的关键技术，随着人们对信息管理要求的提高，必将有着广泛的应用。