基于改进关联规则的图像挖掘技术研究

邹元君 姜彤伟



摘 要: 图像挖掘技术与关联规则的结合在网络数据索引中占据了先机,但一些功能弊端不可避免。在这样的背景下,对关联规则的编码、特征点排列和运算方法进行改进。改进关联规则将网络数据集合转化为布尔矩阵,实行列内积运算,保留矩阵内大于或等于图像特征最小支持度的逻辑,挖掘出高频特征集合。设计基于改进关联规则的图像挖掘系统,系统包含数据采集、预处理、数据库和图像挖掘四个结构层,给出具备去噪、分压和滤波功能的图像预处理电路,并介绍了图像信息数据库结构,最后通过实验证明系统可进行高效率的图像挖掘,并且图像区分度大。
关键词: 关联规则; 图像挖掘; 布尔矩阵; 内积运算; 图像信息数据库
中图分类号: TN911.73?34; TP311.13 文献标识码: A 文章编号: 1004?373X(2017)16?0109?03
Abstract: The combination of image mining technology and association rules plays an important role in network data index, but still can′t avoid some functional disadvantages. In this context, the coding, feature point arrangement and operating method of association rules are improved. The network data set is converted into Boolean matrix by means of the improved association rules to carry out the column inner product operation and reserve the logic value which is greater than or equal to that of image feature minimum support, so as to mine the high?frequency feature set. The image mining system based on improved association rules was designed. The system includes the structural layers of data acquisition, preprocessing, database and image mining. The image preprocessing circuit with the functions of denoising, voltage distribution and filtering is given. The structure of the image information database is introduced. The experimental results prove that the system can mine the image effectively, and has high image discrimination.
Keywords: association rule; image mining; Boolean matrix; inner product operation; image information database
0 引 言
网络的出现形成了一个巨大的图像仓库,对图像数据的挖掘要远远低于人们所需要的知识量。网络对大多数人來说是一个图像信息爆炸却知识匮乏的虚拟世界,信息技术的高度发展为网络图像知识挖掘提供了莫大帮助。图像挖掘技术将网络中的海量数据源分类成便于人类理解的图像信息[1],与低等视觉处理技术的图像特征简单提取不同,它由图像像素出发向空间迈进,是致力于重点挖掘深层知识的高级别索引技术。
1 基于改进关联规则的图像挖掘技术研究
关联规则为一项拓展优先方法,挖掘网络数据集合中多次出现的数据特征点,把相等长宽数据链的特征点汇总[2]。关联规则在初次采集时通过计算网络数据集合的特征支持度,将特征点汇总集合长宽置1,之后的挖掘过程以该集合为数据衡量背景,采集其余数据链特征,排除支持度未能合乎要求的特征点,将剩余特征点生成高频特征集合。
在图像挖掘技术的大前提之下,图像信息的数据链长度进一步加深,为此,对关联规则做出三点改进,分别是编码改进、特征点排列改进和运算方法改进。编码改进利用布尔矩阵进行编码,图像数据链的矩阵元素只取0或1,通过缩小单个数据链的长宽,等比例压缩图像信息。特征点排列改进按照数据维度排列特征点,降低图像挖掘技术的索引难度。运算方法改进改用内积运算,通过在布尔矩阵每一行实行内积运算来挖掘高频特征集合,不必花费时间去实行数据链修剪与连接。
图1表示改进的关联规则图像挖掘过程,[β]为高频特征集合元素的内积运算结果逻辑。
改进的关联规则将采集到的网络数据集合转化为布尔矩阵,提出一个特征的最小支持度。实行矩阵列内积,采集得到高频特征集合1,将集合1项目中大于或等于最小支持度的特征留用,拓展到布尔矩阵的列向量,实现等比例图像信息压缩[3]。将拓展布尔矩阵中大于或等于最小支持度的元素留用,按照维度降序排列元素,再次实行布尔矩阵内积运算,得到逻辑[β]。验证[β+1]与最小支持度的关系,保留大于或等于最小支持度的逻辑,将逻辑还原到最初的高频特征集合中实行图像信息特征更替。
2 基于改进关联规则的图像挖掘系统设计
2.1 系统框架
设计图像挖掘系统,采用改进关联规则实行图像信息浏览与管理。基于改进关联规则的图像挖掘系统拥有数据采集、预处理、数据库和图像挖掘4个结构层,系统框架如图2所示。
系统采用人机交互界面,用户点击菜单栏进入系统结构层[4]。数据采集层挖掘到的网络信息显示在图像库中,用户能够进行图像打开、另存为、旋转和分辨率重置等操作。图像的特征点提取、整顿由预处理层负责,依次经过去噪、分压和滤波,图像清晰度和真实性是图像预处理的基本原则。预处理层的所有信息与规则由数据库层提供,数据库层还将向图形挖掘层传输离散化图像信息及其所需的图像挖掘规则[5],进一步提高改进关联规则的有效程度,用户不可随意修改图像挖掘层的挖掘过程,但可以在数据层中加入特殊的数据索引功能。
改进关联规则的可视化较弱,图像挖掘系统使用了多媒体项目索引语言,完善时序项目结构的数据库索引效果,对数据位置关系以及图像信息的结构、色彩、光亮、纹理等特征进行语义补充[6]。如果预处理效果不达标,改进关联规则重复进行图像挖掘。
2.2 图像预处理电路
图3给出的图像预处理电路同时具备去噪、分压和滤波功能。P0.28和P0.30是主扭矩与副扭矩的控制器,由于要对图像信息实行标准的特征预处理,两控制器输出扭矩是完全同步的[7]。分压和滤波将改进图像灰度,图像噪声的出处有可能是基于改进关联规则的图像挖掘系统的配件设施或者信息采集误差。噪声对图像清晰度、信息挖掘精度和数据链平滑度影响很大,图像去噪占据了60%的预处理时间。图像预处理电路采取的去噪方法是频域平均法[8],设即将实行第[i]个图像特征点的[n]次去噪,特征点噪音大小为[E(i)],去噪后特征点的平滑度为[X(i)],频域平均法的去噪公式为:
2.3 数据库建立
数据库层由挖掘规则数据库、图像信息数据库和特征点数据库组成。图像信息数据库由巨额数据量的文本数据组成[9],包括大部分图像信息保管路径。数据辨别身份与挖掘规则数据库和特征点数据库相互关联,数据存储区域缺乏安全性,管理难度高于其他两类数据库。
图4是图像信息数据库结构图,由上到下依次表示图像信息保管路径结构、图像信息存储结构和矩阵特征结构。图像信息数据库采用ID表头构成文本数据的惟一辨别身份,多媒体服务程序IMAGEPATH构成保管路径特征辨别尾部。图像信息存储结构为ID表头,名称NAME对应数据链项目信息,尾部加入数据特征DATE。布尔矩阵是直方图形式,表头为ID,行C列H的内积运算程序MEAN紧随表头,尾部为空。
3 实 验
3.1 实验环境
本文实验的基础配置为微软WIN 7操作系统和结构化查询语言服务数据库2010版本,由Java语言设计数据库连接程序。WIN 7操作系统安装在电子计算机上,运行内存为1 GB,硬盘容量为150 GB,中央处理器为i5。使用Java语言设计出了三种数据库连接程序,相对应地引到关联规则图像挖掘系统、改进关联规则图像挖掘系统、遗传算法图像挖掘系统。系统数据库初次采集到的网络图像信息总共8 235条,特征类型总共25种,每种特征有3~10个枚举类型。在相同的实验条件下,更改图像特征的最小支持度或者色彩采集领域进行两类实验。
3.2 实验结果与讨论
保持其他参数不变,更改图像特征最小支持度,所得图像挖掘系统的挖掘时间如图5所示。
由图5可知,随着最小支持度的不断增加,图像挖掘系统的挖掘效率也不断攀升。处于相同最小支持度时,遗传算法进行图像挖掘所消耗的时间最长。本文基于改进关联规则的图像挖掘系统用时最短,比改进前减少大约3.5 s,比遗传算法减少大约10.4 s,挖掘效率高。
保持其他参数不变,拓宽色彩采集领域,设图像像素为512×512,2 048×1 536,图像挖掘系统的图像区分度和挖掘时间如表1和表2所示,图像区分度公式如下:
由表1、表2可知,图像像素越大,图像挖掘系统的挖掘效率越高,图像区分度越大。色彩采集領域和图像像素都相同时,本文系统拥有很大的图像区分度,有利于提升挖掘图像的清晰度,获得绝佳的视觉体验。
4 结 论
获取大量网络数据知识是人们所期待的,本文设计基于改进关联规则的图像挖掘系统,在图像挖掘技术的基础上改进了关联规则的主要弊端,所建立的图像预处理电路和数据库在多媒体项目索引语言中进行了精准的图像高频特征挖掘。在相同实验条件下与采取其他技术手段设计的图像挖掘系统相比,本文系统挖掘效率高且图像区分度大,有利于提升图像清晰度。
注:本文通讯作者为姜彤伟。
参考文献
[1] 徐开勇,龚雪容,成茂才.基于改进Apriori算法的审计日志关联规则挖掘[J].计算机应用,2016,36(7):1847?1851.
[2] 黄宏本.基于改进关联规则的危险Web信息挖掘技术研究[J].现代电子技术,2016,39(6):14?17.
[3] 朱丙丽,火善栋,吴鸿娟.基于图像RGB色彩特征的关联规则挖掘研究[J].重庆三峡学院学报,2015,31(3):56?59.
[4] 郝海涛,马元元.应用Aprion算法实现大规模数据库关联规则挖掘的技术研究[J].现代电子技术,2016,39(7):124?126.
[5] 郑玉柱,李建,李珂.基于改进遗传算法的关联挖掘方法研究[J].重庆科技学院学报(自然科学版),2015,17(5):72?76.
[6] 林宗缪,郭先超,姚文勇.基于MapReduce的质检大数据关联规则挖掘[J].自动化技术与应用,2016,35(8):43?46.
[7] 吴陈,李丹丹.基于粗糙集的关联规则挖掘方法的研究与应用[J].电子测量技术,2016,39(7):44?48.
[8] 姜永超.基于数据挖掘的学生选课及学习行为分析算法研究[J].现代电子技术,2016,39(13):145?148.
[9] 顾卫杰,王晓峰.基于改进Apriori算法的煤矿物联网规则系统研究[J].煤矿机械,2016,37(1):227?229.