海量教育多媒体数据高效分类存储技术研究
袁琰星+郭献洲
摘 要: 为了提高教育多媒体数据库的访问能力和信息检索能力,需要进行数据的分类高效存储技术设计,提出一种语义指向性C均值数据聚类的海量教育多媒体数据分类高效存储技术。首先进行教育媒体数据库的数据存储结构分析,计算数据存储的聚类中心和属性类别集分类控制阈值;然后采用语义指向性特征提取方法作为数据存储的信息素导引,对提取的语义指向性特征通过C均值聚类进行优化分类存储;最后进行仿真实验分析。结果表明,采用该方法进行海量教育多媒体数据的分类存储,能提高数据库的吞吐量,数据检索的召回率等指标。
关键词: 海量数据; 教育多媒体数据库; 分类存储; 数据检索
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)08?0042?04
Research on efficient classification and storage technology of mass data
in educational multimedia
YUAN Yanxing1, GUO Xianzhou2
(1. Guangdong Polytechnic of Water Resources and Electric Engineering, Guangzhou 510925, China;
2. Hebei University of Technology, Tianjin 300401, China)
Abstract: In order to improve the addressing and information retrieval abilities of education multimedia database, it is necessary to develop the efficient data classification storage technology. An education multimedia mass data classification storage technology of the semantic directivity mean value C data clustering is proposed. The data storage structure of the educational media database is analyzed. The cluster center of data storage and classification control threshold of attributes category set are calculated. The semantic directivity feature extraction method is adopted as the pheromone guidance of the data storage to conduct optimization classification storage of the extracted semantic directivity characteristics in combination with mean value C clustering. The simulation analysis results show that the method for the classification storage of education multimedia mass data can improve the throughput of the database, and the recall rate of data retrieval.
Keywords: massive data; education multimedia database; classification storage; data retrieval
0 引 言
隨着教育多媒体数据存储技术的发展,大量的多媒体教育数据通过教育信息管理系统的数据库进行分布式存储和传输,教师和学生在进行信息检索对只需要通过相关的指令进行多媒体教育资源的调度和查询,方便教学应用[1]。海量教育多媒体数据主要包括了多媒体课件、图片、教学音视频等信息,需要对海量教育多媒体数据进行分类高效存储设计,提高教育多媒体数据的管理和调度能力,传统方法中对数据库海量教育多媒体数据的挖掘是建立在多媒体数据库的信息检索统计特征提取的基础上[2?3],通过语义和关键词的访问和检索进行信息索引和标注,方法可靠简单,但是效率不高,对教育多媒体数据有效存储的层次性建模性能不好[4]。对此,本文提出一种语义指向性C均值数据聚类的海量教育多媒体数据分类高效存储技术,进行数据库存储的优化设计,得出有效性结论。
1 教育多媒体数据库的数据存储结构分析
1.1 教育多媒体数据的量化特征编码
为了实现对海量教育多媒体数据的优化分类存储设计,需要进行教育多媒体数据库的数据存储结构分析,采用网格拓扑结构进行数据库的分布式存储网格设计[5]。海量教育多媒体数据的数据存储的分布式结构主要分为水平结构、垂直结构、左对角线结构、右对角线结构等,如图1所示。
根据图1所示的教育多媒体数据库的数据存储结构,设置4个检索通道进行海量教育多媒体数据的访问设计,图中,,和分别表示待检索教育多媒体数据的邻域内的码矢,采用语义自相关函数分析方法进行教育多媒体数据的近邻点模糊聚类中心计算,构建多媒体数据的向量量化特征编码模型[6],把当作聚类中心的优化索引值,初始化多媒体数据库中教育数据的梯度信息检索水平集函数,通过海量教育多媒体数据准确挖掘和检测,实现对数据库的有效访问。在进行4个检索通道的语义信息素提取中,提取海量教育多媒体数据特征分布梯度图,得到数据库的分布式调度输入向量值分别为,,和,表示为:
(1) 式中,为初始化的聚类中心嵌入维数,数据库存储分布空间特征分布区域和,采用海量教育多媒体数据的特征序列训练重构方法进行向量量化编码,设置初始化码书{,};设置多媒体数据分布的权重响应为;多媒体数据的向量量化编码的初始值为。令为训练序列,教育多媒体数据库存储通道的频率计数初始值设定为。
对输入的教育多媒体数据进行稳态周期性分解控制,得到训练向量模式为;计算教育多媒体数据的时域向量与全部分类存储节点所连权向量的距离为:
(2)
式中,,最后得到教育多媒体数据的量化特征编码输出为:
(3)
式中,在聚类中心初始值确定的情况下,通过教育多媒体数据的量化特征编码,提高分类存储的效率。
1.2 数据存储的聚类中心计算
在上述进行了教育多媒体数据的量化特征编码的基础上,进行教育多媒体数据优化分类存储的聚类中心计算,设教育多媒体数据库中的海量数据的采样幅度为,计算输入教育多媒体数据库中的训练向量码书冗余信息为,采用高斯随机模型表示数据中的统计特征,存储节点分布的最小距离的节点为,海量教育多媒体数据時间序列为, ,根据Takens嵌入定理[7],得到数据优化分类存储的最小嵌入维数为;在给定的海量教育多媒体数据分布的权重指数下,的属性值为。构建教育多媒体数据库的初始级码元,,计算教育多媒体数据的干扰信息参量估计值,,得到教育多媒体数据的最佳码书为:
(4)
式中:是第n条数据存储通道上的区域分布特征;为第n条数据存储路径扩展时延,由此得到数据存储的聚类的区域分布函数为:
(5)
数据集合中含有个样本,计算输入存储节点的量化编码统计平均失真为:
(6)
现在把教育多媒体数据的语义信息集合分为c类,其中1<c<n,得到海量教育多媒体数据的分类高效存储的模糊聚类中心矩阵为:
(7)
式中,为教育多媒体数据的模糊聚类中心的第个语义特征指向性分布矢量。
2 数据的分类高效存储改进实现
2.1 数据属性类别集分类控制阈值计算
本文提出一种语义指向性C均值数据聚类的海量教育多媒体数据分类高效存储技术。在此需要进行海量教育多媒体数据的属性类别集分类控制阈值计算,假设海量教育多媒体数据检索区域中文本信息的特征分布序列为,,对教育多媒体数据的量化编码信息进行区域分块设计,采用模板匹配方法进行存储信息窗口加权控制[8]如下:
(8)
在上述进行数据库存储分布的加权控制中,在横向和竖向两个梯度方向对教育多媒体数据的聚类编码样本进行自组织神经网络训练,得到数据属性类别集分类控制阈值的计算结果为:
(9)
式中,q,p分别是教育多媒体数据库中的编码数据的向量量化的梯度特征差异性语义信息素特征,采用自适应聚类编码加权,通过属性类别集分类控制阈值进行数据分配的有效性判断。
2.2 语义指向性特征提取
确定海量教育数据优化分类存储的特征窗口大小N,进行语义指向性特征提取,得到输出的加权向量为: (10)
采用一个1×N的窗口来遍历被检索教育多媒体数据的视频和图像等多媒体数据信息集合,进行多属性类别集分类控制阈值判决,得到属性类别集分类的语义特征聚类中心,即:
(11)
式中,表示中分类存储的训练样本长度,用欧氏距离表示。
通过对教育多媒体数据中的有用文本进行语义指向性特征提取,各自判决的文本的信息素TLX,TLY,文本信息素的语义特征提取的判决式为:
(12)
设海量教育多媒体数据集中语义相关信息特征总数为X,在最小窗口下语义指向性聚焦的冲激响应函数为,向量量化的梯度差异性分布的最小距离为:
(13)
建立Markov模型,提取教育多媒体数据库海量教育多媒体数据序列的高阶谱特征进行信息融合,设教育多媒体数据所属类别的对象集合为第个存储节点处的概念格,数据存储节点的传递路径有P条,由此得到输出的语义指向性特征输出为:
(14)
(15)
式中:为海量教育多媒体数据的信息索引的边界溢出估计值;为概念格结点的信息融合中心加权系数;为多媒体数据非线性时间序列的时频特征;为自相关函数。
2.3 基于模糊C均值聚类的数据优化分类存储
最后采用模糊C均值聚类对提取的语义特征进行指向性聚类分析,实现数据的优化分类存储,设和为数据的语义特征判别属性集合,海量教育多媒体数据的模糊C均值聚类空间矩阵为:
3 仿真实验分析
实验中采用C++和Matlab 7混合编程实现教育多媒体数据库海量数据的优化分类存储设计,对数据时间序列进行特征训练,训练集频带为5~120 kHz,数据库存储带宽变化范围为1~10 dB,对教育多媒体数据访问的初始频率 Hz,终止频率Hz,在数据存储空间中的信息干扰强度为,最大分类搜索半径,数据存储空间的嵌入维数,语义特征提取的指向性聚类中心初始值为,最大迭代次数为,模糊C均值聚类的属性类别判别阈值,根据上述仿真参量设计,采用不同方法进行数据分类存储分析,得到数据库的吞吐量和进行教育多媒体数据库访问的数据召回率对比结果如图2和图3所示。
分析上述仿真结果得知,采用本文方法进行海量教育多媒体数据的分类存储,具有较高的数据吞吐性能和数据召回率,说明数据存储和访问的效率得到提升,具有优越性。
4 结 语
本文研究了海量教育多媒体数据的优化存储设计问题,提出一种语义指向性C均值数据聚类的海量教育多媒体数据分类高效存储技术。研究结果表明,采用该方法进行海量教育多媒体数据的分类存储,能提高数据库的吞吐量,数据检索的召回率等指标,具有较高的应用价值,性能优于传统方法。
参考文献
[1] 官亚勤,赵学胜,王鹏飞,等.基于切片原理的海量点云并行简化算法[J].计算机应用,2016,36(7):1793?1796.
[2] 周煜,张万兵,杜发荣,等.散乱点云数据的曲率精简算法[J].北京理工大学学报,2010,30(7):785?789.
[3] 胡志胜,于敬武,束涛.一种结合了栅格化和特征判断的点云压缩方法[J].辽宁工程技术大学学报(自然科学版),2015,34(8):958?962.
[4] 章登义,吴文李,欧阳黜霏.基于语义度量的RDF图近似查询[J].电子学报,2015,43(7):1320?1328.
[5] AMERIJCKX Christophe, VERLEYSEN Michel, THISSEN Philippe. Image compression by self?organized Kohonen maps [J]. IEEE transactions on neural networks, 1998, 9(5): 1287?1292.
[6] 高志春,陈冠玮,胡光波,等.倾斜因子K均值优化数据聚类及故障诊断研究[J].计算机与数字工程,2014,42(1):14?18.
[7] MASSA J S, WALLACE A M, BULLER G S, et al. Laser depth measurement based ontime?correlated single?photon counting [J]. Optics letters, 1997, 22(8): 543?545.
[8] DANESHPANAH M, JAVIDI B, WATSON E A. Three dimensional object recognition with photon counting imagery in the presence of noise [J]. Optics Express, 2010, 18(25):26450?26460.
</c
摘 要: 为了提高教育多媒体数据库的访问能力和信息检索能力,需要进行数据的分类高效存储技术设计,提出一种语义指向性C均值数据聚类的海量教育多媒体数据分类高效存储技术。首先进行教育媒体数据库的数据存储结构分析,计算数据存储的聚类中心和属性类别集分类控制阈值;然后采用语义指向性特征提取方法作为数据存储的信息素导引,对提取的语义指向性特征通过C均值聚类进行优化分类存储;最后进行仿真实验分析。结果表明,采用该方法进行海量教育多媒体数据的分类存储,能提高数据库的吞吐量,数据检索的召回率等指标。
关键词: 海量数据; 教育多媒体数据库; 分类存储; 数据检索
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)08?0042?04
Research on efficient classification and storage technology of mass data
in educational multimedia
YUAN Yanxing1, GUO Xianzhou2
(1. Guangdong Polytechnic of Water Resources and Electric Engineering, Guangzhou 510925, China;
2. Hebei University of Technology, Tianjin 300401, China)
Abstract: In order to improve the addressing and information retrieval abilities of education multimedia database, it is necessary to develop the efficient data classification storage technology. An education multimedia mass data classification storage technology of the semantic directivity mean value C data clustering is proposed. The data storage structure of the educational media database is analyzed. The cluster center of data storage and classification control threshold of attributes category set are calculated. The semantic directivity feature extraction method is adopted as the pheromone guidance of the data storage to conduct optimization classification storage of the extracted semantic directivity characteristics in combination with mean value C clustering. The simulation analysis results show that the method for the classification storage of education multimedia mass data can improve the throughput of the database, and the recall rate of data retrieval.
Keywords: massive data; education multimedia database; classification storage; data retrieval
0 引 言
隨着教育多媒体数据存储技术的发展,大量的多媒体教育数据通过教育信息管理系统的数据库进行分布式存储和传输,教师和学生在进行信息检索对只需要通过相关的指令进行多媒体教育资源的调度和查询,方便教学应用[1]。海量教育多媒体数据主要包括了多媒体课件、图片、教学音视频等信息,需要对海量教育多媒体数据进行分类高效存储设计,提高教育多媒体数据的管理和调度能力,传统方法中对数据库海量教育多媒体数据的挖掘是建立在多媒体数据库的信息检索统计特征提取的基础上[2?3],通过语义和关键词的访问和检索进行信息索引和标注,方法可靠简单,但是效率不高,对教育多媒体数据有效存储的层次性建模性能不好[4]。对此,本文提出一种语义指向性C均值数据聚类的海量教育多媒体数据分类高效存储技术,进行数据库存储的优化设计,得出有效性结论。
1 教育多媒体数据库的数据存储结构分析
1.1 教育多媒体数据的量化特征编码
为了实现对海量教育多媒体数据的优化分类存储设计,需要进行教育多媒体数据库的数据存储结构分析,采用网格拓扑结构进行数据库的分布式存储网格设计[5]。海量教育多媒体数据的数据存储的分布式结构主要分为水平结构、垂直结构、左对角线结构、右对角线结构等,如图1所示。
根据图1所示的教育多媒体数据库的数据存储结构,设置4个检索通道进行海量教育多媒体数据的访问设计,图中,,和分别表示待检索教育多媒体数据的邻域内的码矢,采用语义自相关函数分析方法进行教育多媒体数据的近邻点模糊聚类中心计算,构建多媒体数据的向量量化特征编码模型[6],把当作聚类中心的优化索引值,初始化多媒体数据库中教育数据的梯度信息检索水平集函数,通过海量教育多媒体数据准确挖掘和检测,实现对数据库的有效访问。在进行4个检索通道的语义信息素提取中,提取海量教育多媒体数据特征分布梯度图,得到数据库的分布式调度输入向量值分别为,,和,表示为:
(1) 式中,为初始化的聚类中心嵌入维数,数据库存储分布空间特征分布区域和,采用海量教育多媒体数据的特征序列训练重构方法进行向量量化编码,设置初始化码书{,};设置多媒体数据分布的权重响应为;多媒体数据的向量量化编码的初始值为。令为训练序列,教育多媒体数据库存储通道的频率计数初始值设定为。
对输入的教育多媒体数据进行稳态周期性分解控制,得到训练向量模式为;计算教育多媒体数据的时域向量与全部分类存储节点所连权向量的距离为:
(2)
式中,,最后得到教育多媒体数据的量化特征编码输出为:
(3)
式中,在聚类中心初始值确定的情况下,通过教育多媒体数据的量化特征编码,提高分类存储的效率。
1.2 数据存储的聚类中心计算
在上述进行了教育多媒体数据的量化特征编码的基础上,进行教育多媒体数据优化分类存储的聚类中心计算,设教育多媒体数据库中的海量数据的采样幅度为,计算输入教育多媒体数据库中的训练向量码书冗余信息为,采用高斯随机模型表示数据中的统计特征,存储节点分布的最小距离的节点为,海量教育多媒体数据時间序列为, ,根据Takens嵌入定理[7],得到数据优化分类存储的最小嵌入维数为;在给定的海量教育多媒体数据分布的权重指数下,的属性值为。构建教育多媒体数据库的初始级码元,,计算教育多媒体数据的干扰信息参量估计值,,得到教育多媒体数据的最佳码书为:
(4)
式中:是第n条数据存储通道上的区域分布特征;为第n条数据存储路径扩展时延,由此得到数据存储的聚类的区域分布函数为:
(5)
数据集合中含有个样本,计算输入存储节点的量化编码统计平均失真为:
(6)
现在把教育多媒体数据的语义信息集合分为c类,其中1<c<n,得到海量教育多媒体数据的分类高效存储的模糊聚类中心矩阵为:
(7)
式中,为教育多媒体数据的模糊聚类中心的第个语义特征指向性分布矢量。
2 数据的分类高效存储改进实现
2.1 数据属性类别集分类控制阈值计算
本文提出一种语义指向性C均值数据聚类的海量教育多媒体数据分类高效存储技术。在此需要进行海量教育多媒体数据的属性类别集分类控制阈值计算,假设海量教育多媒体数据检索区域中文本信息的特征分布序列为,,对教育多媒体数据的量化编码信息进行区域分块设计,采用模板匹配方法进行存储信息窗口加权控制[8]如下:
(8)
在上述进行数据库存储分布的加权控制中,在横向和竖向两个梯度方向对教育多媒体数据的聚类编码样本进行自组织神经网络训练,得到数据属性类别集分类控制阈值的计算结果为:
(9)
式中,q,p分别是教育多媒体数据库中的编码数据的向量量化的梯度特征差异性语义信息素特征,采用自适应聚类编码加权,通过属性类别集分类控制阈值进行数据分配的有效性判断。
2.2 语义指向性特征提取
确定海量教育数据优化分类存储的特征窗口大小N,进行语义指向性特征提取,得到输出的加权向量为: (10)
采用一个1×N的窗口来遍历被检索教育多媒体数据的视频和图像等多媒体数据信息集合,进行多属性类别集分类控制阈值判决,得到属性类别集分类的语义特征聚类中心,即:
(11)
式中,表示中分类存储的训练样本长度,用欧氏距离表示。
通过对教育多媒体数据中的有用文本进行语义指向性特征提取,各自判决的文本的信息素TLX,TLY,文本信息素的语义特征提取的判决式为:
(12)
设海量教育多媒体数据集中语义相关信息特征总数为X,在最小窗口下语义指向性聚焦的冲激响应函数为,向量量化的梯度差异性分布的最小距离为:
(13)
建立Markov模型,提取教育多媒体数据库海量教育多媒体数据序列的高阶谱特征进行信息融合,设教育多媒体数据所属类别的对象集合为第个存储节点处的概念格,数据存储节点的传递路径有P条,由此得到输出的语义指向性特征输出为:
(14)
(15)
式中:为海量教育多媒体数据的信息索引的边界溢出估计值;为概念格结点的信息融合中心加权系数;为多媒体数据非线性时间序列的时频特征;为自相关函数。
2.3 基于模糊C均值聚类的数据优化分类存储
最后采用模糊C均值聚类对提取的语义特征进行指向性聚类分析,实现数据的优化分类存储,设和为数据的语义特征判别属性集合,海量教育多媒体数据的模糊C均值聚类空间矩阵为:
3 仿真实验分析
实验中采用C++和Matlab 7混合编程实现教育多媒体数据库海量数据的优化分类存储设计,对数据时间序列进行特征训练,训练集频带为5~120 kHz,数据库存储带宽变化范围为1~10 dB,对教育多媒体数据访问的初始频率 Hz,终止频率Hz,在数据存储空间中的信息干扰强度为,最大分类搜索半径,数据存储空间的嵌入维数,语义特征提取的指向性聚类中心初始值为,最大迭代次数为,模糊C均值聚类的属性类别判别阈值,根据上述仿真参量设计,采用不同方法进行数据分类存储分析,得到数据库的吞吐量和进行教育多媒体数据库访问的数据召回率对比结果如图2和图3所示。
分析上述仿真结果得知,采用本文方法进行海量教育多媒体数据的分类存储,具有较高的数据吞吐性能和数据召回率,说明数据存储和访问的效率得到提升,具有优越性。
4 结 语
本文研究了海量教育多媒体数据的优化存储设计问题,提出一种语义指向性C均值数据聚类的海量教育多媒体数据分类高效存储技术。研究结果表明,采用该方法进行海量教育多媒体数据的分类存储,能提高数据库的吞吐量,数据检索的召回率等指标,具有较高的应用价值,性能优于传统方法。
参考文献
[1] 官亚勤,赵学胜,王鹏飞,等.基于切片原理的海量点云并行简化算法[J].计算机应用,2016,36(7):1793?1796.
[2] 周煜,张万兵,杜发荣,等.散乱点云数据的曲率精简算法[J].北京理工大学学报,2010,30(7):785?789.
[3] 胡志胜,于敬武,束涛.一种结合了栅格化和特征判断的点云压缩方法[J].辽宁工程技术大学学报(自然科学版),2015,34(8):958?962.
[4] 章登义,吴文李,欧阳黜霏.基于语义度量的RDF图近似查询[J].电子学报,2015,43(7):1320?1328.
[5] AMERIJCKX Christophe, VERLEYSEN Michel, THISSEN Philippe. Image compression by self?organized Kohonen maps [J]. IEEE transactions on neural networks, 1998, 9(5): 1287?1292.
[6] 高志春,陈冠玮,胡光波,等.倾斜因子K均值优化数据聚类及故障诊断研究[J].计算机与数字工程,2014,42(1):14?18.
[7] MASSA J S, WALLACE A M, BULLER G S, et al. Laser depth measurement based ontime?correlated single?photon counting [J]. Optics letters, 1997, 22(8): 543?545.
[8] DANESHPANAH M, JAVIDI B, WATSON E A. Three dimensional object recognition with photon counting imagery in the presence of noise [J]. Optics Express, 2010, 18(25):26450?26460.
</c