Web日志与浏览行为结合下的用户浏览兴趣数据挖掘分析

李珊 刘继超 邵芬红



摘 要: 针对用户浏览兴趣模式数据的收敛性和准确度不高的问题,提出一种基于Web日志与用户浏览行为结合的用户浏览兴趣模式数据挖掘模型。首先设计Web日志与用户浏览行为结合的用户浏览兴趣模式数据信息流模型,进行用户浏览兴趣模式的频繁项特征提取和QoS预测;然后采用Web日志与用户浏览行为结合的行为调度模式自适应检索用户浏览网页的兴趣特征点,实现语义特征匹配,达到用户浏览兴趣模式数据挖掘的目的;最后通过仿真实验实现性能验证。结果表明,该方法的用户浏览兴趣特征点的匹配度高,数据挖掘精度得到提升,展示了优越性能。
关键词: Web日志; 用户浏览行为; 兴趣模式; 数据挖掘
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)05?0022?04
Abstract: Since the data of the user′s browsing interest patterns has poor convergence performance and low accuracy, a user′s browsing interest patterns′ data mining model based on the combination of the Web log and user′s browsing behavior is proposed. The data information flow model of the user′s browsing interest pattern based on the combination of the Web log with user′s brow?sing behavior was designed to extract the frequent item feature of the user′s browsing interest pattern and predict the QoS. The behavior scheduling mode combining the Web log with user′s browsing behavior is used to retrieve the interest feature points of the webpage browsed by the user adaptively to match the semantic feature, and mine the data of the user′s browsing interest pattern. The performance of the model was verified with simulation experiment. The results show that the method can highly match the interest feature points of the webpage browsed by the user, improve the data mining accuracy, and show its superior performance.
Keywords: Web log; user′s browsing behavior; interest pattern; data mining
0 引 言
在浏览Web日志和互联网网页的过程中,每个用户都具有自身的偏好特征,服务器需要对用户进行针对性的Web推荐,提高Web日志的面向对象服务能力。通过用户浏览兴趣模式数据挖掘,为Web用户提供多维业务服务和多功能控制,提高Web日志多媒体通信业务的服务质量。因此,研究用户浏览兴趣模式数据挖掘方法具有重要意义[1?2]。
当前,对用户浏览兴趣模式数据挖掘主要采用多源数据的信息服务数据库构建方法,结合QoS预测实现Web服务的评估和数据挖掘,提高Web入职的数字化信息云服务水平。文献[3]采用数据结构类间干扰抑制的Web日志与用户浏览行为特征分析和数据挖掘模式,提高了准确挖掘多层时态属性Web日志的性能,但是该模型计算开销较大,对用户浏览兴趣特征的数据挖掘匹配实时性不好[4?5]。
针对用户浏览兴趣模式数据的收敛性和准确度不高的问题,提出基于Web日志与用户浏览行为的兴趣模式数据挖掘模型,并通过仿真实验测试其性能。
1 提取关联模型的特征
1.1 計算用户浏览兴趣点特征权重
对于任意一个Web日志节点[n]中,用户行为特征信息的分布状态为[l(n),]用户A,B之间QoS需求和兴趣特征点的集合定义为[L(n);]用户对资源的信任度评价节点[n]采用多模特征状态重组方式构建行为学模型;在特征空间的子节点集合中,定义Web日志的状态特征集合为[Dn;][l(n)]层的子节点集合为[Dl(n),]在[l(n)]层的语义本体模型中,得到用户浏览兴趣模式特征集合的平均子节点为[Dl(n);]从源节点至目标节点拓扑树的总平均子节点数为[M,]资源层子节点中用户浏览的兴趣特征点总数满足:
Web日志与用户浏览行为结合下的用户浏览兴趣模式节点分布模型如图1所示。
由此构建用户浏览兴趣模式数据信息流模型,通过特征分解挖掘浏览兴趣模式。
1.2 提取用户浏览兴趣模式的频繁项特征
在构建用户浏览兴趣模式数据信息流模型的基础上,提取用户浏览兴趣模式的频繁项特征,在QoS控制下对Web信息网络拓扑树[T]中的用户浏览兴趣模式进行频繁项特征挖掘。在Web日志浏览用户[ix,ij]之间的语义相似度一定的情况下,构建Web日志浏览的行为模式客观闭频繁项集合为:
采用多层时态属性分箱处理,建立QoS映射关系的动态平衡模型,构造Web日志与用户浏览行为结合下的MAC层多模推荐关系图,设置一个全局度量,以用户信任度评价为约束指标,则QoS质量监控下用户浏览行为的模糊综合评价函数为:
式中:[Mi]表示语义相关性评价;[Lm]为用户声誉评价系数;[fm]为用户之间的相似性频数;[fless]表示Web日志估计频数之和;[width]表示关联规则带宽。
2 数据挖掘模型的优化与设计
2.1 计算用户浏览行为QoS语义特征
在用户浏览兴趣模式的频繁项特征提取的基础上,进行Web日志与用户浏览行为结合的用户浏览兴趣模式数据挖掘模型优化设计,提取用户浏览兴趣模式的频繁项特征,预测QoS,用户浏览兴趣模式的系统测量方程为:
式中:[M]为用户浏览兴趣模式在后缀项表下的经验模态值;[vk]指Reducer分发数据。
根据支持度单调递增原理,得到用户浏览兴趣数据的定位信息爬虫为:
根据贝叶斯定理,得到用户浏览兴趣数据的子空间分解主题网络爬虫表达式为:
对于含有多源数据的Web日志与用户浏览行为进行子空间分解挖掘,预测用户浏览行为QoS,结合自适应调整权重提取数据深层结构特征,为后面的Web日志与用户浏览行为的特征挖掘提供信息素索引因子,采用用户浏览行为QoS信息爬虫算法[8],得出网页节点检索的语义特征输出为:
式中:[ti=ti1,ti2,…,tiM]为网络中所有QoS信息爬虫的高斯函数的中心;[σi]为特征相关系数。
2.2 数据挖掘实现
令[y(n)]为Web日志信息服务云平台的语义本体模型集,通过抓取每一个独立用户浏览行为的浏览兴趣模式进行数据分类,得到数据分类属性[A={A1,A2,…,Am}],采用模糊C均值算法进行特征相关分解,用户浏览行为的信任值取最大值1,浏览模式特征定位的时间减弱函数为[Tsim∈(0,1]]。采用统计时间序列分析方法构建Web日志与用户浏览行为的统计值:
式中:[N]为自适应阈值寻优长度;[x(n)]表示时间序列;[τ]表示时间延迟量。
以用户浏览行为的边缘逆向量作为用户浏览兴趣模式特征序列[x(n)]的秩,通过多层时态属性矢量分解方法重组状态,得到用户浏览行为QoS特征的二维信息熵序列:
采用基于振幅调节Fourier变换方法进行用户浏览兴趣模式的边缘逆分解,采用自回归移动模型得到用户浏览兴趣模式数据的特征分量为:
式中:[ηi]为均值为0,方差为[σ2]的独立同分布随机干扰向量。
采用滤波算法消除干扰,假设用户浏览兴趣数据[zt]与其过去的测量值[zt-1]相互独立,采用平均互信息方法得到用户浏览兴趣模式的输出特征信息为:
通过用户浏览兴趣模式数据挖掘实现语义特征匹配,提高用户浏览Web日志的匹配度和配准能力。
3 仿真实验分析
对Web日志与用户浏览行为结合下的用户浏览兴趣模式数据挖掘的实验环境为:Microsoft Visual C++7.0,Vega Prime2.2.1,Creator3.2,用户浏览行为的安全度设置为0.134 4,可重载性系数设置为0.003 3,Web资源节点采用均匀分布模式,Web日志访问中用户浏览节点的容量和访问特征值参数的设定见表1。
以数据挖掘的用户QoS满意度和数据挖掘的特征配准率为测试参量,得到性能对比结果如图2所示。从图2可知,采用本文方法进行用户浏览兴趣模式数据挖掘,提高了用户进行Web日志浏览的用户满意度。
在不同数据规模下用户流量兴趣模式数据挖掘的准确配准概率如图3所示,分析得知,随着数据规模的增大,数据挖掘的配准概率提高,这是因为通过大量的先验数据作为信息指导,提高了数据挖掘性能,在同等的数据规模下,本文方法的数据准确配准概率高于传统方法,这是由于本文方法结合了Web日志与用户浏览行为,提高了数据挖掘的准确度。
4 结 语
本文提出了基于Web日志与用户浏览行为结合的用户浏览兴趣模式数据挖掘模型。通过仿真实验表明,采用本文方法进行用户流量的兴趣模式数据挖掘,用户浏览兴趣特征点的匹配度高,提高了数据挖掘精度。
参考文献
[1] 沈学利,申杰.基于自治系统与动态概率包标记的DDoS攻击溯源优化方法[J].计算机应用,2015,35(6):1705?1709.
[2] 张博,郝杰,马刚,等.混合概率典型相关性分析[J].计算机研究与发展,2015,52(7):1463?1476.
[3] RATHEESH M, MORALES?JIMENEZ D, LOZANO A. System?level performance of interference alignment [J]. IEEE transactions on wireless communications, 2015, 14(2): 1060?1070.
[4] RAJAPAKSHA N, MADANAYAKE A, BRUTON L T. 2D space: time wave?digital multi?fan filter banks for signals consisting of multiple plane waves [J]. Multidimensional systems and signal processing, 2014, 25(1): 17?39.
[5] 王军,陈翠琴.基于RFID信息与视频图像的人员识别的研究[J].物联网技术,2015,5(3):30?31.
[6] 包晓安,谢晓鸣,张娜,等.基于缺陷关联度的Markov模型软件优化测试策略[J].软件学报,2015,26(1):14?25.
[7] 陈旖,许力,张美平.适用于大规模无线传感器网的流量优化系统设计[J].计算机应用,2015,35(4):905?909.
[8] 梁海华,王根强.一类带非负系数矩阵的非线性代数系统的正解的存在性[J].应用数学学报,2015,38(1):137?149.
[9] 杨柳,张杭.时变混合共轭梯度盲提取算法[J].信号处理,2015,31(1):51?58. 技术文