网站首页  词典首页

请输入您要查询的论文:

 

标题 一种用户兴趣度计算与用户兴趣修正的改进方法
范文 夏义国+刘友华
〔摘 要〕用户兴趣
的度量和用户兴趣的修正是个性化服务研究的重要内容?本文以用户最小浏览行为组合为基
础,通过引入页面浏览率,改进页面驻留时间的计算方法,建立以页面浏览率?驻留时间和
浏览速度为变量的兴趣度估计函数,提高用户兴趣度估计的准确性?同时,本文还将兴趣度
导入到向量空间模型,采用二层树状结构表示用户兴趣,并提出用户兴趣定期修正方法,以
缓解用户兴趣实时修正带来系统性能的下降?
〔关键词〕用户浏览行为;兴趣度
计算;用户兴趣修正;向量空间模型
DOI:10.3969/j
.issn.1008-0821.2014.01.010
〔中图分类号〕G250.72 〔文献标识码〕A 〔文章编
号〕1008-0821(2014)01-0046-03
An Improved Method to Calcul
ate Users Interest
Degree and Amend Users Interest
Xia Yiguo1 Liu Youhua1,2
(1.School of Management and Engineering,Nanjing University,Nanjing 210093,
China;
2.School of Information Management,Nanjing University,Nanjing 210093,China

〔Abstract〕”BZ〗The calculation of users interest degree and amendment of users inte
rest are the essential content of personalized services research.Based on a set
of user browsing behaviors,it introduced the concept of browsing rate,improve me
asurement method of stay time on webpage and established a calculation function
of interest degree with variables browsing rate,stay time and browsing speed of
webpage.At the same time,interest degree was imported into Vector Space Model an
d users interest was presented by two-layer tree structure on the paper.Beside
s,fixed period amendment method of users interest was given on the paper at la
st which could not only modify user interest in time,but also ease the problem o
f systems performance drop caused by user interest real-time updating.
〔Key words〕users browsing
behaviors;interest degree calculation;users interest amendment;vector space m
odel
个性化服务是指针对不同用户提供不同服务策略和服务内容的服务模式,个性化服务能
够很好的解决互联网海量无序信息与用户个性化需求狭窄间的矛盾?用户兴趣的度量和修正
作为个性化服务研究的重要内容,是决定个性化服务质量的关键因素?
用户兴趣度(Interest Degree,ID)用来衡量用户对某一主题是否感兴趣以及感兴趣的程
度,常采用0~1之间的实数表示?目前,计算用户兴趣度的大小主要有两种方式:一种通过
向用户提问的方式直接获得,另一种根据用户的浏览行为分析获取?前者需要用户直接对页
面兴趣进行标注,会对用户造成一定的干扰,而且用户常常不能准确的表达自己的兴趣;后
者则利用数据挖掘技术对用户的浏览行为进行分析来估计用户兴趣度大小,不仅降低了用户
负担,同时还能较为准确的描述用户兴趣,这种方式已成为个性化推荐系统普遍采用的获取
用户兴趣的方式?大量研究表明,用户对网页的兴趣度与其在该网页上的浏览行为密切相关
?用户的很多浏览行为如查询?标记书签?点击鼠标?拖动滚动条?前进和后退等能暗示出
用户的喜好与兴趣大小?用户访问页面时的停留时间?访问次数?保存?编辑等动作同样能
够反映用户的兴趣[1-3]?文献[4]中进一步给出了用户兴趣度估计的
最小浏览行为组合,并认为这个组合可以准确的描述用户的兴趣?但在这些文献中,并没有
给出一个完整的基于用户浏览行为的兴趣度计算方法?另外,针对用户兴趣不断变化的问题

,很多学者从不同角度提出了用户兴趣的修正处理方法,如时间窗口法[5],遗忘
函数法[6],混合兴趣法[7]等,这些处理方法的一个共同点就是强调对
用户兴趣的实时修正,却忽略了大部分用户的兴趣在短时间内常常是稳定的特性以及实时修
正时频繁的数据存储和运算对系统性能的影响?
针对以上所述的用户兴趣度计算与用户兴趣修正处理方法中存在的问题,本文着重做以下两
方面的工作:(1)以用户最小浏览行为组合为基础,引入页面浏览率概念,改进页面驻留
时间的计算方法,并建立一个完整的用户兴趣度计算函数;(2)基于向量空间模型的基本
原理,采用二层树状结构表示用户兴趣,提出用户兴趣定期修正处理方法?1 基于用户最小浏览行为组合的兴趣度计算
采用用户浏览行为估计用户兴趣度的关键问题在于首先需要确定哪些浏览行为能真正反映用
户兴趣,其次如何对这些代表性浏览行为进行量化?文献[4]中利用回归分析对用
户众多浏览行为进行分析,得出了用户最小浏览行为组合:保存页面?打印页面?将页面保
存在书签中?访问同一页面的次数以及在页面上的驻留时间?在此基础上,一些学者提出了
基于页面访问次数?驻留时间和浏览速度的用户兴趣度计算方法[8-9],这些方
法从一定程度上很好的解决了用户兴趣的度量问题?
然而观察目前普遍采用的页面访问次数和驻留时间的计算方法,我们发现往往存在这样的情
况:一方面,随着时间的推移,在一段时间内,用户浏览页面A的次数在减少,浏览页
面B的次数在增加,尽管在浏览总次数上A比B多,但此时用户感兴趣的应该是页面
B,此时简单的页面浏览次数就不能准确的反映用户兴趣的这种变化;另外,一些页面
往往包含很多超文本链接,用户在原页面短暂停留后可能迅速通过链接访问其子文件,这种
浏览行为反映出用户对原页面是很感兴趣的,但这种只考虑用户在原页面上的驻留时间而忽
略其链接页面驻留时间的计算方式就不能准确的反映用户的兴趣度?
因此,本文引入页面浏览率代替页面访问次数,并以原页面与其链接页面驻留时间的加权形
式改进现有页面驻留时间的计算方法,然后建立一个以页面浏览率?改进后的驻留时间和浏
览速度为变量的用户兴趣度估计函数,以此提高兴趣度估计的准确性?各变量和函数的具体
定义如下:
(1)页面浏览率BR(w):用来衡量某段时间内用户对页面的访问
频率,页面浏览率的值越大,说明用户对该页面越感兴趣?设一段时间内用户访问页面w的
次数为Freq(w)
其中,s为用户访问的某一页面?
此外,笔者还作如下设定:当保存页面?打印页面和保存页面到书签中的3种行为中任意一
个行为一旦发生,即表示用户对页面产生了很大兴趣,此时无需再考虑页面浏览率?驻留时
间和浏览速度3个变量,这种情况下直接将用户兴趣度ID视为最大值1;而当以上3种行为都
没有发生时,则利用页面浏览率?驻留时间和浏览速度构建的线性方程函数来反映用户兴趣
度的值?
综上,改进后的基于用户最小浏览行为组合的用户兴趣度度量函数为:
2 用户兴趣定期修正方法
2.1 用户兴趣的表示
向量空间模型[10]是文档常用的表示方法,它很好地表示了用户浏览文档的特征
,但为了更好地反映用户对浏览主题的兴趣差异,我们将兴趣度(ID)引入到向量空间模型
中,并以二层树状结构来表示用户兴趣,如图1所示?在二层树状结构中,第1级结点表示
用户感兴趣的主题及其兴趣度,第2级结点则是用户兴趣主题的向量空间模型表示?
2.2 用户兴趣的修正
用户兴趣往往并不是一成不变的,这就要求构建的用户兴趣表示方法具有自适应学习功能,
一旦检测到用户兴趣的改变就能及时做出调整以适应这种变化?目前,主要的用户兴趣修正
处理方法都特别强调对用户兴趣的实时修正,这种方式确实很好地保证了用户当前兴趣特征
描述的准确性,但如果对用户的每一次浏览行为都对用户兴趣进行一次修正操作不仅耗费大
量的存储空间,而且还将大大降低系统性能?这种实时修正用户兴趣的方式实际上还忽略了
用户兴趣的一个重要特点即大部分用户的兴趣在较短时期内往往是稳定的,随着时间的推移
才缓慢发生变化[12]?因此,笔者提出用户兴趣定期修正处理方法,其核心思想
是:每隔固定时间T(T可根据系统性能要求?用户行为等来确定)对用户兴趣进行一次修
正,期间系统会对用户的每一次浏览行为生成一个兴趣向量进行存储,统计周期结束时,系
统再依据汇总的这些兴趣向量对用户兴趣进行修正?
在介绍用户兴趣定期修正处理算法前,首先给出以下假设和运算定义:
假设用户至多有m个兴趣主题,每个主题最多可以由n个特征关键词来表示?用户浏览新页
面的主题用向量Tnew表示,用户对该页面主题的兴趣度为IDnew,则
运算2:当两个兴趣主题Ti和Tnew间的相似度大于一定的阈值θ时,需要进
行主题间的合并运算Ti=TiTnew:(1)合并后的主题仍以原主题T

i表示,兴趣度等于两个主题的兴趣度之和:IDi+IDnew?(2)在合
并后表示主题的关键词处理方面,若某主题关键词在两个兴趣主题中均出现,则合并后该主
题关键词的权重为两主题中该关键词的权重之和;若某主题关键词未在Ti中出现,则合
并后该主题关键词的权重以Tnew中该关键词的权重表示?(3)将合并后的主题
的所有关键词按权重大小降序排列,取前n个关键词及其权重来表示合并后最终形成的用户
兴趣主题?
综上,基于向量空间模型的用户兴趣定期修正处理算法描述如下:
输入:初始用户兴趣表示I0,主题数m,主题关键词数n,固定周期T,主题间相似度
阈值θ?
输出:修正后的用户兴趣表示I
过程:
步骤1:以某时刻t计时,在时间T内,将用户的每一次浏览行为,以向量Tnew
的形式表示:利用TF-IDF法计算主题各关键词权重并按权重降序排列,取前n个关键词
及其权重以及用户对网页的兴趣度表示该兴趣主题,若关键词个数不足n个,空缺的关键词
及其权重用(“”,0)来填充?将形成的所有兴趣向量存储起来?
步骤2:在时刻t+T处,利用运算1,分别计算主题Tnew与初始兴趣表示中所
有兴趣主题间相似度的最大值,并判断相似度的最大值是否大于预定的阈值θ,如果大于θ
,则进行运算2,否则进入步骤3?
步骤3:将该兴趣主题加入到用户兴趣表示中,并按用户兴趣度降序排列?
步骤4:判断用户兴趣表示中,兴趣主题数是否大于预定值m,若大于m,则取前m个兴趣
主题表示用户兴趣?
步骤5:得到修正后的用户兴趣表示?每隔固定时间T,重复上述步骤?
3 结 论
本文以用户最小浏览行为组合为基础,建立了一个完整的用户兴趣度量函数,在简化用户兴
趣度计算的同时提高了兴趣度估计的准确性?此外,通过引入兴趣度,扩展传统的向量空间
模型,并采用二层树状结构表示用户兴趣,提高了用户兴趣表示的准确性和实用性?相比较
于以往的用户兴趣实时修正处理方法,本文提出的用户兴趣定期修正处理方法能够较好的解
决实时修正带来的系统性能下降问题?
然而,目前所采用的这种通过监测用户兴趣,并在用户兴趣发生改变后作出一系列适应性调
整的用户兴趣修正方法,对用户兴趣转移的反应往往具有一定的滞后性,因此如何挖掘用户
兴趣发生转移的深层原因并提前做出反应将是未来非常值得研究的内容?
参考文献
[1]Georgakis A,Li H.User behavior modeling and content based spec
ulative Web page perfecting[J].Data & Knowledge Engineering,2006,59(3):770-
788.
[2]王继民,彭波.搜索引擎用户点击行为分析[J].情报学报,2006,25(2):154-162.
[3]尹春晖,邓伟.基于用户浏览行为分析的用户兴趣获取[J].计算机技术与发展,2003
,18(5):37-39.
[4]庄晓敏.面向Internet的个性化服务的用户建模技术研究[D].长沙:国防科学技术
大学,2008:60-82.
[5]Widmer G,Kubat M.Learning in the presence of Concept Drift and Hidden Cont
ext[J].Machine Learning,1996,23(1):69-101.
[6]Koychev I,Schwab I.Adaption to Drifting Users Interests[C].In Proceed
dings of ECML Workshop:Machine Learning in new Information Age,2000.
[7]Billsus D ,Pazzani M J.A Hybrid User Model for News Classification[C].I
n Proceedings of the Seventh International Conference on User Modeling(UM99)
,Springer-Verlag,1999:99-108.
[8]单蓉.一种基于用户浏览行为更新的兴趣模型[J].电子设计工程,2010,18(4):61
-63.
[9]李建廷,郭晔,汤志军.基于用户浏览行为分析的用户兴趣度计算[J].计算机工程与
设计,2012,33(3):969-972.
[10]Salton G.Developments in automatic text retrieval[J].science,1991,253
(5023):974-979.
[11]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval
[J].Information processing and Management,1988,24(5):513-523.
[12]伍大清,阳小华,等.基于隐式反馈的用户兴趣漂移方法[J].计算机应用与软件,
2010,27(9):89-91.
i表示,兴趣度等于两个主题的兴趣度之和:IDi+IDnew?(2)在合
并后表示主题的关键词处理方面,若某主题关键词在两个兴趣主题中均出现,则合并后该主
题关键词的权重为两主题中该关键词的权重之和;若某主题关键词未在Ti中出现,则合
并后该主题关键词的权重以Tnew中该关键词的权重表示?(3)将合并后的主题
的所有关键词按权重大小降序排列,取前n个关键词及其权重来表示合并后最终形成的用户
兴趣主题?
综上,基于向量空间模型的用户兴趣定期修正处理算法描述如下:
输入:初始用户兴趣表示I0,主题数m,主题关键词数n,固定周期T,主题间相似度
阈值θ?
输出:修正后的用户兴趣表示I
过程:
步骤1:以某时刻t计时,在时间T内,将用户的每一次浏览行为,以向量Tnew
的形式表示:利用TF-IDF法计算主题各关键词权重并按权重降序排列,取前n个关键词
及其权重以及用户对网页的兴趣度表示该兴趣主题,若关键词个数不足n个,空缺的关键词
及其权重用(“”,0)来填充?将形成的所有兴趣向量存储起来?
步骤2:在时刻t+T处,利用运算1,分别计算主题Tnew与初始兴趣表示中所
有兴趣主题间相似度的最大值,并判断相似度的最大值是否大于预定的阈值θ,如果大于θ
,则进行运算2,否则进入步骤3?
步骤3:将该兴趣主题加入到用户兴趣表示中,并按用户兴趣度降序排列?
步骤4:判断用户兴趣表示中,兴趣主题数是否大于预定值m,若大于m,则取前m个兴趣
主题表示用户兴趣?
步骤5:得到修正后的用户兴趣表示?每隔固定时间T,重复上述步骤?
3 结 论
本文以用户最小浏览行为组合为基础,建立了一个完整的用户兴趣度量函数,在简化用户兴
趣度计算的同时提高了兴趣度估计的准确性?此外,通过引入兴趣度,扩展传统的向量空间
模型,并采用二层树状结构表示用户兴趣,提高了用户兴趣表示的准确性和实用性?相比较
于以往的用户兴趣实时修正处理方法,本文提出的用户兴趣定期修正处理方法能够较好的解
决实时修正带来的系统性能下降问题?
然而,目前所采用的这种通过监测用户兴趣,并在用户兴趣发生改变后作出一系列适应性调
整的用户兴趣修正方法,对用户兴趣转移的反应往往具有一定的滞后性,因此如何挖掘用户
兴趣发生转移的深层原因并提前做出反应将是未来非常值得研究的内容?
参考文献
[1]Georgakis A,Li H.User behavior modeling and content based spec
ulative Web page perfecting[J].Data & Knowledge Engineering,2006,59(3):770-
788.
[2]王继民,彭波.搜索引擎用户点击行为分析[J].情报学报,2006,25(2):154-162.
[3]尹春晖,邓伟.基于用户浏览行为分析的用户兴趣获取[J].计算机技术与发展,2003
,18(5):37-39.
[4]庄晓敏.面向Internet的个性化服务的用户建模技术研究[D].长沙:国防科学技术
大学,2008:60-82.
[5]Widmer G,Kubat M.Learning in the presence of Concept Drift and Hidden Cont
ext[J].Machine Learning,1996,23(1):69-101.
[6]Koychev I,Schwab I.Adaption to Drifting Users Interests[C].In Proceed
dings of ECML Workshop:Machine Learning in new Information Age,2000.
[7]Billsus D ,Pazzani M J.A Hybrid User Model for News Classification[C].I
n Proceedings of the Seventh International Conference on User Modeling(UM99)
,Springer-Verlag,1999:99-108.
[8]单蓉.一种基于用户浏览行为更新的兴趣模型[J].电子设计工程,2010,18(4):61
-63.
[9]李建廷,郭晔,汤志军.基于用户浏览行为分析的用户兴趣度计算[J].计算机工程与
设计,2012,33(3):969-972.
[10]Salton G.Developments in automatic text retrieval[J].science,1991,253
(5023):974-979.
[11]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval
[J].Information processing and Management,1988,24(5):513-523.
[12]伍大清,阳小华,等.基于隐式反馈的用户兴趣漂移方法[J].计算机应用与软件,
2010,27(9):89-91.
i表示,兴趣度等于两个主题的兴趣度之和:IDi+IDnew?(2)在合
并后表示主题的关键词处理方面,若某主题关键词在两个兴趣主题中均出现,则合并后该主
题关键词的权重为两主题中该关键词的权重之和;若某主题关键词未在Ti中出现,则合
并后该主题关键词的权重以Tnew中该关键词的权重表示?(3)将合并后的主题
的所有关键词按权重大小降序排列,取前n个关键词及其权重来表示合并后最终形成的用户
兴趣主题?
综上,基于向量空间模型的用户兴趣定期修正处理算法描述如下:
输入:初始用户兴趣表示I0,主题数m,主题关键词数n,固定周期T,主题间相似度
阈值θ?
输出:修正后的用户兴趣表示I
过程:
步骤1:以某时刻t计时,在时间T内,将用户的每一次浏览行为,以向量Tnew
的形式表示:利用TF-IDF法计算主题各关键词权重并按权重降序排列,取前n个关键词
及其权重以及用户对网页的兴趣度表示该兴趣主题,若关键词个数不足n个,空缺的关键词
及其权重用(“”,0)来填充?将形成的所有兴趣向量存储起来?
步骤2:在时刻t+T处,利用运算1,分别计算主题Tnew与初始兴趣表示中所
有兴趣主题间相似度的最大值,并判断相似度的最大值是否大于预定的阈值θ,如果大于θ
,则进行运算2,否则进入步骤3?
步骤3:将该兴趣主题加入到用户兴趣表示中,并按用户兴趣度降序排列?
步骤4:判断用户兴趣表示中,兴趣主题数是否大于预定值m,若大于m,则取前m个兴趣
主题表示用户兴趣?
步骤5:得到修正后的用户兴趣表示?每隔固定时间T,重复上述步骤?
3 结 论
本文以用户最小浏览行为组合为基础,建立了一个完整的用户兴趣度量函数,在简化用户兴
趣度计算的同时提高了兴趣度估计的准确性?此外,通过引入兴趣度,扩展传统的向量空间
模型,并采用二层树状结构表示用户兴趣,提高了用户兴趣表示的准确性和实用性?相比较
于以往的用户兴趣实时修正处理方法,本文提出的用户兴趣定期修正处理方法能够较好的解
决实时修正带来的系统性能下降问题?
然而,目前所采用的这种通过监测用户兴趣,并在用户兴趣发生改变后作出一系列适应性调
整的用户兴趣修正方法,对用户兴趣转移的反应往往具有一定的滞后性,因此如何挖掘用户
兴趣发生转移的深层原因并提前做出反应将是未来非常值得研究的内容?
参考文献
[1]Georgakis A,Li H.User behavior modeling and content based spec
ulative Web page perfecting[J].Data & Knowledge Engineering,2006,59(3):770-
788.
[2]王继民,彭波.搜索引擎用户点击行为分析[J].情报学报,2006,25(2):154-162.
[3]尹春晖,邓伟.基于用户浏览行为分析的用户兴趣获取[J].计算机技术与发展,2003
,18(5):37-39.
[4]庄晓敏.面向Internet的个性化服务的用户建模技术研究[D].长沙:国防科学技术
大学,2008:60-82.
[5]Widmer G,Kubat M.Learning in the presence of Concept Drift and Hidden Cont
ext[J].Machine Learning,1996,23(1):69-101.
[6]Koychev I,Schwab I.Adaption to Drifting Users Interests[C].In Proceed
dings of ECML Workshop:Machine Learning in new Information Age,2000.
[7]Billsus D ,Pazzani M J.A Hybrid User Model for News Classification[C].I
n Proceedings of the Seventh International Conference on User Modeling(UM99)
,Springer-Verlag,1999:99-108.
[8]单蓉.一种基于用户浏览行为更新的兴趣模型[J].电子设计工程,2010,18(4):61
-63.
[9]李建廷,郭晔,汤志军.基于用户浏览行为分析的用户兴趣度计算[J].计算机工程与
设计,2012,33(3):969-972.
[10]Salton G.Developments in automatic text retrieval[J].science,1991,253
(5023):974-979.
[11]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval
[J].Information processing and Management,1988,24(5):513-523.
[12]伍大清,阳小华,等.基于隐式反馈的用户兴趣漂移方法[J].计算机应用与软件,
2010,27(9):89-91.
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/5 22:44:57