基于用户点击的线性回归在内容推荐中的应用研究
石方夏
摘 要: 在内容推荐中根据用户的浏览偏好进行内容排序对提高用户的点击率具有至关重要的作用。推荐流中内容随着时间变化呈现出流动性,分析历史数据中用户和推荐内容的点击信息进行回归分析,提取用户在内容点击时特征的相关性,并对特征进行归一化,拟合出在当前特征分布下的点击率,以线性回归作为拟合模型进行用户点击率预测。实验以今日头条中用户浏览点击日志为测试数据集,采用改进算法进行内容排序时截取单领域下用户点击内容作为点击率进行验证,实验结果表明,改进算法能够较为准确地推荐用户倾向点击的内容。
关键词: 用户点击率; 线性回归; AUC; 特征抽取; 回归分析
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)17?0135?03
Application of linear regression based on user clicks rate in content recommendation
SHI Fangxia
(School of Information Engineering, Xizang Minzu University, Xianyang 712082, China)
Abstract: The content ranking according to users′ browsing preference in content recommendation plays an important role in improvement of the user clicks rate. The content in recommendation flow changes with time. The clicks information of user and recommendation content in historical data is analyzed for regression analysis. The feature correlation while user clicks the content is extracted. The features are normalized to fit the clicks rate of current features distribution. The linear regression is used as the fitting model to predict user clicks rate. The logs browsed and clicked by users are taken as the test dataset in the experiment. The content clicked by users in the single field is cut out with the improved algorithm as the clicks rate for verification. The experimental results show that the improved algorithm can recommend clicks content of user preference accurately.
Keywords: user clicks rate; linear regression; AUC; feature extraction; regression analysis
0 引 言
目前,國内新闻类产品如今日头条、一点资讯和微博头条等都以内容推荐为主,如何提高内容推荐的准确性,从而提升用户对推荐内容的点击率,提升用户对平台的粘性,对提升平台的用户留存具有非常重要的意义。
用户在内容浏览时的用户行为至关重要,用户对内容的点击、评论和转发等行为都能很明显地反映用户对内容的偏好程度,分析抽取用户在内容浏览时的反馈行为能够很好地帮助提升平台内容排序的准确性。本文尝试以用户在内容浏览时对各个领域点击分布为出发点,抽象出用户对各个领域的兴趣度,进而分析提取用户对各个领域的点击倾向性,并结合内容的时间因素和热度因素进行综合回归分析,基于线性回归中各个特征的强解释性,采用线性回归进行各个特征的回归系数拟合。
1 线性回归
线性回归模型作为业界的常用模型,对于趋势分析有非常好的效果。因其模型简单并且对特征可解释性强,因此在工业界得到了广泛应用。线性回归可描述为:对于一系列的给定特征,分析给定特征和实际值之间的一种组合关系,假设实际值总能够根据一定的组合方式由给定的一系列特征拟合得到,称这种组合方式为线性回归。实际值和特征之间的组合关系可表示为:
(1)
式中:表示实际值;表示给定的各个特征值;表示组合方式,组合方式可以表示为向量形式的回归系数。回归分析是一种近似的分析,通过大量的数据训练,不断地对当前最优的回归系数进行再调整,以一种迭代收敛的方式最小化损失函数,从而获得最优解,损失函数表示如下:
(2)
2 用户点击率回归拟合
用户的点击具有一定的局部性,即用户在一段时间内浏览的内容主题是相对固定的,通过截取分析用户一段时间的点击日志进行回归分析,拟合最佳的回归系数,从而提高内容排序的准确性,提升用户的点击欲望。
假设截取时间段为对于用户,用户历史推荐的内容为,表示给用户推荐的第条内容,从内容角度可以划分的领域集合为,对于用户假设给用户总共推荐条内容,用户共点击条内容,则认为用户在时间段内对内容集合的点击率为记为对于领域而言,同理,根据点击次数和总推荐次数比值得到对于领域的点击倾向性对于时间特征和内容本身的热度特征,取平均值后进行归一化。假设在线性回归时选取各个领域、时间和内容热度三个维度的特征,用户的点击率作为实际值,则可以将线性回归公式归纳为:
(3)
式中:表示各个领域的回归系数;和分别表示时间衰减的回归系数和内容热度的回归系数。其中时间衰减的特征计算方式如下:
(4)
内容热度的计算方式采用逻辑函数进行归一化:
(5)
假设在时间段内共有用户个,则个用户对应会产生个点击率以及点击率对应的各个维度特征,可表示为:
(6)
3 实验与分析
实验选取今日头条中用户浏览和点击的测试数据集,测试数据集截取时间段为2016年3月10日上午8:00—22:00之间14个小时共计1亿条浏览记录,对该1亿条记录进行分析处理,根据内容信息提取内容从属的领域信息,领域列表采用今日头条公开的领域分类集合,内容的领域提取策略采用文本匹配的方式,即内容中有文本能够和领域相匹配,则该内容从属于该领域,可能存在当前内容从属于多个领域的情况。与此同时,可以获得内容的热度信息(即该条内容的评论数)、内容的时间特性。测试数据集的样例格式如表1所示。
在表1中,第一列表示用户是否点击该条内容,第二列表示用户设备号,第三列表示推荐内容,第四列表示时间。今日头条对内容领域的分类包括财经、军事、国际、时尚、游戏等不到100个领域的分类。
3.1 评价指标
ROC和AUC是评价分类器的指标。ROC是受试者工作特征曲线(Receiver Operating Characteristic Curve) 的简写,又称为感受性曲线(Sensitivity Curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定標准下所得的结果而已。ROC是反映敏感性和特异性连续变量的综合指标,用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1?特异性)为横坐标绘制成曲线。AUC是ROC曲线下面积(Area Under ROC Curve)的简称,顾名思义,AUC的值就是处于ROC Curve下方的那部分面积的大小。通常,AUC的值介于0.5~1.0之间,AUC越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。
AUC计算常用方式是统计所有的(为正类样本的数目,为负类样本的数目)个正负样本对中有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的score相等时,按照0.5计算,然后除以计算公式如下:
(7)
回归的一个重要特性是提高用户预测的准确性,因此采用训练之后的模型进行回归预测时,一个重要的指标是评判模型的预测是否能够提高用户的点击率,即是否能够将用户倾向点击的内容挑选出来。此处的点击率验证可以转化为用户推荐的准确率,即给用户推荐的条内容中,用户点击的条数量,则推荐准确率可以表示为:
(8)
3.2 实验分析
实验选取测试数据集的1亿条数据,其中70%作为模型的训练数据,30%作为测试数据,其中30%的测试数据可以用于验证模型的AUC和准确率。准确率的验证方式采用单领域按小时进行时间切分,具体见实验对比部分。
为了对比不同方式下在测试数据集上的AUC表现,分别选取本文的线性回归模型、基于时间和热度序的模型以及纯热度序的模型,采用三种方式分别计算在测试数据集上的AUC体现,如图1所示。
从图1可以看出,本文的点击回归模型在AUC上表现良好,均值都保持在0.7以上,相对于时间热度模型和纯热度模型,本文的模型在AUC上有较为明显的提升。同时,将数据分布的14个时间段以两个小时为间隔进行AUC对比,可见,本文模型在AUC上的表现也较为稳定。
如前所述,采用训练模型对比用户在数据集上的准确率(点击率)表现。采用单领域下分时段的准确率分析。具体做法为:以领域和时间片为划分,时间片的分割单位为h,选取单领域下时间片为某1 h内的30%测试数据,用三种模型(点击回归模型、时间热度模型和纯热度模型)分别计算得分排名Top100的内容,根据实际情况下Top100中用户点击内容的占比来定义准确率。具体的数据表现如图2所示。
从图2可以看出,本文的点击回归模型在点击准确率上同样表现良好,在某些峰值点,点击率能达到60%以上,这在内容推荐流中对提高用户的点击率是非常有效的。基于时间热度序和纯热度序的模型则相对较为欠缺,热度序在某些点会和时间热度序持平,这可以解释为热度序在一定程度上能够反映用户的点击倾向性受到群体的影响。
4 结 语
本文通过在内容推荐流中拟合用户的点击信息进行回归分析,通过提取用户历史的点击领域信息以及推荐内容本身的时间信息和热度信息,并对测试数据集以AUC和点击率进行指标评估。实验结果表明,本文的模型相比于时间热度序和纯热度序能较为明显地提升用户的点击欲望。下一步的工作应当是考虑提取深层次的信息进行补充,同时,基于用户协同过滤的思想,提升群体智慧。
参考文献
[1] 黄斌,彭志平.基于级联过滤的多模型融合的推荐方法[J].小型微型计算机系统,2016(1):33?37.
[2] 余永红,陈兴国,高阳.一种基于耦合对象相似度的项目推荐算法[J].计算机科学,2014(2):33?35.
[3] 陈珂,邹权,彭志平,等.异质社交网络中协同排序的好友推荐算法[J].小型微型计算机系统,2014(6):1270?1274.
[4] 朱亮,陆静雅,左万利.基于用户搜索行为的query?doc关联挖掘[J].自动化学报,2014(8):1654?1666.
[5] 华晓芳,杨绪兵.隐目标回归算法设计研究[J].计算机工程与设计,2014(9):3113?3118.
[6] 聂卉.基于内容分析的用户评论质量的评价与预测[J].图书情报工作,2014(13):83?89.
[7] 王萍,王毅,文丽.优化用户满意体验的数字资源建设探究[J].中国图书馆学报,2014(5):98?109.
[8] 陈洁敏,汤庸,李建国,等.个性化推荐算法研究[J].华南师范大学学报(自然科学版),2014(5):8?15.
[9] 李广利.科技查新用户满意度影响因素分析[J].现代情报,2014(10):162?165.
[10] 李忠俊,周启海,帅青红.一种基于内容和协同过滤同构化整合的推荐系统模型[J].计算机科学,2009(12):142?145.
摘 要: 在内容推荐中根据用户的浏览偏好进行内容排序对提高用户的点击率具有至关重要的作用。推荐流中内容随着时间变化呈现出流动性,分析历史数据中用户和推荐内容的点击信息进行回归分析,提取用户在内容点击时特征的相关性,并对特征进行归一化,拟合出在当前特征分布下的点击率,以线性回归作为拟合模型进行用户点击率预测。实验以今日头条中用户浏览点击日志为测试数据集,采用改进算法进行内容排序时截取单领域下用户点击内容作为点击率进行验证,实验结果表明,改进算法能够较为准确地推荐用户倾向点击的内容。
关键词: 用户点击率; 线性回归; AUC; 特征抽取; 回归分析
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)17?0135?03
Application of linear regression based on user clicks rate in content recommendation
SHI Fangxia
(School of Information Engineering, Xizang Minzu University, Xianyang 712082, China)
Abstract: The content ranking according to users′ browsing preference in content recommendation plays an important role in improvement of the user clicks rate. The content in recommendation flow changes with time. The clicks information of user and recommendation content in historical data is analyzed for regression analysis. The feature correlation while user clicks the content is extracted. The features are normalized to fit the clicks rate of current features distribution. The linear regression is used as the fitting model to predict user clicks rate. The logs browsed and clicked by users are taken as the test dataset in the experiment. The content clicked by users in the single field is cut out with the improved algorithm as the clicks rate for verification. The experimental results show that the improved algorithm can recommend clicks content of user preference accurately.
Keywords: user clicks rate; linear regression; AUC; feature extraction; regression analysis
0 引 言
目前,國内新闻类产品如今日头条、一点资讯和微博头条等都以内容推荐为主,如何提高内容推荐的准确性,从而提升用户对推荐内容的点击率,提升用户对平台的粘性,对提升平台的用户留存具有非常重要的意义。
用户在内容浏览时的用户行为至关重要,用户对内容的点击、评论和转发等行为都能很明显地反映用户对内容的偏好程度,分析抽取用户在内容浏览时的反馈行为能够很好地帮助提升平台内容排序的准确性。本文尝试以用户在内容浏览时对各个领域点击分布为出发点,抽象出用户对各个领域的兴趣度,进而分析提取用户对各个领域的点击倾向性,并结合内容的时间因素和热度因素进行综合回归分析,基于线性回归中各个特征的强解释性,采用线性回归进行各个特征的回归系数拟合。
1 线性回归
线性回归模型作为业界的常用模型,对于趋势分析有非常好的效果。因其模型简单并且对特征可解释性强,因此在工业界得到了广泛应用。线性回归可描述为:对于一系列的给定特征,分析给定特征和实际值之间的一种组合关系,假设实际值总能够根据一定的组合方式由给定的一系列特征拟合得到,称这种组合方式为线性回归。实际值和特征之间的组合关系可表示为:
(1)
式中:表示实际值;表示给定的各个特征值;表示组合方式,组合方式可以表示为向量形式的回归系数。回归分析是一种近似的分析,通过大量的数据训练,不断地对当前最优的回归系数进行再调整,以一种迭代收敛的方式最小化损失函数,从而获得最优解,损失函数表示如下:
(2)
2 用户点击率回归拟合
用户的点击具有一定的局部性,即用户在一段时间内浏览的内容主题是相对固定的,通过截取分析用户一段时间的点击日志进行回归分析,拟合最佳的回归系数,从而提高内容排序的准确性,提升用户的点击欲望。
假设截取时间段为对于用户,用户历史推荐的内容为,表示给用户推荐的第条内容,从内容角度可以划分的领域集合为,对于用户假设给用户总共推荐条内容,用户共点击条内容,则认为用户在时间段内对内容集合的点击率为记为对于领域而言,同理,根据点击次数和总推荐次数比值得到对于领域的点击倾向性对于时间特征和内容本身的热度特征,取平均值后进行归一化。假设在线性回归时选取各个领域、时间和内容热度三个维度的特征,用户的点击率作为实际值,则可以将线性回归公式归纳为:
(3)
式中:表示各个领域的回归系数;和分别表示时间衰减的回归系数和内容热度的回归系数。其中时间衰减的特征计算方式如下:
(4)
内容热度的计算方式采用逻辑函数进行归一化:
(5)
假设在时间段内共有用户个,则个用户对应会产生个点击率以及点击率对应的各个维度特征,可表示为:
(6)
3 实验与分析
实验选取今日头条中用户浏览和点击的测试数据集,测试数据集截取时间段为2016年3月10日上午8:00—22:00之间14个小时共计1亿条浏览记录,对该1亿条记录进行分析处理,根据内容信息提取内容从属的领域信息,领域列表采用今日头条公开的领域分类集合,内容的领域提取策略采用文本匹配的方式,即内容中有文本能够和领域相匹配,则该内容从属于该领域,可能存在当前内容从属于多个领域的情况。与此同时,可以获得内容的热度信息(即该条内容的评论数)、内容的时间特性。测试数据集的样例格式如表1所示。
在表1中,第一列表示用户是否点击该条内容,第二列表示用户设备号,第三列表示推荐内容,第四列表示时间。今日头条对内容领域的分类包括财经、军事、国际、时尚、游戏等不到100个领域的分类。
3.1 评价指标
ROC和AUC是评价分类器的指标。ROC是受试者工作特征曲线(Receiver Operating Characteristic Curve) 的简写,又称为感受性曲线(Sensitivity Curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定標准下所得的结果而已。ROC是反映敏感性和特异性连续变量的综合指标,用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1?特异性)为横坐标绘制成曲线。AUC是ROC曲线下面积(Area Under ROC Curve)的简称,顾名思义,AUC的值就是处于ROC Curve下方的那部分面积的大小。通常,AUC的值介于0.5~1.0之间,AUC越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。
AUC计算常用方式是统计所有的(为正类样本的数目,为负类样本的数目)个正负样本对中有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的score相等时,按照0.5计算,然后除以计算公式如下:
(7)
回归的一个重要特性是提高用户预测的准确性,因此采用训练之后的模型进行回归预测时,一个重要的指标是评判模型的预测是否能够提高用户的点击率,即是否能够将用户倾向点击的内容挑选出来。此处的点击率验证可以转化为用户推荐的准确率,即给用户推荐的条内容中,用户点击的条数量,则推荐准确率可以表示为:
(8)
3.2 实验分析
实验选取测试数据集的1亿条数据,其中70%作为模型的训练数据,30%作为测试数据,其中30%的测试数据可以用于验证模型的AUC和准确率。准确率的验证方式采用单领域按小时进行时间切分,具体见实验对比部分。
为了对比不同方式下在测试数据集上的AUC表现,分别选取本文的线性回归模型、基于时间和热度序的模型以及纯热度序的模型,采用三种方式分别计算在测试数据集上的AUC体现,如图1所示。
从图1可以看出,本文的点击回归模型在AUC上表现良好,均值都保持在0.7以上,相对于时间热度模型和纯热度模型,本文的模型在AUC上有较为明显的提升。同时,将数据分布的14个时间段以两个小时为间隔进行AUC对比,可见,本文模型在AUC上的表现也较为稳定。
如前所述,采用训练模型对比用户在数据集上的准确率(点击率)表现。采用单领域下分时段的准确率分析。具体做法为:以领域和时间片为划分,时间片的分割单位为h,选取单领域下时间片为某1 h内的30%测试数据,用三种模型(点击回归模型、时间热度模型和纯热度模型)分别计算得分排名Top100的内容,根据实际情况下Top100中用户点击内容的占比来定义准确率。具体的数据表现如图2所示。
从图2可以看出,本文的点击回归模型在点击准确率上同样表现良好,在某些峰值点,点击率能达到60%以上,这在内容推荐流中对提高用户的点击率是非常有效的。基于时间热度序和纯热度序的模型则相对较为欠缺,热度序在某些点会和时间热度序持平,这可以解释为热度序在一定程度上能够反映用户的点击倾向性受到群体的影响。
4 结 语
本文通过在内容推荐流中拟合用户的点击信息进行回归分析,通过提取用户历史的点击领域信息以及推荐内容本身的时间信息和热度信息,并对测试数据集以AUC和点击率进行指标评估。实验结果表明,本文的模型相比于时间热度序和纯热度序能较为明显地提升用户的点击欲望。下一步的工作应当是考虑提取深层次的信息进行补充,同时,基于用户协同过滤的思想,提升群体智慧。
参考文献
[1] 黄斌,彭志平.基于级联过滤的多模型融合的推荐方法[J].小型微型计算机系统,2016(1):33?37.
[2] 余永红,陈兴国,高阳.一种基于耦合对象相似度的项目推荐算法[J].计算机科学,2014(2):33?35.
[3] 陈珂,邹权,彭志平,等.异质社交网络中协同排序的好友推荐算法[J].小型微型计算机系统,2014(6):1270?1274.
[4] 朱亮,陆静雅,左万利.基于用户搜索行为的query?doc关联挖掘[J].自动化学报,2014(8):1654?1666.
[5] 华晓芳,杨绪兵.隐目标回归算法设计研究[J].计算机工程与设计,2014(9):3113?3118.
[6] 聂卉.基于内容分析的用户评论质量的评价与预测[J].图书情报工作,2014(13):83?89.
[7] 王萍,王毅,文丽.优化用户满意体验的数字资源建设探究[J].中国图书馆学报,2014(5):98?109.
[8] 陈洁敏,汤庸,李建国,等.个性化推荐算法研究[J].华南师范大学学报(自然科学版),2014(5):8?15.
[9] 李广利.科技查新用户满意度影响因素分析[J].现代情报,2014(10):162?165.
[10] 李忠俊,周启海,帅青红.一种基于内容和协同过滤同构化整合的推荐系统模型[J].计算机科学,2009(12):142?145.