网站首页  词典首页

请输入您要查询的论文:

 

标题 基于Wide&Deep的广告点击率预测模型综述
范文

    冯宇寒 陈琳 周刚

    

    

    

    摘要:广告点击率预估模型在前深度学习时代工业界大多使用训练速度快、可解释强的LR以及挖掘联合特征的FM模型。2016年google提出的Wide&Deep模型为之后的预估模型开辟了一条双网格训练的道路。本文聚焦于Wide&Deep族的广告点击率预估模型,在代码上实现了各模型,并在数据集上进行了实验对比。

    关键词:深度学习;广告点击率预估;Wide&Deep

    中图分类号:TH69? ? ? 文献标识码:A

    文章编号:1009-3044(2020)32-0224-02

    Abstract:In the pre-deep learning era, the advertising click-through rate prediction model mostly used LR with fast training speed and strong interpretability and FM model with joint feature mining. The Wide&Deep model proposed by Google in 2016 opened up a dual-grid training path for the subsequent prediction model. This article focuses on the prediction model of advertising click-through rate of the Wide&Deep family,implements each model on the code,and conducts an experimental comparison on the data set.

    Key words:deep learning; ad click-through rate estimation; Wide&Deep

    1 引言

    从1994年10月第一个banner广告出现开始,互联网广告已经发展成一个数十亿美元的规模的产业[1]。广告点击率模型在传统机器学习时代,主要的模型从2010年之前的逻辑回归(LR),进化到因子分解機(FM)、梯度提升树(GBDT)。在广告点击率模型进入到深度学习时代后,其中最为著名的是2016年google提出的Wide&Deep[2]模型,该模型创造性地提出了记忆能力与泛化能力,将线性模型与深度学习网络融合训练,能够同时兼具挖掘藏在数据身后规律和记住大量历史信息的能力。后续发展出现的深度学习模型DCN[3]、DeepFM[4]、AFM[5]以及NFM[6]和NFFM均是经过该模型为基础所调整。

    本文对在业界影响力较大的几大模型[7]做了介绍,并且用代码实现了各个模型,在数据集上运行各个模型,在实验基础上对各模型优劣展开论述。

    2 算法原理

    本文着眼于Wide&Deep、DCN、DeepFM以及NFM模型。

    2.1 Wide&Deep

    Wide&Deep模型创造性地提出了记忆性和泛化性两个概念,该模型把单输入层的Wide部分和经过多层感知机的Deep部分连接起来,一起输入最终的输出层。其中Wide部分的主要作用是让模型具有记忆性,单层的Wide部分善于处理大量稀疏的id类特征,便于让模型直接“记住”用户的大量历史信息;Deep部分的主要作用是让模型具有“泛化性”,利用DNN表达能力强的特点,挖掘藏在特征后面的数据模式。之后LR输出层将Wide部分和Deep部分组合起来,形成输出结果。Wide&Deep对之后模型的影响在于——大量深度学习模型采用了两部分甚至多部分组合的形式,利用不同网络结构挖掘不同的信息后进行组合,充分利用和结合了不同网络结构的特点。

    2.2 FM

    在Wide&Deep之后,诸多模型延续了双网络组合的结构,DeepFM就是其中之一。DeepFM对Wide&Deep的改进之处在于,它用FM替换掉了原来的Wide部分,加强了浅层网络部分特征组合的能力。事实上,由于FM本身就是由一阶部分和二阶部分组成的,DeepFM相当于同时组合了原Wide部分、二阶特征交叉部分与Deep部分三种结构,无疑进一步增强了模型的表达能力。

    2.3 DCN

    Google 2017年发表的Deep&Cross Network(DCN)同样是对Wide&Deep的进一步改进,主要的思路使用Cross网络替代了原来的Wide部分。其中设计Cross网络的基本动机是为了增加特征之间的交互力度,使用多层cross layer对输入向量进行特征交叉。单层cross layer的基本操作是将cross layer的输入向量xl与原始的输入向量x0进行交叉,并加入bias向量和原始xl输入向量。DCN本质上还是对Wide&Deep中的Wide部分表达能力不足的问题进行改进,与DeepFM的思路非常类似。

    2.4 NFM

    相对于DeepFM和DCN对于Wide&Deep中对Wide部分的改进,NFM可以看作是对Deep部分的改进。FM可以看作是由单层LR与二阶特征交叉组成的W&D架构,与W&D架构的不同之处仅在于Deep部分变成了二阶隐向量相乘的形式。再进一步,NFM从修改FM二阶部分的角度出发,用一个带Bi-interaction层的DNN替换了FM的特征交叉部分,形成了独特的W&D架构。其中Bi-interaction可以看作是不同特征embedding的element-wise product的形式。这也是NFM相比Wide&Deep的创新之处。

    3 实验分析

    3.1 实验数据以及预处理

    本文选择了criteo在kaggle上举办的展示广告点击率预估挑战大赛的数据集,在该数据集中,criteo共享了一周的流量数据。该数据集共有四十个特征,第一个为标签,为二分类类型,含义为该用户是否点击广告。第二到十四个特征是连续性特征,全部为整数。剩下的26个特征为分类特征,并且值被hash处理过,以达到特征匿名的效果。

    本实验将该数据集按9:1进行划分分为训练集和测试集。对连续性特征进行缺失值补0,离散分桶处理;对离散型特征过滤频率低于10的特征值处理。

    3.2 评价指标

    本实验采用AUC评价指标。

    在介绍评价指标之前,要先介绍准确率和召回率两个概念。准确率P为预测为正的样本中,真实标签为正的样本的比例P=TP/(TP+FP);召回率R为真实标签为正的样本中,预测为正的比例R=TP/(TP+FN)。

    而在ROC曲线中,横轴为假正例率FPR,纵轴为真正例率TPR。其中假正例率为真实标签为负的样本中,预测为正的样本比例FPR=FP/(FP+TN);真正例率实际上就是召回率。如果模型A的ROC曲线能完全包住模型B的ROC曲线,则可断言A的性能比B好,但是两个模型的ROC往往是相交的,这时为了比较性能就需要用到AUC。

    AUC就是ROC曲线和x轴(FPR轴)之间的面积。AUC考虑的是模型预测的排序质量,反映了模型把正例排在反例前面的比例,如果AUC=1,说明模型100%将所有正例排在反例前面。

    3.3 实验结果与分析

    在运行时间上,如表2所示,7万两千个样本Wide&Deep只训练了1686秒,DeepFM训练了2641秒,DCN训练了8549秒,NFM训练了2502秒。在表中我们可以直观看出Wide&Deep在样本上训练的时间极短、极快,而相应的DCN的训练时间上很难达到Wide&Deep的量级,达到了2.4个小时。

    如表2所示,更多的训练时间使得DCN在评价指标上拿到了最好的表现,AUC值比最差的Wide&Deep高出了两个千分点,相比于表现第二好的NFM模型提升了一个千分点。在实验中,我们也看到另一指标LogLoss的值,虽然DCN在这些模型中的表現并不好看,但从指标意义来看,LogLoss是一个通用性的指标,AUC则更加希望正类得分尽可能高,故我们仍然可以说DCN在这些深度学习模型中表现最好。

    4 结论

    在实验中,我们简单地实现了模型,用这些基础模型来对深度学习中的广告点击率模型做综述,并未对参数进行调优,故我们得出有限的结论:在运行时间上,Wide&Deep有着巨大的优势,训练时间短,相比于DCN缩短了五倍。在理论上和实践中,DCN模型的优势则更突出,超参数数目更多,模型更复杂。更充分地挖掘了特征背后的关系,联合特征对结果的影响。在此实验中,网络结构更为复杂的DCN确实拿到了最好的表现效果。

    参考文献:

    [1] 刘鹏, 王超.计算广告:互联网商业变现的市场与技术[M].北京:人民邮电出版社, 2015.

    [2] CHENG H T, KOC L, HARMSEN J, et al.Wide & Deep Learning for Recommender Systems[C]//The Workshop on Deep Learning for Recommender Systems.Boston, USA, 2016:7-10.

    [3] WANG R, FU B, FU G, et al.Deep & Cross Network for Ad Click Predictions[C]//Proceedings of AdKDD and TargetAd.Halifax, 2017:1-7.

    [4] GUO H, TANG R, YE Y, et al.DeepFM:A Factorization-Machine based Neural Network for CTR Prediction[C]//Procee-dings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.Melbourne, Australia, 2017:1725-1731.

    [5] XIAO J, YE H, HE X N.Attentional Factorization Machines:Learning the Weight of Feature Interactions via Attention Networks[C]//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.Melbourne, Australia, 2017:3119-3125.

    [6] HE X G, CHUA T S.Neural Factorization Machines for Sparse Predictive Analytics[C]//The 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.Shinjuku, Tokyo, Japan, 2017:355-364.

    [7] 刘梦娟,曾贵川,岳威,等.面向展示广告的点击率预测模型综述[J].计算机科学,2019,46(7):38-49.

    【通联编辑:梁书】

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/6 4:06:05