一种基于潜在出行意图的旅客价值发现模型

徐涛 张继水 卢敏



关键词: 共同出行关系; 潜在出行意图; 航线需求; Gibbs采样; 旅客价值; RFM模型
中图分类号: TN964?34; TP399 ? ? ? ? ? ? ? ? 文献标识码: A ? ? ? ? ? ? ? ? ? ?文章编号: 1004?373X(2019)04?0143?05
A passenger value discovery model based on potential trip purposes
XU Tao1,2, ZHANG Jishui1,2, LU Min1,2,3
(1. College of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China;
2. Information Technology Research Base of Civil Aviation Administration of China, Civil Aviation University of China, Tianjin 300300, China;
3. Key Laboratory of Machine Intelligence and Advanced Computing, Sun Yat?sen University, Guangzhou 510275, China)
Abstract: How to identify passengers with different values is an important issue that the airlines are faced with their targeted marketing. The trip purposes of passengers are concealed in the massive passenger trip data. In the current passenger value evaluation methods, passengers are regard as independent individuals, and only passengers′ trip data is used to calculate passengers′ values, which ignores the influence of passengers′ potential trip motivations on passengers′ values. Aiming at this status quo, a passenger value discovery model based on potential trip purposes is proposed. In the model, Gibbs sampling is used to resolve passengers′ potential trip purposes influenced by passengers′ joint travel relationship. The passengers′ future airline demands are calculated according to the distribution of passengers′ potential trip purposes. The passengers′ values are obtained by combining passengers′ history flight booking frequencies and airlines′ market occupancy of air routes. The experimental results show that the passenger value discovery model based on the potential trip purposes can effectively identify passengers′ values.
Keywords: joint travel relationship; potential trip purpose; airline demand; Gibbs sampling; passenger value; RFM model0 ?引 ?言
隨着我国经济高速增长和国民收入普遍提高,航空旅行逐步成为一种大众化的出行方式。如何识别不同旅客的价值是航空公司争夺优质旅客资源急需解决的重要问题。
传统的旅客价值度量方法有次数法、里程法以及RFM(Recency Frequency Monetry)模型。次数法和里程法分别通过累计旅客乘机次数和乘机里程度量旅客价值;RFM模型则是通过旅客最近一次乘机日期、旅客乘机频次、旅客乘机花费金额三个指标加权度量旅客个体的价值。Chen Sien等通过乘机往返关系推断旅客的SOW(Share of Wallet),提出利用乘机频率、消费金额、舱位级别、旅客影响力4个维度计算旅客价值[1]。这些方法仅利用旅客个体的历史出行数据,计算旅客当前实际产生的价值,把每一个旅客当作彼此不相关联的独立实体。然而,在现实生活中,旅客基于一定的潜在出行意图出行,潜在出行意图客观存在且被所有旅客共享,可以通过大规模旅客出行数据得到民航旅客出行背后隐藏的潜在出行意图。另一方面,具有共同出行关系的旅客之间的潜在出行意图相互影响,准确发现旅客潜在出行意图分布为预测旅客未来航线需求提供了依据。因此,旅客价值计算不能忽略旅客潜在出行意图和旅客关系的影响。
近些年,随着网络购物的蓬勃发展,用户的消费意图分析应运而生。消费意图分析是指用户通过文本内容或行为表达出对某一产品或服务产生的购买意愿,围绕消费意图分析可分为基于文本内容的消费意图分析和基于用户偏好的消费意图分析[2]。
针对民航旅客订票数据集PNR(Passenger Name Record),没有明确的文本触发词如“想去”表达旅客出行愿望,因此旅客潜在出行意图发现不同于一般的基于文本内容的显示消费意图分析。白露等利用词项查询图中查询和查询间的相互关系来影响查询中单词的产生方式,从而达到建模查询意图的目的[3]。王晶晶等利用LDA(Latent Dirichlet Allocation)模型发现城市交通旅客出行意图,根据旅客出行意图将旅客分类[4],但是没有考虑旅客共同出行关系对旅客潜在出行意图的影响;Lin Youfang等通过旅客共同出行关系构建社交网络并生成基于社交网络的新特征,利用这些特征能够推断旅客群体的出行意图,但不能发现相同群体内不同旅客间出行意图的差别[5]。
不同旅客间潜在出行意图分布不同,可以用来发现旅客未来航线需求,从而挖掘富有价值的旅客群体。旅客历史出行航线记录与旅客潜在出行意图的对应关系为旅客潜在出行意图发现提供了可能。彭舰等提出基于潜在出行意图的民航旅客移动模型,将旅客潜在出行意图转化为各航线的吞吐量分布,通过分析影响航线吞吐量的因素,得到大量旅客群体的潜在出行意图的具体描述[6],但没有进一步发现旅客潜在出行意图对旅客价值的影响。
针对以上问题,本文提出一种基于潜在出行意图的旅客价值发现模型。并将旅客共同出行关系引入潜在出行意图发现,通过旅客潜在出行意图分布来计算旅客未来航线需求,再结合旅客历史乘机信息和航线信息得到旅客价值。一方面,旅客共同出行关系丰富了大量低频出行旅客的出行信息;另一方面,通过旅客个体的潜在出行意图分布可以预测旅客未来对所有航线的需求。因此,基于潜在出行意图的旅客价值发现模型仍然适用于数据稀疏的潜在高价值旅客。1 ?相关工作
主题模型在自然语言处理领域受到广泛关注,其核心思想是将主题看成单词的概率分布,通过词在文档级别的共现信息抽取出语义相关的主题集合,并将单词空间的文档变换到主题空间[7]。LDA(Latent Dirichlet Allocation)模型是一个基于文档独立,单词独立的概率生成模型。LDA图模型如图1所示。图1中:α,β是LDA模型的超参数,[α]反映了隐含主题间的相对强弱;[β]表示不同主题下单词出现的概率;[θ]表示每个文档的主题分布;[z]是基于多项式分布从[θ]中选择某一主题的概率;[N]表示文档包含单词[w]的总数;M表示文档集合包含M篇文档。LDA模型假设文档生成包含两个过程:每篇文档抽取自身主题分布[p(θα)];根据主题分布抽取主题[p(zθ)],并基于主题产生单词w。
目前针对LDA模型的扩展主要包括对参数的扩展,面向特定任务的扩展以及引入上下文信息[7]。LDA模型假设主题概率分布服从Dirichlet分布,没有对主题之间相关性进行刻画。然而真实语料中,不同主题间存在相关性的现象很普遍。针对此类改进有层级LDA,CTM(Correlated Topic Model)等;LDA 模型不仅适用于语言处理领域,还可以解决涉及分类、图像处理、情感分析等领域的问题;通过破坏LDA模型可交换性假设,学者们提出了RTM(Relational Topic Model)[8]模型,HTMM(Hidden Topic Markov Model)模型等。
利用LDA模型思想进行民航旅客价值发现,则需要将每条航线看作单词;每位旅客历史出行航线记录构成一篇文档,所有旅客的历史出行航线记录文档构成语料库;旅客历史出行航线记录文档的隐含主题即为潜在出行意图。
同时,民航旅客订票数据集中有大量低频出行旅客,此类旅客出行频次低,历史记录少,具有长尾分布特性,其所对应的历史出行航线记录文档为短文本。LDA模型无法有效挖掘短文本隐含主题,将旅客共同乘机关系引入潜在意图发现模型,可以丰富短文本信息。2 ?基于潜在出行意图的旅客价值发现模型
民航旅客价值受旅客历史乘机频率,旅客未来航线需求以及航空公司航线市场占有率三方面因素影响。未来航线需求与历史航线需求不同,对于旅客历史出行中没有乘坐过的航线,旅客未来对该航线的需求不会恒为0。为了预测旅客未来航线需求,将旅客在出行中持有的出行目的或动机定义为旅客潜在出行意图,大量民航旅客群体的潜在出行意图在民航网络中表现为各航线的吞吐量分布[6]。
2.1 ?旅客价值发现模型
记[c]表示特定航空公司,[r]表示航线,R表示航空公司[c]开辟的航线集合且[R={1,2,…,V}],有M位旅客,[ui]表示第i位旅客,z表示旅客潜在出行意图,K个潜在出行意图。旅客[ui]的价值可以表示为:
[P(uic)=p(ui)r=1Vp(rui)·p(cr)] ? (1)
式中:[p(ui)]為旅客[ui]历史乘机频率,且
[p(ui)=旅客ui历史乘机频次所有旅客历史乘机频次之和] ? ?(2)
[p(cr)]为航空公司c的航线r市场占有率,且
[p(cr)=航空公司c在航线r上开辟航班数国内所有航空公司在航线r上开辟航班总数] ? (3)
[prui]为旅客未来对航线r的潜在需求,即旅客ui基于不同潜在出行意图z选择某条航线r的概率,且
[prui=Kprzpzui] (4)
所有旅客的潜在出行意图分布[pzui]构成矩阵[θM×K],所有潜在出行意图下航线的分布[prz]构成矩阵[φK×V]。无法直接从已知的旅客出行航线数据中得出[θ]和[φ],因此引入旅客潜在出行意图发现方法来计算旅客未来航线需求。
2.2 ?旅客潜在出行意图发现方法
旅客潜在出行意图发现基于如下的假设:
1) 旅客[ui]有[Nui]条历史出行航线记录,旅客[ui]的第n([n≤Nui])条历史出行航线记录[rui,n]([rui,n∈R])基于某种潜在出行意图[zui,n]。
2) 具有共同出行关系的旅客间出行意图分布相似。这两条假设简单直观,且符合旅客实际出行。同LDA主题模型类似,采用航线的吞吐量分布表达潜在出行意图,旅客的每一次出行都是产生于某种潜在出行意图,具体的出行航线蕴含了该潜在出行意图。
此外,旅客潜在出行意图受旅客间关系的影响。旅客共同出行活动体现了旅客间关系:共同出行次数越多的旅客,可能存在某种社会关系,其潜在出行意图分布越相似。而在民航出行中,一些旅客可能互不认识,但是具有共同订票记录,这样的旅客间出行意图分布彼此独立,相似性较小。
为了区分这种虚假的共同出行关系,根据民航旅客出行规律,做如下假设:
1) 在一定时间内,旅客[ui]和旅客[uj]在一次10人以上大团共同出行。这样的旅客间共同出行关系为虚假的共同出行关系[lui,uj=0],旅客间潜在出行意图分布差异较大。
2) 在一定时间内,旅客[ui]和旅客[uj]在一次10人以内的小团旅行中出现。小团旅行中的旅客基本上是互相认识的熟人,因此,认为旅客[ui]和旅客[uj]共同出行关系是真实的共同出行关系[lui,uj=1],旅客间潜在出行意图分布越相似。
记:
[zui=1Nuikzui,k]
用“[?]”表示两个向量的Hadmard乘积。[zui?zuj]度量旅客潜在出行意图的相似性,[η]是一个K维向量,[υ]是截距系数。在传统lDA模型中引入函数[8]:
[P(lui,uj=1)=exp(ηT(zui?zuj)+υ)] ? ? (5)
刻画旅客共同出行关系对潜在出行意图的影响。此时,根据观测到的旅客[ui]与旅客[uj]间共同出行关系[lui,uj],利用改进后的LDA模型,发现旅客潜在出行意图。旅客潜在出行意图发现需要求解参数[θ,φ],即每位旅客的潜在出行意图分布以及不同潜在出行意图下航线的吞吐量分布。
利用Collapsed Gibbs Sampling进行潜在出行意图序列的采样。记所有旅客历史出行航线记录构成出行航线记录文档[r]。
该文档每条历史出行航线记录的潜在出行意图构成向量[z],每次采样该文档中第d条航线历史记录[rd]的潜在出行意图[zd],而保持其他分量的值不变。
为了便于Gibbs求解公式的推导,引入符号:[rd]表示去除第d条航线历史记录后的出行航线记录文档,[zd]表示去除第d条航线历史记录所对应的潜在出行意图后的潜在出行意图向量;[t(i)k]表示所有旅客历史出行记录中航线i(i=1,2,…,V)被分配潜在出行意图k的次数;[n(k)ui]表示旅客[ui]的历史出行航线记录中属于潜在出行意图k的历史出行航线记录个数;[Nuj:lui,uj=0]表示与旅客[ui]共同出行关系[lui,uj=0]的旅客[uj]集合大小。
旅客潜在出行意图发现Gibbs采样公式如下:
[p(zd=xzd,rd,rd,l,α,β,η,υ)∝(n(x)ui,d+α)t(rd)x,d+βr=1Vt(r)x,d+Vβ· ? ? ? ? ? ? ? ?exp1NuiPerc(uj,x)· ? ? ? ? ? ? ? ?1-expk=1K(n(k)uiPerc(uj,k))Nui·Nuj:lui,uj=0+υNui·Nuj:lui,uj=0] ? (6)
且[Perc(uj,x)=ηx·uj:lui,uj=0n(x)ujNuj]。
得到每条历史出行航线记录的潜在出行意图后,计算[θui,x]和[φx,r],且:
[θui,x=n(x)ui+αk=1Kn(k)ui+Kα] ? ? ? ? ?(7)
[φx,r=t(r)x+βr=1Vt(r)x+Vβ] (8)
[prui=x=1Kθui,xφx,r] ? ? ? ?(9)
根据式(9)得到旅客未来航线需求,再代入式(1)就可以计算出旅客对于航空公司的價值。3 ?实验结果与分析
3.1 ?数据预处理
实验采用中国民航订票系统中2010年1月—2011年12月某航空公司的PNR旅客订票数据集。根据2010年旅客订票数据发现旅客共同出行关系,通过旅客价值发现模型得到2010年数据集中的高价值旅客,并用2011年数据集作为验证集进行验证。
3.2 ?评价指标
通过不同旅客价值发现模型计算得到2010年数据集中的高价值旅客集合,统计2011年旅客真实乘机次数得到真实高价值旅客集合,比较这两个集合的相似性与差异性来验证本文所提模型的有效性。采用常用的比较两个集合A和B之间的相似性与差异性的Jaccard 距离[J(A,B)]来评价实验效果。计算方法如下:
[J(A,B)=A?BA?B=A?BA+B-A?B]
3.3 ?模型参数设置
对于旅客价值发现,超参数[α]取经验值[9?10]为[50K]。[β]是航线r上的平滑参数,当[β=0]时,得到的潜在出行意图完全依赖数据集,导致过度拟合。为了更好地预测旅客未来航线需求,适当增大[β]取值避免矩阵[φ]过于稀疏,选取[β=1,2]。用k表示旅客潜在出行意图的数目,无法直接观测。为了获得最优K值,采用余弦距离度量不同出行意图的相似度,当出行意图间的平均相似度最小时,分类最好,对应的K值最优。取不同步长不同K值分别进行旅客出行意图平均相似度实验如图2,图3所示,可知当旅客潜在出行意图个数K=4时,旅客出行意图平均相似度最小。不同出行意图下航线吞吐量分布不同,截取不同潜在出行意图下吞吐量分布最高的前10条航线如表1所示。3.4 ?实验比较
分别用次数法、里程法以及基于潜在出行意图的旅客价值发现模型计算得到2010年旅客价值排名前N的旅客集合。再统计得到2011年旅客真实价值有序表,截取真实价值降序表排名前N的旅客集合,比较这两个集合的Jaccard 距离。实验结果如图4所示。由图4可见,当N=2 000时,基于潜在出行意图的旅客价值发现模型Jaccard 距离为0.842 469,明显高于次数法和里程法。即使当N=10 000时,基于潜在出行意图的旅客价值发现模型Jaccard 距离为0.534 348,而次数法和里程法中效果最好的次数法仅为0.508 296。这是由于里程法和次数法仅考虑单一因素计算旅客价值,没有考虑旅客未来航线需求所引起的旅客价值变化。而基于潜在出行意图的旅客价值发现模型利用Gibbs采样准确发现旅客共同出行关系影响下的旅客潜在出行意图,通过潜在出行意图分布得到旅客未来航线需求。综合考虑了旅客历史乘机次数、航空公司航线市场占有率以及旅客未来航线需求计算旅客价值。
4 ?结 ?语
通过提出基于潜在出行意图的旅客价值发现模型,将潜在出行意图转化为所有航线的吞吐量分布,并将旅客共同出行关系引入潜在出行意图发现模型,预测旅客未来航线需求。旅客价值计算不局限于单一旅客的出行数据,同时基于潜在出行意图的旅客价值发现模型还包含了由于旅客未来航线需求的增长而带来的价值变化。实验结果表明,选取旅客价值降序表排名前2 000的旅客集合,基于潜在出行意图的旅客价值发现模型比次数法的Jaccard 距离提高了0.078 8。
注:本文通讯作者为张继水。
参考文献
[1] CHEN Sien, ZHU Jianping, XIE Qichang, et al. Understanding airline passenger behavior through PNR, SOW and Webtrends data analysis [C]// Proceedings of 1st International Conference on Big Data Computing Service and Applications. Redwood: IEEE, 2015: 323?328.
[2] 付博,刘挺.社会媒体中用户的隐式消费意图识别[J].软件学报,2016,27(11):2843?2854.
FU Bo, LIU Ting. Implicit user consumption intent recognition in social media [J]. Journal of software, 2016, 27(11): 2843?2854.
[3] 白露,郭嘉丰,曹雷,等.基于查询意图的长尾查询推荐[J].计算机学报,2013,36(3):636?642.
BAI Lu, GUO Jiafeng, CAO Lei, et al. Long tail query recommendation based on query intent [J]. Chinese journal of computers, 2013, 36(3): 636?642.
[4] WANG Jingjing, CHEN Xi, CHEN Zhihong, et al. Cluster algorithm based on LDA model for public transport passengers′ trip purpose identification in specific area [C]// Proceedings of International Conference on Intelligent Transportation Engineering. Singapore: IEEE, 2016: 186?192.
[5] LIN Youfang, WAN Huaiyu, JIANG Rui, et al. Inferring the travel purposes of passenger groups for better understanding of passengers [J]. IEEE transactions on intelligent transportation systems, 2015, 16(1): 235?243.
[6] 彭舰,由明阳,黄飞虎,等.基于潜在出行意图的民航旅客移动模型[J].工程科学与技术,2017,49(6):107?113.
PENG Jian, YOU Mingyang, HUANG Feihu, et al. Civil Aviation passenger mobility model based on the potential trip purpose [J]. Advanced engineering sciences, 2017, 49(6): 107?113.
[7] 徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423?1436.
XU Ge, WANG Houfeng. The development of topic models in natural language processing [J]. Chinese journal of computers, 2011, 34(8): 1423?1436.
[8] CHANG J, BLEI D M. Relational topic models for document networks [C]// Proceedings of the 12th International Conference on Artificial Intelligence and Statistics. Florida: JMLR, 2009: 81?88.
[9] 曹建平,王晖,夏友清,等.基于LDA的双通道在线主题演化模型[J].自动化学报,2014,40(12):2877?2886.
CAO Jianping, WANG Hui, XIA Youqing, et al. Bi?path online topic evolution model based on LDA [J]. Acta Automatica Sinica, 2014, 40(12): 2877?2886.
[10] 郭蓝天,李扬,慕德俊,等.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报,2016,34(4): 698?702.
GUO Lantian, LI Yang, MU Dejun, et al. A LDA model based topic detection method [J]. Journal of Northwestern Polytechnical University, 2016, 34(4): 698?702.