标题 | 搜索日志分析研究述评 |
范文 | 王淼 摘要:本文首先对搜索日志的基本概念和发展起源进行简单的介绍。第二部分介绍了网页标签和日志文件的优缺点,以及Jansen搜索日志分析方法的步骤和衡量指标。第三部分对国内外目前利用搜索日志分析方法研究用户行为的现状进行总结。然后讨论用户在搜索话题,查询词长度,浏览页面三方面的变化过程和搜索日志分析方法的优缺点。最后对文章内容进行总结,并给出了以后的几个研究方向。 关键词:网络搜索;用户行为;搜索日志;长度 中图分类号:TP393 文献标志码:A 文章编号:1009-3044(2018)32-0263-04 1 引言 2018年8月20日,中国互联网络信息中心(CNNIC)发布第42次《中国互联网络发展状况统计报告》[1]。《报告》显示,截至2018年8月,中国网民规模达8.0亿,互联网普及率为57.78%。随着网络与信息资源的飞速发展,网络搜索(Web Searching)已经成为人们获取信息的主要途径。然而,在大数据背景下,检索系统往往不能准确地返回用户真实需求。因此,为了提升检索系统的性能,对网络搜索行为(Web Searching Behavior)的研究是非常必要的。 整体来说,网络搜索行为的研究可以分为两个方向[2]。如图1所示。第一,采用搜索日志分析或者网页标签来获取显性数据揭示用户搜索行为(explicit searching behavior)。网页标签是在网页中嵌入一小段代码,这段代码不影响网页的加载和运行,然后利用JavaScript將网页和用户的信息发回到远程服务器端。日志文件记录用户与系统的一系列交互过程。利用网页标签或者日志文件中记录的数据研究用户网络搜索行为。第二,用户研究揭示导致用户搜索行为的隐性因素(implicit factors)。用户研究主要采集用户的个人特征,例如用户的搜索技能、领域知识、认知、情感等。研究个人特征对于用户搜索行为的影响。本文主要关注搜索日志分析,因为搜索日志记录了用户的整个查询过程,包括查询词,点击频次以及URL等丰富信息。如何通过日志分析来了解用户的网络搜索行为,已经成为当前重要研究方向。 本文第二部分介绍了Jansen的搜索日志分析方法的步骤。第三部分介绍了国内外使用搜索日志分析方法进行的相关实证研究。在第四部分的讨论中讨论用户在搜索话题,查询词长度,浏览页面三方面的变化过程和搜索日志分析方法的优缺点。最后一部分是对文章的总结和未来发展方向的展望。 2 方法论 2.1 日志文件与网页标签的优缺点 日志文件与网页标签作为两种不同记录用户行为的方式,都可以用来做分析用户行为。网页标签以Google Analytics为代表。这种记录用户与系统的交互过程需要用户是网站的拥有者,才可以在网站内部嵌入代码,监测用户行为。日志的内容主要包括用户的IP地址,日期,时间,查询词,浏览页面,请求方式等。目前,常用的标准日志格式主要有NCSA(National Center for Supercomputing Applications) Common Log,NCSA Combined Log,NCSA Separate Log,和W3C Extended Log,其中最常见的是W3C格式的日志。 日志文件与网页标签作为两种不同记录用户行为的方式相比之下各有优势。主要表现在是否需要web服务器,额外的代码,软件以及带宽,是否会报告所有的(包括加载成功和失败的网页)信息,以及是否能获得用户信息等,主要区别见表1[3]。对于那些没有自己web服务器的公司可以考虑使用网页标签的方式来获取数据研究用户行为,组织或企业可以根据自己的需要选择合适的方式获取数据,本文主要关注日志文件。 2.2 搜索日志分析方法步骤和衡量指标 自1998年以来,人们对搜索日志的利用日益频繁,尽管所探讨的研究问题多种多样,然而在开展搜索日志分析的手段上彼此之间存在很多重合,只是未形成统一、可复制的模式。直到2006年,Jansen正式提出了由数据采集、处理和分析三个阶段组成的搜索日志分析过程(如图2所示),并对各阶段所包含的任务内容进行了详细的描述,尤其是分析阶段的三个层次,即关键词(Term)、查询式(Query)和搜索会话(Session)[4],这也成为相关研究纷纷遵循的方法指引。 2.2.1 数据采集 作为网络日志的一个子类,搜索日志则侧重于反映搜索交互的特点。除了常规的用户身份和日期时间以外,搜索日志中最重要的字段就是用户所提交的查询式,即他们在搜索框里输入的关键词组合。其他具有研究价值的字段还包括搜索结果页面和页面点进(Click-through),其中前者是搜索引擎根据用户查询式返回的一组结果条目集合,后者是用户通过点击特定结果条目去访问的页面[5]。在数据采集时选取哪些字段应该依据研究问题而定。 2.2.2 数据处理 从服务器上获取的搜索日志原始数据通常都需要经过一系列的处理。首先是崩溃记录(如字段内容的缺失和错位)的筛查,可以依次对所有的字段进行排序,错误数据会出现在每个字段列的两端或是聚集到一起。其次是人类记录的识别,可以认为连续提交查询式的数量不超过特定阈值(如100个)的才是真实用户,因为计算机代理的特征是在短时间内提交大量的查询式。最后是搜索片段的规范化。当用户查看完结果网页再返回搜索引擎的时候,服务器会生成一条新的记录,其中查询式保持不变,只是更新了时间,这样会给查询式数量的统计带来误差,所以需要将日志文件中的查询式提交记录和结果页面请求记录区分开来,然后对同一个用户的相同查询式进行合并[4]。 2.2.3 数据分析 Jansen的搜索日志分层分析框架是根据搜索交互的基本构成提出来的:关键词是对意义的表达,在形式上不可再分,是最小的单元;查询式由一个或多个关键词组成,代表了用户的信息需求;搜索会话是指用户为了实现特定搜索目标而进行的一系列活动,包括查询式的提交和结果条目的点击,一段搜索会话中可能出现一个或多个查询式。需要特别指出的是,关键词和查询式是可以直接从日志文件中提取的;而如果一个用户拥有多个搜索会话,这些会话之间不存在可见的边界,必须根据一定的机制来进行划分。一种方法是规定一个会话时长阈值,凡是超过该时长的记录都划入下一个会话[5];另外一种方法是规定一个会话间隔阈值,如果两条相邻记录之间的时间间隔超过该值,那么它们就属于不同会话[6]。 3 实证研究 该小节对国内外经典的十几篇运用搜索日志分析方法的文章进行梳理,以期得到用户搜索行为的演变过程和发展趋势,为搜索引擎和网站的建设和改进提供建议。当然,对于第二部分提出的分析层次的研究内容,不是每篇文章都会分析所有的指标。下面抽取了几个重要的SLA的指标,这些指标在很多文章中都被提及。对于那些不常见的指标,会在分析过程中讨论。如表2所示: 从数据收集时间上来看,最长的是1988年Jones的研究,歷时427天。主要原因是该数字图书馆主要针对计算机科学文档,每天的访问量在70-80之间,想要获得比较有客观和有代表性的数据。必须经过相当长一段时间。最短的时间跨度是1天,随着科技的不断发展,现在的搜索引擎一天的访问量就过亿。所以,无须长时间搜集数据。从检索系统上来看,Jansen在2006年提出搜索日志分析可以用在图书馆系统,传统的IR系统,以及近年来常用的Web系统中[4]。传统的IR系统随着科技的发展市场占有率越来越低,所以很少有文章对其进行研究。文中提及大多为搜索引擎的分析,也有少数站内(例如图书馆系统)搜索日志分析。从数据量上看从几万到几亿不等。说明足够大的数据量才可以代表和反映用户信息行为。 4 讨论 术语层次:高频术语,主要有sex、applet、mp3、淘宝网、迅雷看看等。高频术语的分布,无论是中文还是英文,都符合zipf分布[20],即用户的很多查询都是重复的,很少一部分查询就占据了用户需求的大部分,所以对于搜索引擎引入缓存机制是非常必要的。对于术语共现,很多文章并没有给出报告,Silverstein在1999对于术语的共现进行研究,研究发现共现的词大都是平常生活中我们经常在一起使用的词,例如我们输入网址时http与www同时出现,又如visual和basic是一款软件的名字,这些共现词大都是常用短语或者固定搭配。 查询词层次:在用户查询词长度方面,首先是英文,在2000年左右,平均查询词长度在2.3左右。其次是中文,陈红涛2007年分词后查询词的平均长度为2.27,2013年董志安分词后长度增加到3.29。说明随着大数据时代的到来,信息的爆炸式增长,用户需要更多的词来表述信息需求。对于查询词的复杂性,在英文查询中又大概17%的查询串会使用高级查询。而中文中仅有不到1%。即目前中文检索用户更多的检索方式只是简单地输入几个关键词,这说明在使用检索系统的过程中,简便是很重要的因素。也说明了各种复杂功能的指定应从用户使用便利的角度出发。对查询词的优化(也称重构),中文的查询词更倾向于完全更改查询词。而英文偏重于对查询式进行修改。Jansen在2009[5]年试图建立一个查询词重构预测模型。用来预测用户查询词重构行为,为其查询行为提供帮助。模型分为四个阶段,运用搜索日志中的1523072个查询词对每个阶段的模型进行评估。最后得出第一和第二阶段模型可以较好地对用户的查询词重构行为进行预测。 会话层次:对于会话长度,中文英文都稳定在2个左右。证明一个用户在查询的过程中并不会输入太多的查询词,通常查询词在两个左右就可以满足用户的需求。从查询词返回结果界面的浏览情况来看,大部分的人仅浏览了第一个页面的内容。Jones的之所以结果浏览0个页面的人占大多数,主要是因为它是图书馆的搜索引擎,通常在对图书馆书目检索过程中用户不需要打开某个链接,在结果页面上就可以直接找到所需答案。并且Jones发现大多数的用户会不加任何修改地使用搜索引擎的默认设置。Jansen在2003年文章中对用户对搜索结果的查看情况进行分析,主要包括查看的web文档数,以及用户浏览文档与查询词之间的联系。每个用户浏览的文档的平均值为8.2,每个查询词对应浏览文档的平均值为2.5。有趣的时,结果显示,用户的会话平均时长为2小时21分55秒,与先前研究出入较大,Jones在1998年得出会话的平均长度是10.83分。作者认为是一些较长的会话扭曲了研究结果。例如用户并没有关闭网页就去干其他事情,导致出现了一些很长又没有意义的会话。由此可见对会话结束时间规定一个阀值是十分必要,例如用户在5分钟内与系统没有交互,我们则认为会话结束。但是,52%的用户会话时长在15分钟以内,这与先前的研究结果是一致的。最后,作者让三个独立的评审机构对用户浏览结果页面和用户查询词的相关性就随机抽出来530个URL进行打分,结果显示,52%的用户的查询结果和查询词是相关的。 5 总结 本文对国内外采用搜索日志分析的方法研究网络搜索行为的文章进行了简单的综述。希望给读者展现出整个领域的起源、发展、现状和前沿方向,为后续研究该领域的学者提供借鉴和指导。第一部分对搜索日志的基本概念和发展起源进行简单的介绍。第二部分介绍了Jansen的搜索日志分析方法的衡量指标和步骤。第三部分总结了国内外目前对对应用搜索日志分析方法研究用户行为的现状。在讨论部分,总结了用户在术语,查询词、会话方面的一些特征。 我们认为未来的搜索日志分析可以从以下几个方面来进行:a.实时搜索引擎的日志分析,Jansen在2011[21]对实时搜索引擎Collecta的日志进行分析,试图分析作为搜索引擎前沿发展的实时搜索与传统的搜索引擎的联系和区别。主要研究实施搜索查询词的分布特征以及实时查询的经济价值。研究结果表明实时查询中稀缺词(Unique query,在数据库中只出现一次)的比例只有30%,与传统的搜索引擎相比较低。这表明在实时搜索时查询词的更新速度非常快。这与传统搜索引擎不一致。在评估实时查询的经济价值时采用Googel AdWards,结果显示52%的实时查询信息都会创造经济价值。但是,目前对实时搜索引擎的研究并不多见,我们可以把实时搜索引擎作为未来搜索日志分析的重要研究方向。b.随着搜索引擎(例如谷歌)越来越国际化,一个搜索引擎不仅仅支持一种语言。但是一个引擎可能多其他语言的支持情况就不太理想。例如谷歌对中文的支持程度就不如百度。我们可以通过搜索日志分析来研究搜索引擎对多语言的支持机制。为引擎向支持多语言的方向发展提供指导性建议c.现在很多手机都支持语音输入查询,语音输入和用户输入有很大不同,很多都是自然语言。而随着高端智能手机的普及。语言查询所占的查询比例越来越搞。但是对语音输入查询串的研究只有Yi在2011年的研究中有提到。所以我们的搜索日志分析有必要对语音输入的查询进行专门的研究。d.搜索日志分析方法可以应用到信息偶遇研究中,信息偶遇是指用户在做一件事情的时候偶遇碰到自己所需要的信息[22]。我们可以通过对搜索日志进行分析,清楚的界定信息偶遇的整个过程,从而更好地把握信息偶遇的内涵和特征。 参考文献: [1] 第42次中国互联网络发展状况统计报告(R).中国互联网络信息中心(CNNIC),2018年8月。 [2] Jiang T. Characterizing and Evaluating Users' Information Seeking Behavior in Social Tagging Systems[D]. University of Pittsburgh, 2011. [3] Booth D, Jansen B J. A review of methodologies for analyzing websites[J]. Handbook of Research on Web Log Analysis. Information Science Reference, 2009: 143-164. [4] Jansen B J. Search log analysis: What it is, what's been done, how to do it[J]. Library & information science research, 2006, 28(3):407-432. [5] Jansen B J. The methodology of search log analysis[M]// Jansen B J, Spink A, Taksa I. Handbook of research on Web log analysis. Hershey, PA: Idea Group Inc., 2008:99-121. [6] G?ker A, He D. Analysing Web search logs to determine session boundaries for user-oriented learning[C]// Proceedings of the International Conference of Adaptive Hypermedia and Adaptive Web-based Systems, 2000:319-322. [7] Bendersky M, Croft W B. Analysis of long queries in a large scale search log[C]// Proceedings of the 2009 Workshop on Web Search Click Data, 2009:8-14. [8] Jones R, Bartz K, Subasic P, Rey B. Automatically generating related queries in Japanese[J]. Language Resources and Evaluation, 2006, 40(3-4):219-232. [9] Jones S, Cunningham S J, McNab R, Boddie S. A transaction log analysis of a digital library[J]. International Journal on Digital Libraries, 2000, 3(2):152-169. [10] Silverstein C, Henzinger M, Marais H, Moricz M. Analysis of a very large Web search engine query log[J]. SIGIR Forum, 1999, 33(1):6–12. [11] Jansen B J, Spink A, Saracevic T. Real life, real users, and real needs: A study and analysis of user queries on the web[J]. Information Processing & Management, 2000, 36(2):207-227. [12] Jansen B J, Spink A, Pedersen J O. The Effect of Specialized Multimedia Collections on Web Searching[J]. Journal of Web Engineering, 2004, 3(3-4):182-199. [13] Jansen B J, Spink A, Pedersen J. A temporal comparison of AltaVista Web searching[J]. Journal of the American Society for Information Science and Technology, 2005, 56(6):559-570. [14] 陳红涛. 基于搜索日志的用户行为研究及应用[D]. 北京邮电大学, 2007. [15] Chau M, Fang X, Yang C C. Web searching in Chinese: A study of a search engine in Hong Kong[J]. Journal of the American Society for Information Science and Technology, 2007, 58(7):1044-1054. [16] 余慧佳, 刘奕群, 张敏, 等. 基于大规模日志分析的搜索引擎用户行为分析[J]. 中文信息学报, 2007, 21(1): 109-114. [17] Zhang Y, Jansen B J, Spink A. Time series analysis of a Web search engine transaction log[J]. Information Processing & Management, 2009, 45(2): 230-245. [18] 黄日茂, 叶琳莉. 基于日志分析的用户搜索行为研究[J]. 莆田学院学报, 2010, 17(2):70-73. [19] 董志安, 吕学强. 基于百度搜索日志的用户行为分析[J]. 计算机应用与软件, 2013, 30(7): 17-20. [20] 王建勇, 单松巍, 雷鸣,等. 海量Web搜索引擎系统中用户行为的分布特征及其启示[J]. 中国科学:技术科学, 2001, 31(4):372-384. [21]Jansen B J, Liu Z, Weaver C, et al. Real time search on the web: Queries, topics, and economic value[J]. Information Processing & Management, 2011, 47(4): 491-506. [22]Erdelez S. Investigation of information encountering in the controlled research environment[J]. Information Processing & Management, 2004, 40(6):1013-1025. 【通联编辑:梁书】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。