标题 | 基于IP地址的招生信息访问量分析 |
范文 | 孙道贺++尉寅玮++周建锋 摘 要:介绍了基于IP地址的定位技术。利用网站服务器Tomcat日志系统信息,根据网页URL筛选出访问招生计划信息页面的所有记录,使用IP地址查询接口服务,将访问记录中的IP地址按属地分类,得到各省市的访问量。结合各省市的招生计划数量,对该省市生源情况进行预测分析,为招生部门提供信息参考。 关键词:IP地址定位;Tomcat;日志系统;招生计划 DOIDOI:10.11907/rjdk.1511022 中图分类号:TP301 文献标识码:A 文章编号文章编号:16727800(2015)012003802 0 引言 招生工作是学校重要工作之一,随着网络的发展,人们已经习惯从电子网站获取信息,因此招生计划信息页面浏览量对招生工作而言是一个重要的参考数据。针对这一需求,本文利用Tomcat后台日志系统记录的信息,编程实现了网页浏览量分析子系统。本系统虽是针对招生计划信息页面访问量开发,但也适用于所有网页的访问量分析。 1 IP地址定位技术 IP地址定位的基本原理是利用IP设备的名字、注册信息或时延信息等来估计其地理位置。最初的定位算法通过向DNS服务器查询或者挖掘隐含在主机名中的信息来推测IP设备的地理位置。之后,一些定位算法根据时延与地理距离之间的线性关系来估测主机位置,并通过拓扑信息来缩小定位误差[1]。随着移动互联网的发展,使用移动终端上网的人群成为主流,据CNNIC统计,截至2015年6月,我国手机网民规模达到5.94亿。借助GPS及移动基站,可以提供移动客户终端的精确位置,以提供更多的LBS服务。如果在PC机上安装无线定位装置,则可实现IP地址精确定位。 IP 地址先由IANA 机构进行分配,再由ICANN统一负责。IANA把IP地址分配给5个地域性的IP地址管理机构RIR,即ARIN(北美地区)、LACNIC(拉丁美洲)、RIPENCC(欧洲地区)、APNIC(亚太地区)、AFRINIC(非洲地区)。在RIR之下是国家级注册机构(NIR)、本地区注册机构(LIR)和网络运营商(ISP) [2]。IP地址分配后会在一定时间和地理范围内保持相对稳定,所以可以使用数据库技术建立起IP地址与实际地理位置的对应关系[3],这是目前比较成熟的IP地址定位技术。其优点是简单可行,缺点是定位精度低,且随着定位精度要求越高,准确率越低。省市级位置准确率在99%以上,算法准确率由IP地址库的质量决定。因为招生计划是按照省市级区域下达的,因此招生计划网页访问量分析系统要求客户端地理位置信息精确到省市级即可,本系统使用上述IP定位技术,准确率是有保证的。 2 系统实现 2.1 IP地址查询接口选择 淘宝、设计蜂巢、新浪、搜狐、谷歌、有道、1616、126、hao123、太平洋等公司均提供IP地址查询接口,将IP地址映射为地理位置。IP地址库的质量决定了IP地址定位准确度、精度。参考文献[4]研究了两个国外的IP地址库(GeoLite2 和IP2Location lite) 和4个国内的IP 地址库( 淘宝IP地址库、新浪IP地址库、百度IP地址库、纯真IP地址库)的可信度。认为在4个国内主流的IP地址库中,无论是从覆盖率还是重合率来看,百度IP数据库可信度最低,淘宝IP地址库的可信度最高[4]。本文采用淘宝IP地址库,因为其提供国家、省、市、县、运营商全方位信息,信息维度广,格式规范;提供完善的统计分析报表,省级覆盖度为99.95%,准确度超过99.5%,数据质量有保障[5]。 2.2 IP地址定位时间选择 IP地址定位分为线上和线下两种。线上即在访问网页时进行IP地址定位,此时访问现场信息完整,在返回网页内容前,可以依据获取的客户端IP地址,借助IP地址库实时进行IP地址定位,将结果写入数据库或显示到页面。其优点是实时性好,缺点是会降低网页访问速度,此时如果使用淘宝IP地址接口服务会使得网页访问速度变得更慢,这时,一般会使用纯真IP地址库,将qqwry.dat下载到本地再进行编程转换。线下即在访问网页时,仅将必要的客户端信息(如IP地址、页面URL等)写入Tomcat日志文件,即刻返回网页内容,日后在需要进行分析时,再进行IP地址定位。其优点是只需对Tomcat进行必要配置,网页访问时不需执行额外的程序,利于网站稳定运行,且对网页访问速度影响不大。缺点是日后还需从数十万条日志记录中搜索招生计划网页条目,会花费一定的线下处理时间。鉴于在招生计划页面上显示访客位置信息对访客没有意义,且为了网站稳定运行,尽可能提高网页访问速度,本系统采用线下IP地址定位方式。 2.3 技术路线 开启设置tomcat日志系统,使用日志文件localhost_access_log.*.txt,利用URL提取访问招生计划的记录(本系统中招生计划页面的URL是/tjzhic/zsxx/zsdt/news/0004.html),截取记录中IP地址,将其作为参数传递给淘宝IP地址查询接口,返回省市级地理位置信息,写入数据库,统计出各省市招生计划页面访问量。 (1)开启设置tomcat日志系统,在server.xml中配置如下: pattern="%h %l %u %t ";%r"; %s %b" /> 其中参数%h为远程客户端主机名(IP地址),%r为访问的方式(post或者是get)、访问的资源和使用的http协议版本。本系统中localhost_access_log.2015-07-24.txt中的一条访问记录如下: 183.154.39.102--[24/Jul/2015:08:49:28+0800]"GET /export/sites/tjzhic/zsxx/zsdt/news/0004.html HTTP/1.1" 200 3221。 其中183.154.39.102为IP地址,/tjzhic/zsxx/zsdt/news/0004.html为招生计划页面的URL。 (2)IP地址定位。调用http://ip.taobao.com/service/getIpInfo.php?ip=183.154.39.102,返回的结果如下: {"code":0,"data":{"country":"\\u4e2d\\u56fd","country_id":"CN","area":"\\u534e\\u4e1c","area_id":"300000","region":"\\u6d59\\u6c5f\\u7701","region_id":"330000","city":"\\u91d1\\u534e\\u5e02","city_id":"330700","county":"","county_id":"-1","isp":"\\u7535\\u4fe1","isp_id":"100017","ip":"183.154.39.102"}},这是一个JSON格式字符串,翻译过来表示该IP地址地理位置信息为中国华东地区浙江省金华市。 本系统主要参考了文献[6]提供的代码,加以修改来编程调用淘宝IP地址接口,对JSON格式字符串进行编程处理[6],主要使用了JSONObject、HttpURLConnection类。参考文献[7]详细介绍了JSONObject的使用方法,参考文献[8]介绍了使用URLConnection时的注意事项,要点在于设置合适的参数以及函数调用次序。实际编程中,需要下载json-lib-1.1-jdk13.jar、ezmorph-1.0.2.jar等jar包,并将net.sf.json.JSONObject、java.net.HttpURLConnection及其它相关类导入。其关键语句如下: String str = getJsonContent("http://ip.taobao.com/service/getIpInfo.php?ip="+IP); JSONObject obj = JSONObject.fromObject(str); JSONObject obj2 = (JSONObject) obj.get("data"); resout = obj2.get("region"); 其中obj2.get("region")对本文来说最为重要,它表示获取省市级区域地理信息。 (3)统计访问量。把招生计划网页发布后的日志文件localhost_access_log.*.txt从系统复制到本地,逐条提取访问的URL、IP地址,并转换为地理位置信息。当需要查看某网页省级区域访问统计时,直接提供URL进行查询即可。本系统统计了6月3日至7月24日的访问情况,运行时间大约在6小时左右。 3 统计结果分析 结果分析如下: (1)以上表格数据统计截止到7月24日,总计访问量3 752次。7月15日的统计访问量为3 004次,10天内访问量增加了748次。从以往经验看,访问量达到4 500次以上,招生效果较好,随着招生工作进展,今年有望达到4 500次以上。 (2)随着各省市填报志愿截止日期的临近,网页访问量会快速增加。如浙江省在7月15-24日间,访问量由75次增加到283次,增加了206次。 (3)有些省市访问量偏少,估计报考人数不足。这一方面与该省市考生对学院报考意愿不强有关,另一方面也与该省市的互联网普及率低有关。如贵州省的计划数为153人,访问量为9次,因此建议招生部门拓展除网站外的其它招生宣传渠道。 (4)有些省市访问量较大,估计报考人数充足。这一方面与该省市考生对学院报考意愿强有关,另一方面也与该省市的互联网普及率高有关。建议招生部门根据招生录取实际情况作进一步分析。 (5)以上数据随着时间推移还会增加。 4 结语 本文利用网站服务器Tomcat日志系统信息,使用淘宝IP地址查询接口服务,将访问记录依据IP地址进行属地分类,给出了各省市的招生计划数量与访问量列表,为招生部门提供了信息参考,后续将对日志信息进一步研究。 参考文献参考文献: [1] 王占丰,冯径,邢长友,等. IP定位技术的研究[J]. 软件学报,2014(7):15281531. [2] 聂荣,余建国,张洪欣,等.IP地址地理位置映射技术[J]. 计算机工程, 2008(15):102104. [3] 贾民政,商伟. IP地址地理位置映射技术应用研究[J]. 北京工业职业技术学院学报,2014(1) :5457. [4] 宋建,许可,宋美娜.一种评估国内IP地址库可信度的方法[J]. 计算机应用,2014(S2) :46. [5] 淘宝IP地址库[EB/OL].http://ip.taobao.com/accurancy.php. 20150724. [6] JAVA联网查询IP地址归属[EB/OL].http://www.oschina.net/code/snippet_944819_33978. 20140311. [7] JSONObject使用方法[EB/OL]. http://blog.csdn.net/dongzhouzhou/article/details/8664569. 20150724. [8] JDK中的URLConnection参数详解[EB/OL]. http://www.blogjava.net/supercrsky/articles/247449.html. 20150724. (责任编辑:杜能钢) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。