网站首页  词典首页

请输入您要查询的论文:

 

标题 基于百度地图API和Moran
范文

    刘琛

    

    

    

    摘 要:在进行空间统计分析的方法中,传统的空间统计方法在构建空间权重矩阵时,往往需要进行人工测量和手写,这些可能步骤会降低精准度和增大误差的偶然性,为了简化空间统计分析中构建空间权重矩阵的步骤,提出了一种基于百度地图API和Moran'sI指数的空间统计分析方法。该方法调用了百度地图开放的免费接口可以得到目标地点的精确位置,从而利用了百度地图的准确性,减少了人工构建矩阵的误差可能性。经过对江苏省代理ip延迟分布的空间自相关分析实验,得到江苏省代理ip存在空间自相关的结论,验证了该方法的可行性。虽然在验证的过程中使用的是传统的Moran'sI检验,但经过可视化处理后观察得到与模型结论的一致性,验证了模型的可行性。因此提出的方法有效的提高了模型的准确性和简化了模型的构建难度。

    关键词:百度地图接口;代理ip;空间权重矩阵;Moran'sI检验

    中图分类号:TB 文獻标识码:Adoi:10.19311/j.cnki.1672-3198.2019.26.106

    1 引言

    随机互联网发展迅猛,重要数据很容易沉没于互联网之海。人工采集数据的方法已经不能满足快速获取有效信息的需求。网络爬虫成了当下获取网络信息的一大渠道,同时各网站也出现了对应的反爬虫策略,比如将爬虫的ip拉入黑名单就是最常用的策略。通常避免ip黑名单的方法就是加入代理ip。并且免费代理ip在西刺代理、快代理等各大网站有发布。面对杂乱无章的代理ip列表,对各地列表进行空间统计分析,作为采集ip的一种参考。

    空间相关性研究是空间统计学的研究手法,其应用领域已经进入到金融学、病理研究、社会学、环境学等多种领域。对于传统空间统计方法有MoransI检验和GearysC检验,但几乎所有空间统计方法需要用到空间权重矩阵,该矩阵一般由研究者监测和手写,有不易编辑的缺陷。百度地图 API 是百度公司免费为开发者提供的地图应用网络编程接口,无须任何版权费用,利用它可以很好地实现本系统的开发。本文充分利用百度地图 API 提供的丰富的地图接口进行开发计算空间权重矩阵,以我国代理ip网站特点的基础,将空间统计分析方法运用到免费代理ip分布研究中。

    2 相关技术研究

    2.1 空间自相关指标Moran'sI指数

    空间单元的分布特征和聚集趋势可以由空间自相关性来反应,因此对空间相关性进行测度,也就是单元聚集趋势的程度。Moran指数是由Moran于1948年提出的 ,反映的是空间邻接或空间邻近的区域单元属性值的相似程度。MoransI检验是对已知某种属性的数据数组进行评估,从而判断其是否满足离散模式、聚类模式或是随机模式。指数计算公式如式(1)。

    在(1)式中,I为全局MoransI指数,Ii为局部MoransI指数,wij为空间权重矩阵i行j列元素,xi为空间观测值矩阵第i个观测值,xMean为观测值平均值,n为观测值个数。I的取值可经过标准化到[-1,1]中,正数表示观测值相似的空间会趋近在一起,负数表示观测值相近的空间会远离,等于0表示不存在空间自相关;I值与1的差越小,空间单元之间差距越小。I值与-1的差越小,空间单元差距越大。当I接近于-1/(n-1)时,观测值之间才相互独立,即属性的分布呈无规律的随机分布状态。全局型指标能够判断出现像在空间上的整体分布情况,但难以探测出聚集的位置所在及区域相关的程度。忽略了空间过程的潜在不稳定。到底是高高集聚还是低低集聚?哪个区域单元对全局贡献更大?这就必须进行局部空间自相关分析。局部指标用于反映整个大区域中一个局部小区域单元上的某属性值与相邻局部小区域单元上同一属性值的相关程度。对观测值在空间上是否存在空间自相关,可计算Z值推断,计算公式如式(2)。

    2.2 百度地图坐标接口

    百度地图为开发者提供了丰富的接口调用主要提供JavaScript、iframe、WebService和http + xml 等接口,包括定位、地图、搜索、鹰眼轨迹、导航路线规划路况等功能。开发者可以很方便地访问百度服务和数据,创建功能全面、交互性强的地图应用程序,支持 PC端和移动端基于浏览器的地图应用开发,且支持HTML5特性的地图开发。其中的正/逆地理编码功能即可得到对应地点的经纬度,利用Python的requests模块对百度地图应用发起请求可随时使用该功能。百度地图的开发文档可见网址http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-geocoding,请求需要填写的参数如表1。

    2.3 爬虫爬取免费代理网站

    为了研究代理ip的分布特征,需要爬取代理ip的数据,数据公布较全面、反爬虫策略较少、更新及时的网站适合作为数据来源。反爬虫机制,即一系列反爬虫措施的集合。反爬虫机制通过预处理请求头、封锁IP、异步加载、使用加密JS算法、设置验证码等措施达到封锁爬虫的目的。支持网络通信的编程语言均可以编写网络爬虫,Python因为有大量优秀的爬虫库,代码简洁易懂,在网络爬虫领域有着广泛的应用。与调研百度地图API的原理相同,需要用到Python的requests模块对免费代理网站进行访问。在获得网页HTML源码后,利用xpath表达式可以得到对应网页中的元素,其中xpath表达式可在浏览器进入代理网站后,右击对应元素打开开发者工具可以得到浏览器提供的表达式。最后将数据写入sqlite数据库,供后续程序调用。

    3 基于百度地图API和Moran'sI指数的空间统计分析方法

    代理ip广泛应用与信息安全领域,本文研究的方法以江苏省代理ip延迟在空间自相关的统计分析为例,在爬取完数据后,数据应有ip、端口、延迟时间、地点等属性,数据库中部分代理ip如表2。

    3.1 利用百度地图API构建空间权重矩阵

    按照文档内容,利用python的requests编写爬虫填写表1参数发起get请求即可得到对应地点的经纬度。空间数据自身带有空间位置属性,隐含了相对地理位置关系,因此需构造空间权重矩阵度量空间单元的距离,把空间信息转化为数值,利用API获得经纬度如表3。

    对两地坐标计算欧氏距离,然后以反距离权重法计算距离的p次方的倒数作为权重,本文的p为3,为了得到标准的Moran'sI指数,需要进一步的将矩阵进行行归一化使得行元素和为1如式(4),最终的权重矩阵下:

    空间权重矩阵行列索引均为[南京市,南通市,常州市,徐州市,无锡市,淮安市,盐城市,苏州市,镇江市]。市区与市区间的权重表示距离,距离越大,权重越小,主对角元素为0表示自己不与自己相邻。空间权重归一化后,不再有数量级影响,只反应空间单元的位置关系。

    3.2 Moran'sI检验

    本文的观测矩阵为2016年江苏省代理ip的延迟均值,观测空间为江苏省9个市,因为网站对2016年公布的代理ip最为齐全,保证各市当年样本量大于30,观测矩阵如表4。

    根据式(1)可求得全局Moran'sI指数为0.37710,说明江苏省市级之间的ip代理之间呈空间正相关,局部Moran'sI指数见表5,Moran散点图如图1,以观测离差值和标准化观测值为坐标点的Moran散点图,常来研究局部的空间不稳定性,它对空间滞后因子进行可视化。变量观测值和其空间滞后之间的拟合程度(直线的斜率)恰好是Moran'sI系数。

    可见无锡市、镇江市和苏州市存在显著空间正相关,呈现空间聚集模式,对全局的空间聚集模式贡献较大,将观测值和局部Moran'sI指数进行可视化绘制热力图,如图2和图3。

    由图1和图2可看出江苏地区的代理ip延迟有属性值高的区域与属性值高的区域聚集在一起现象,为了进一步验证该特征,需进行Z值检验以确认造成此种相关性的原因是由于偶然因素或系统过程,根据式(2)可以得到全局Z检验数为2.3906,局部Z检验数如表6。

    原假设为观测空间上不存在空间自相关,全局Z检验数>1.96,证明观测值在0.05的水平上显著,选择拒绝原假设,因此认为观测空间上存在空间自相关,Z值大于0且显著,相似的观测值(高值或低值)趋于空间聚集。

    4 结论

    本文提出一种基于百度地图API和Moran'sI指数的空间统计分析方法,以江苏省各市的免费代理ip分布为例,首先用Python编写爬虫爬取得到代理网站的数据。整理得到各市的代理ip延迟时间平均值作为观测值矩阵,然后编写爬虫发起网络请求调用百度地图API得到江苏省各市的经纬度,使用反距离权重法求得空间权重矩阵,最后求出全局和局部Moran'sI指数,进行显著性验证后得到江苏省代理ip延迟存在空间自相关的结论。整个过程验证了该研究方法的可行性,成功缓解了传统研究方法对生成空间权重矩阵的不便,同时利用了百度地图的精准度提高了研究的精准度。

    本文利用基于百度地图API和Moran'sI指数的空间统计分析方法进行实验,并取得了良好的实验效果,但该方法并没有考虑空间统计学中时间维度的影响,也没有采用当下更前端的空间统计检验方法,只是从技术层改进了传统空间统计的步骤,所以讨论更多改良算法是下一步研究的重点。

    参考文献

    [1]白杨.Python代理IP定向采集爬虫的设计与实现[J].中国新通信,2019,21(01):40-41.

    [2]刘石磊.对反爬虫网站的应对策略[J].电脑知识与技术,2017,13(15):19-21.

    [3]王雪青,陈媛,刘炳胜.中国区域房地产经济发展水平空间统计分析——全局Moran's I、Moran散点图与LISA集聚图的组合研究[J].数理统计与管理,2014,33(1):59-71.

    [4]王仲君,邹亚娟,赵华玲.基于空间自相关的肺结核扩散的机理分析[J].中国卫生统计,2013,30(5):630-634.

    [5]曾昭法,左杰.中国省域城镇化的空间集聚与驱动机制研究——基于空间面板数据模型[J].中国管理科学,2013,(S2):580-586.

    [6]潘竟虎,张文,李俊峰,等.中国大范围雾霾期间主要城市空气污染物分布特征[J].生态学杂志,2014,33(12):3423-3431.

    [7]王红崧,周海晏.基于百度地图API的旅游地理信息系统开发[J].现代计算机(专业版),2012(23):60-63.

    [8]戴平生,陈建宝.空间统计学研究应用综述[C]//国际应用统计学术研讨会,2008.

    [9]郑静,许学强,陈浩光.广州市人口结构的空间分布特征分析[J].热带地理,1994,14(2):133-142.

    [10]Cliff A D,Ord J K.Spatial Processes[M].London:Pion,1981:266.

    [11]苗得文,邱满,许忠奇,等.基于NewMap API的地图服务系统在交通拥堵识别中的应用研究[J].计算机科学,2013,40(Z6):384-386.

    [12]王静.基于Scrapy的电子商务网络测量与网络特征分析[D].北京:北京交通大学,2012.

    [13]彭程.基于空间统计分析的农产品价格数据挖掘——以猪肉价格为例[J].农业现代化研究,2014,35(1):000029-32.

    [14]李新,程国栋,卢玲.空间内插方法比较[J].地球科学进展,2000,15(3):260-265.

    [15]徐偉嘉,何芳芳,李红霞,等.珠三角区域PM_(2.5)时空变异特征[J].环境科学研究,2014,27(9):951-957.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/16 2:34:13