网站首页  词典首页

请输入您要查询的论文:

 

标题 基于BP神经网络的主题爬虫研究
范文

    黄利斌 陈慧

    

    

    摘要:主题爬虫已经成为当下信息采集的重要方式。传统的主题爬虫技术,主题词与其相关性权重是固定不变的,因此,存在随着爬取页面的增加而爬准率下降,错误率上升的问题。本文采用的主题爬虫技术,运用BP神经网络,根据下载网页的特征,动态更新主题词与其相关性权重,从而实现随着爬取页面的增加而爬准率上升,错误率下降。基于BP神经网络的主题爬虫技术,能提高信息采集的效率,降低因采集错误而产生的损失。

    关键词:主题爬虫;BP神经网络;信息采集;主题词表

    中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2019)04-0160-03

    Abstract:Theme crawler has been an important way of obtaining modern information. For traditional theme crawler technology, the theme words and its relevance weights are fixed, which is a problem that the crawl rate decreases and the error rate increases as the number of crawling pages increases. Therefore, we propose a theme crawler technology based on BP neural network, which can dynamically update keywords and their relevance weights according to the characteristics of the downloaded webpage.Intelligent thematic crawler technology based on BP neural network can improve the efficiency of information collection and reduce the loss caused by the acquisition error.

    Key words:Theme crawler; BP neural network; Information Collection; Thesaurus

    1 引言

    互联网具有丰富庞大的数据,为了充分有效地利用互联网的信息资源,并快速构建专业知识库和数据库,应用爬虫技术来采集信息是一种方便、快捷和有效的方式[1]。主题爬虫是一种能在一定时间内运用较少的计算资源、网络资源和存储资源来尽可能采集更多与主题相关的网页文档的特殊爬虫技术[2],它能更好地满足特地用户的特地目的。主题爬虫在抓取页面之后进行解析,判断这些页面是否与主题相关,从而决定是否采集,并且根據相关性制定采集的优先顺序,可以减少采集的数量,增加网页文档与主题的相关性,提高信息采集的效率,降低信息采集的错误率[3]。传统的主题爬虫技术主要基于链接地址和主题词来解析、爬取,其关键词的权重是固定不变的,因此,会随着爬取页面的增加,爬准率下降和错误率上升[4]。

    BP(back propagation)神经网络是目前研究最为成熟、应用最为广泛的人工神经网络模型之一[5]。由于具有较强的非线性模拟能力、强大的自学习和自适应能力,且结构简单、可操作性强、具有较好的自学习能力、能够有效地解决非线性目标函数的逼近问题等优点,因此被广泛应用于自动控制、模式识别、图像识别、信号处理、预测、函数拟合、系统仿真等学科和领域中[6]。

    本文基于BP神经网络的主题爬虫,主要通过计算网页中的关键字与主题的相关性,来判断此网页是否符合这个主题。如果符合,下载并放入数据库中,作为BP神经网络计算主题词权重的资源。传统的主题爬虫技术运用关键词来判断网页权重,其关键词的权重是固定不变的。而本文采用BP神经网络算法,动态更新关键词的权重,因此,他不仅不会随着爬取页面数量的增加而降低查准率,反而会随着网页数据库中页面的增加而增加查准率,降低错误率,实现信息采集效率的提高,降低因采集错误而产生的损失。

    2 系统设计

    本文采用的系统设计,在传统的爬虫技术上增加了词汇权重处理模块,动态更新主题词与其相关性权重。词汇权重处理模块运用优化后的BP神经网络算法和改进后的TF-IDF算法,判断网页中的关键词与主题的相关度[7],筛选出一部分与主题密切相关的关键词,作为主题词,从而建立主题词表。再判断网页中的词汇与词表中的词汇是否相同,如果相同,给予它相应的权重,所有主题词权重之和就是网页与主题相关性的权重。网页权重如果大于设置的阈值,下载并保存到数据库中,否则,抛弃网页。

    如图1所示,具体流程如下:

    1)通过关键词爬取部分网页,放入网页数据库中;

    2)运用BP神经网络算法,计算出与主题相关词汇的权值;

    3)选取权值大于阈值的关键词,作为主题词,构建主题词表;

    4)运用主题爬虫,爬取下一个页面,找到网页中与主题词表相同的关键词,如果大于阈值,则下载到网页数据库中,否则丢弃;

    5)重复上述步骤,达到需要爬取的数量。

    3 词汇处理模块

    3.1 爬取数据的来源

    网页是由HTML(Hypertext Markup Language)的标记语言,用于组织和标准化其在浏览器上的显示效果[8]。HTML主要运用一些预定义的文档、标签来标记文档的标题、页面结构和页面关系等元素,这些元素共同修饰了网页内容的显示效果。

    在数据爬取过程中,爬虫程序无法直接判断网页与主题的相关性。因此,采取与浏览器处理网页文档类似的方式,来了解文档的价值。浏览器系统直接处理的是以HTML标签为主的网页源码,通过这些源码,来处理网页中的内容。这些半结构化的网页标签为本文获得网页相关信息提供了良好的定位,通过了解标签以及其属性的含义,可以从中了解到这网页内容所涉及的主题[9]。网页,通常可以分为三部分,第一部分是标签所影响的头部区域,它一般是对这个页面的概述,以及说明编码等状态信息;第二部分是标签所影响的主体部分,它主要显示网页的正文;第三部分是标签所影响的脚注部分,它主要显示该页面的所有权以及建立时间等关联信息。本文选择拥有网页主要信息的头部区域作为主题相关性判断的依据。

    头部区域具有三个描述网页文档信息的重要元素、<meta name="Keywords"/>和<meta name="description"/>,第一个是网页的标题,第二个是网页文档的关键字,第三个是网页的概述,分析上述三个标签内的相关信息,可以大致判断出网页文档所描述的信息。</p><p>    3.2 词汇权重处理</p><p>    在爬取网页头部信息后,运用分词技术对信息进行分词。本文运用TF-IDF这一传统的词汇权重计算方法为关键词[i]计算本身的权值[10]。TF-IDF作为词汇价值的统计方法被广泛运用在多个领域。考虑到不同的文档位置代表不同的价值,因此,为不同标签的关键字建立特别的权值,使其对其他关键词更具代表性,增加算法的可操作性和准确度。</p><p>    4 实验设计与数据分析</p><p>    本系统采用Python语言实现,Python拥有丰富的框架和库,能快速实现基于BP神经网络算法的智能主题爬虫,操作系统为Windows7,数据库为Mysql,内存为4G,硬盘500G。主要爬取的网站为百度百科,百度百科中拥有各个领域和行业的相关信息且区分度高,本文爬取的主题为农业,程序运行界面如图3所示。</p><p>    为验证基于BP神经网络的主题爬虫的优势,本文比较了基于主题词表和基于PageRank链接的主题爬虫。如图4所示,通过对比三种算法的爬准率,爬准率为下载总数除以爬取总数,可以明显看到随着爬取总数的增加,基于BP神经网络算法的爬准率随着爬取总数的增加而增加。如图5所示,通过对比三种算法的错误率,错误率为与主题无关的下载数除以下载总数。可以明显看到随着爬取总数的增加,基于BP神经网络算法的错误率随着爬取总数的增加而降低。</p><p>    5 结束语</p><p>    本论文设计了一种基于BP神经网络算法的主题爬虫,实验结果表明,基于BP神经网络算法的主题爬虫能动态更新主题词表,具有随着爬取数量的增加,爬准率提升的优势,因此适合需要大量爬取网络信息资源的相关业务,实现提升信息采集的效率,降低信息采集的错误率。</p><p>    参考文献:</p><p>    [1]于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237.</p><p>    [2]朱幸辉.论农村信息综合服务平台设计[J].农村经济与科技,2014,25(6):131-132+134.</p><p>    [3]方逵,羅武,朱幸辉.农业知识库系统设计与实现[J].农机化研究,2013,35(5):8-11.</p><p>    [4]邢敏玲. 基于网页分块的主题爬虫方法研究[D].重庆大学,2011.</p><p>    [5]邹永斌,陈兴蜀,王文贤.基于贝叶斯分类器的主题爬虫研究[J].计算机应用研究,2009,26(9):3418-3420+3439.</p><p>    [6]孙玲芳,周加波,林伟健,等.基于BP神经网络和遗传算法的网络舆情危机预警研究[J].情报杂志,2014,33(11):18-24.</p><p>    [7]潘芳,张霞,仲伟俊.基于BP神经网络的微博网络社群突发舆情的预警监控[J].情报杂志,2014,33(05):125-128.</p><p>    [8]许兴军,颜钢锋.基于BP神经网络的股价趋势分析[J].浙江金融,2011(11):57-59+64.</p><p>    [9]Wang Ying, Lu Cuijie, Zuo Cuiping.Coal mine safety production forewarning based on improved BP neural network[J].International Journal of Mining Science and Technology,2015,25(02):319-324.</p><p>    [10]Zhao Qiu, Ceng Jun Dai, Tao Liu. Design of Theme Crawler for Web Forum[J]. Applied Mechanics and Materials,2014,3147(548).</p><p>    [11]H. Hu, Y. J. Ge. Using Web Crawler Technology for Text Analysis of Geo-Events: A Case Study of the Huangyan Island Incident[J]. ISPRS - International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences,2013,XL-4/W3(1).</p><p>    [12]Gaiyun He, Can Huang, Longzhen Guo, et al. Identification and Adjustment of Guide Rail Geometric Errors Based on BP Neural Network[J]. Measurement Science Review,2017,17(3).</p><p>    【通联编辑:唐一东】

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/10 14:48:39