利用专业数据采集工具获取网络数据的方法

    杨健

    

    

    随着移动互联网的日益普及和广泛应用,网络上的资讯成为人们获取信息的重要来源。人们通常根据需求使用百度等搜索引擎,输入关键字,检索所需的网页内容。在浏览网络资讯信息的同时,人们还希望能够将这些信息保存下来,选择适当的方法进行数据分析,得出有效结论,为日后相关决策提供可靠依据。

    那么如何保存网页上的信息呢?通常情况下,大家会选中网页上需要的信息,然后通过“复制”和“粘贴”操作,保存在电脑的本地文件中。这种方法虽然简单直观,但是操作繁复,不适宜大批量数据信息的采集。为了准确便捷地获取网络中的海量数据,人们设计开发了多种用于采集数据信息的专业工具,借助专业工具中网络爬虫的强大功能,能够更加准确、方便、快速地获取网页信息。这样的专业数据采集工具有很多种,本文以“八爪鱼”数据采集工具为例,介绍专业数据采集工具的功能、原理及使用方法。

    “八爪鱼”数据采集工具的功能

    “八爪鱼”数据采集工具是一款通用的数据采集器,能够采集98%的网页上的文本信息。它可根据不同网站提供多种网页采集策略,也可以自定义配置,以本地采集或云采集的方式对选中网站中的单个网页或多个网页的内容信息进行自动提取,并将获取结果保存在Excel、CSV、HTML、数据库格式文件中,以方便后续的数据处理与分析。

    “八爪鱼”数据采集工具的原理

    一般情况下,人们浏览网页时,首先要输入网站的网址;然后通过鼠标单击网页上的按钮或热点等操作,找到所要获取的相关信息;最后选中这些信息,提取出来,保存到特定格式的文件中。“八爪鱼”数据采集工具的核心原理是通过内置Firefox内核浏览器,模拟上述人为浏览网页的行为,对网页的信息进行全自动提取。这些功能由“八爪鱼”采集器的三个程序完成:负责任务配置及管理的主程序;任务的云采集控制和云集成数据的管理程序;数据导出程序。

    “八爪鱼”数据采集工具的操作

    使用“八爪鱼”采集器之前,我们要进入其官方网站https://www.bazhuayu.com/,下载并安装“八爪鱼”采集器客户端(本文以“八爪鱼”8.0版软件为例)。打开客户端软件,注册登录后即可使用。

    1.使用模板采集数据

    “八爪鱼”客户端中内置了很多网站的采集模板,我们可以根据需求使用这些模板,如图1所示,按照提示步骤简单快捷地全自动获取网站信息。操作过程分三步:第一,选择目标网站的模板;第二,配置数据采集参数(采集的关键字、采集的页数等),选择采集模式(本地采集或云采集)自动提取数据;第三,选择输出的文件格式,导出数据。

    图1  客户端中内置的网站采集模板

    上述操作完成后,“八爪鱼”客户端会将整个操作过程及提取的数据以任务的形式进行保存。通过客户端“我的任务”项,可以随时查看已提取的数据,也可以重复执行或修改当前任务。

    2.自定义采集数据

    当我们希望按照自己的要求获取网页上的个性化数据时,就需要使用自定义数据采集模式。首先要确定目标网站和采集需求;然后打开网页,配置采集选项,提取数据;最后导出数据到指定格式的文件中。

    不管使用“八爪鱼”客户端的哪种模式采集网页数据信息,整个流程都可统一为配置任务、采集数据和导出数据三个步骤。其中,配置采集选项参数是准确获取网页数据的关键。

    “八爪鱼”数据采集工具的应用案例

    “八爪鱼”数据采集工具能够采集大多数网站上的网页信息,而非只针对某类专业网站数据进行采集。下面以获取豆瓣电影Top 250(https://movie.douban.com/top 250)网页数据为例,介绍“八爪鱼”数据采集工具的具体使用方法。

    豆瓣网站是根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影Top 250榜单。豆瓣电影前250名的数据信息分10个连续网页显示,每个网页呈现25部电影,每部电影都包括电影排名、电影海报、电影中英文名称、电影导演及主演、参评人数、豆瓣得分等相关信息。我们可以根据实际需求,使用“八爪鱼”数据采集工具获取豆瓣电影Top 250的详细数据,具体方法如下。

    1.获取榜单中某一部电影的信息

    首先,查看豆瓣电影网页中关于某部电影的信息,如《霸王别姬》,确定要获取的信息内容:电影排名、电影名、导演、主要演员和剧情简介五项。其次,在“八爪鱼”客户端的首页中,输入该部电影网页的网址,鼠标单击“开始采集”按钮,打开该网页;在显示网页的窗口中,鼠标单击“NO2 豆瓣电影Top 250”标签;在弹出的“操作提示”窗口中选择“采集该元素文本”,在“配置采集字段”窗口中显示出“ NO2 豆瓣电影Top 250 ”选项。重复上述操作,分别选中网页中“霸王别姬(1993)”“导演:陈凯歌”等其他标签完成采集字段的配置,并修改字段名称。再次,在“操作提示”窗口中执行“保存并开始采集”命令,在“运行任务”窗口中启动“本地采集”选项收集数据信息。最后,将采集到的数据保存到特定格式的文件中。

    数据信息采集完毕后,除了通过打开数据文件查看采集的信息外,还可以从“八爪鱼”客户端首页的“我的任务”项中查看采集好的数据。

    2.获取某个网页的全部电影信息

    豆瓣电影榜单中每页都会显示25部电影的相关信息,每部电影展示了相同的信息项,如电影排名、海报、电影中文名称、导演及主演等。那么,“八爪鱼”客户端提取每部电影数据的操作都是相同的。因此,我们只需完成一部电影的数据采集配置,其余电影使用循环重复操作即可。

    首先要确定需求,在“八爪鱼”客户端的首页输入要获取信息的网址并打开网页。其次,单击鼠标选中一部电影相关数据区域。在弹出的“操作提示”窗口中选择“选中子元素”选项,选中该电影的电影排名、海报、电影中文名称、导演及主演等字段;然后再单击鼠标选择“选中全部”,建立循环列表,选中该网页中25部电影的相关数据项;再单击“采集数据”选项,在预览窗口中,查看修改要采集的数据字段名。最后启动“本地采集”,获取数据信息,生成数据文件。

    3.获取榜单中全部电影信息

    除了上述手动选择数据采集字段外,由于豆瓣电影Top 250榜单中每部电影显示的信息都是相同的,在获取全部250部電影数据时,我们可以通过“操作提示”窗口中的提示信息,自动配置要提取的数据项,来完成电影信息的获取。

    首先明确获取信息需求,确定网址https://movie.douban. com/top 250,在“八爪鱼”客户端打开网页;在“操作提示”窗口中选择“自动识别网页”。经过“八爪鱼”算法的识别,自动完成采集字段配置,如图2所示。在“数据预览”窗口中,可以看到即将采集的字段及数据,通过“修改”和“删除”操作可以调整字段相关信息。然后选择“生成采集设置”,保存并开始采集数据。数据提取完成后,保存到特定格式的文件中。

    图2 自动完成采集字段配置

    除了以上这些应用之外,“八爪鱼”数据采集工具还可以针对很多采集需求和不同结构的网页进行数据采集,如获取特定网页数目的数据、使用云采集等。这些都是大家可以进一步学习研究的内容。

    专业数据采集工具及网络爬虫技术逐渐成为获取网络信息的重要手段,但是在现实社会中,并不是所有数据都可以任意提取和使用。在数据采集时,我们要遵守有关的法律法规,负责任地、合理地使用网络技术和网络信息。

    基金项目:北京市教育科学“十三五”规划2018年度一般课题“高中信息技术教学中计算思维培养的教学案例研究”,立项编号:CDDB18183。作者系北京教育学院“北京市中小学人工智能教学实践研究”特级教师工作室成员

    参考文献

    [1]祝智庭,樊磊. 普通高中教科书·信息技术必修 [M]. 北京:人民教育出版社、中国地图出版社,2019.

相关文章!
  • 小学语文课堂教学中的激励性评

    摘 要:激励性评价作为小学常用的教学方式,在教师日常教学中具有重要作用,在各小学学科中都有应用。在小学语文课堂上,语文教师需要与学

  • 高等教育人工智能应用研究综述

    奥拉夫·扎瓦克奇-里克特 维多利亚·艾琳·马林【摘要】多种国际报告显示教育人工智能是当前教育技术新兴领域之一。虽然教育人工智能已有约

  • 生活引路,作文随行

    周海波【摘 要】“写作教学应贴近学生实际,让学生易于动笔,乐于表达,应引导学生关注现实,热爱生活,表达真情实感。”教师如何让学生更加贴