《大数据收集、处理与可视化表达》教学案例
陈鸥辉
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
设计背景
本教学案例参考粤教版教材“信息技术必修1:数据与计算”的第五章《数据处理与可视化分析》。具体设计课时分布如图1所示。
第一次课:数据的采集(2课时)
第一节课,主要向学生解释大数据的定义及特征,并通过视频让学生感知大数据时代对我们生活带来的各种影响。例如,播放中国首部大数据产业题材纪录片——《大数据时代》。
第二节课,通过对网页数据的采集向学生介绍几种不同的采集方式。以爬取百度网页数据为例向学生介绍最简单的采集网页数据的方式,即没有采集限制协议的网页数据方式。如果有采集协议限制,如豆瓣,用上面的爬取方式则无法爬取到正常的网页数据,需要根据协议方式进行采集,代码如图2所示。
在第二节课的爬虫实操中,从简单的爬虫代码过渡到爬虫协议,再到实现豆瓣的数据爬取及存储,让学生一步步地了解爬虫原理,并能够应用爬虫爬取各种数据,总的来说学生的应用实操效果良好,能够通过修改代码完成自己想爬取的网址源代码并保存。通过这种体验,学生表现出对大数据的强烈兴趣。学有余力的学生,还可以加入拓展任务,代码如图3所示。
第二次课:数据的清洗与保存(2课时)
第一节课,让学生完成代码,体验清洗网页数据的方法与过程(如图4)。
通过教学引导,学生基本上都可以完成补充,具体补充代码如图5所示。
完成教师的案例后,可以引导学生爬取自己感兴趣的文章并将数据清洗出来保存到记事本中,以便下一次课进行数据可视化表达。作为技术课程,满足学生对技术的实用性体验非常重要,学生对这个案例表现了强烈的操作兴趣。同时,教师提供给学生爬取图片及视频保存的代码,供给学有余力的学生进行体验。
第二节课让学生体验网页的超链接数据的清洗并保存到表格中(如下页图6)。
通过教学引导,学生基本上都可以完成补充,具体补充代码如下页图7所示。
通过这个案例让学生明白数据是如何关联下载的,有了这些爬取数据的方法,教师可以很便捷地快速收集整理出所需要的大量相关数据,为下一次课进行数据可视化表达做准备。
第三次课:数据的可视化表达(2课时)
第一节课主要向学生讲解数据分析与可视化表达呈现的图表类别。考虑到数据分析类别的实现比较难以理解,所以数据分析主要对特征探索、关联分析、聚类分析等进行理论层面的讲解,并给学生呈现出数据可视化表达的多样性图示(见教材)。
让学生根据上一次课下载的小说进行文本可视化操作,代码如图8所示。
学生修改代码后完成的效果如下页图9所示。
第二节课,让学生从淘宝爬取大量的商品数据并进行可视化表达,代码如图10所示。
运行后输入“手机”,交流每人的可视化效果图。
其中补充代码处为学生根据教师引导完成,通过这个案例的体验让学生对大数据的整个课程进行了回顾总结,既巩固了学生对本章知识的掌握,又对之前的知识进行了拓展,让学生完整地体验了数据从采集、处理到分析及可视化表达的全过程,深刻地了解了本章知识学习的成就感及重要性。
另外,如果课时足够,还可以引导学生从国家统计局获取数据,实现对数据的动态演示。也可以播放动态可视化效果图激发学生的学习兴趣,作为拓展作业让学生自己课后探索完成。
点 ?评
高中新课程标准制定专家熊璋教授在一次学术报告中讲到“在课程中,我们要让学生不仅能只见树木,还要能见到森林,还要走进森林”。这个观点,如果体现在数据科学中,就是要进行深度的体验与实践,不能往常教学那样只是让学生了解大数据概念、知道大数据应用或者只是体验大数据的方便。而是,需要引导学生从编程的深度,去亲身体验如何通过程序来研究大数据,包括如何获取、如何整理、如何分析与呈现等,陈欧辉老师的这个专题式整体设计正是给我們大数据的大单元设计的借鉴,直观、深度且易操作,让学生通过程序的试用、补充、提高,大计算思维的视角去学习数据科学,意义重大,值得提倡!
(点评人:王爱胜)