标题 | 林业院校中“数据科学导论”的课程改革探索 |
范文 | 熊飞 曹涌 孙永科
摘要:数据科学导论是数据科学与大数据专业中很重要的导论性课程,课程中涉及了统计学、计算机、机器学习和深度学习的大量前沿内容,具有理论复杂、知识点繁多的特点。理工科基础较为薄弱的林业院校学生掌握难度较大。本文提出了数据分析基础、机器学习与深度学习和数据管理与产品开发的三大模块构成的课程体系以及相应的教学模式,侧重于培养学生以数据为中心的思维模式,形成了符合林业院校特色的导论课程。 关键词: 数据科学导论; 课程改革; 导论课程; 林业院校; 思维模式 中图分类号:TP391? ? ? ? 文献标识码:A 文章编号:1009-3044(2021)15-0147-03 Abstract: Introduction to Data Science is an important introductory course for Data Science and Big Data Technology, which covers a wide range of cutting-edge content in statistics, computers, machine learning, and deep learning. Therefore learning of this course is a challenging work for? students that whitweak foundations in science and engineering in forestry universities. A teaching model focus on cultivating a data-centric mindset is introduced in this paper, which includes three parts: data analysis, Machine learning and deep learning, data management and product development. The redesign of Introduction to Data Science makes it conform to the characteristics of forestry university. Key words: introduction to data science; course reform; introductory course; forestry universities; 1引言 2015年由國务院印发了《国务院关于印发促进大数据发展行动纲要的通知》标志着国家把大数据上升到了国家战略的层面,随后在2016年教育部在《教育部高等教育司关于2016年度普通高等学校本科专业设置工作有关问题的说明》中增加了数据科学与大数据技术专业(专业代码:08910T)来促进数据科学专业人才的培养。当年就有3所高校获批数据科学与大数据技术专业。随后在2017年的第二批次和2018年的第三批次中,又分别有32所和248所高校获批,到2019年全国共有479所高校设立了数据科学与大数据技术专业[1-2]。 在设立有数据科学与大数据技术专业的很多高校中,都设立了数据科学导论这门课程作为该专业的导论性课程,例如:中国人民大学的数据科学导论和上海健康医学院医疗器械学院专业院校开设的大数据科学与技术导论。而该门课程通常开设在大一下学期。而《数据科学导论》是该专业的入门引导性课程,以培养学生的专业认知为目标,所以将会涉及数据科学专业后续课程的方方面面。涉及的方面主要包括:数据分析基础、数据处理方法和工具、数据的获取与存储、数据挖掘和算法和数据可视化等内容。这些内容涉及的知识点又包括三个方面:1)数学知识,例如概率论和统计;2)计算机知识,例如数据库;3)机器学习与算法:例如分类、回归、聚类。学生在这个时期,仅仅接触到高等数学,计算机基础和程序设计等几门基本的课程。这就造成了学生大一阶段的知识储备可能无法理解该门课程所涉及的数学、计算机和机器学习的知识点。所以在该阶段如何解决学生知识储备与课程内容不匹配的矛盾是该门课程建设的首要任务。 2国内外研究现状 2.1 国外研究现状 郑州大学信息管理学院的杨瑞仙等人通过网络调研广泛收集日本10所数据科学核心院校的数据科学专业的课程建设情况后,发现日本这几所高校将该门导论性课程放在整个课程体系的通用类模块中[3]。该模块主要教授数据科学的基础理论、思维方式和实践练习。在教学中,很多学校又将这部分内容拆分为包含统计分析的数理模块和包含机器学习等内容的计算机模块。通过词云等分析,杨瑞仙等人指出开数据科学人才培养中,日本比较重视数据分析处理能力的要求和应用技术解决社会问题能力的培养。 数据工程与知识工程教育部重点实验室(中国人民大学)的朝乐门分析比较了哥伦比亚大学、纽约大学和哈佛大学数据科学导论课程的教学内容后,总结发现这几所大学的课程更加侧重于实操能力的培养,重视数据分析与行业应用的结合[4]。相比于日本10所数据科学核心院校的课程内容,这3所大学的基础理论部分都差别不大,只是更加侧重于动手操作能力的培养。 武汉大学信息管理学院的赵蕊菡等人对国外主要MOOC平台(如Coursera、edX、Udacity等)上数据分析类课程进行了调查与分析,将52门课程分成数据分析基础、数据分析工具、数据分析应用和大数据分析4个类别[5]。其中数据分析基础中很多课程的定位类似于数据科学导论这门课程,比如约翰霍普金斯大学的探索性数据分析课程和奥克兰大学的理解数据课程。但这些课程存在的主要问题是课程内容的涉及领域相对较窄,不足以满足导论性课程所要求的覆盖广度。 2.2 国内研究现状 在国内,探讨该课程设计的研究还不太多。其中主要有朝乐门在中国人民大学开设的数据科学导论[4]。朝乐门从2015年起就开始从事数据科学的教学和研究工作,他的课程主要注重于大数据时代新数据与老知識的矛盾,内容不仅涉及数据科学的核心理念,还率先将数据产品开发、数据化故事等内容率先引入该类课程。 在淮南师范学院又陈磊开设的数据科学导论课程中,设计了七个模块,包含了计算机数据库的基础知识、统计基础与数学建模以及数据挖掘人工智能。这个课程注重基本原理算法的介绍,扩展学生的视野[6]。 刘巧红在上海健康医学院医疗器械学院红探索了该门课程在特色性院校中的实践方案。课程建设中贯穿了大数据相关技术在解决临床及健康管理等方面的实际案例中的应用,设计了很多具有医疗健康领域特色的实践案例[7]。 3课程建设目标 3.1 数据科学与大数据专业的课程体系 在2010年,DrewConway提出了第一张揭示数据科学的韦恩图,如图1所示[8,9]。该图首次探讨了数据科学的学科定位问题。从图中可以看出,是数学统计与计算机中机器学习的交叉学科。此外数据科学也不是单纯的计算机与数学的问题,在处理具体问题时需要该领域的相关知识。同时图中的黑客精神与技能表示着数据科学研究需要较强的编程能力。 在DrewConway的数据科学维恩图基础上,数据科学专业的知识体系主要以统计学、机器学习和计算机相关知识为理论基础,主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发。 3.2 数据科学导论课程的建设目标 根据数据科学与大数据专业的知识体系,导论性课程要引导学生对本专业的认识和了解,所以该课程在知识体系上必须具有一定的广度。与此同时,课程的广度就带来了知识点较多的问题,很容易让学生觉得该专业较难。所以该课程应该注重基础概念和基本原理的介绍,不宜过多的讲解数学背景和算法的细节。此外在西南林业大学的实际教学中,贯穿该课程另外一条主线就是要将数据分析和大数据处理的相关技术贯穿在解决林业研究中的具体应用。比如深度学习中的识别技术在鸟类识别和木材识别中的应用,传感器网络在森林环境检测中的应用。因此在课程中设计了数据分析基础、机器学习与深度学习和数据管理与产品开发三个模块,设定了三个教学目标,培养学生不同的三种能力。整个课程体系如图2所示。 通过结合数据科学的相关知识和林业研究中的具体问题,该课程要培养学生以数据为中心的思考能力,同时引导学生了解在林业研究中如何进行数据的采集、加工、计算和数据管理开发的整个过程。 4数据科学导论课程体系的构建 4.1 数据分析基础 该课程的数学部分主要涉及统计学中的相关知识,而相应的数理统计与概率论等课程学生也才刚刚接触。在这部分的教学中,学院以认识数据和探索数据为出发点进行教学。首先讲解数据的属性和属性的类别。让学生知道数据中有的属性是分类属性、有的是数值属性,它们的处理和统计方式是不一样的。 在上一步认识数据的基础上,讲解数据的探索性分析,从而了解这些数据的面貌。这部分内容包括数据中心趋势度量、离散度分析、数据分布特征和简单数据可视化等内容。这部分主要涉及会涉及统计中的极值、方差、正态分布等内容,所以数学相对较多。为了过多地去讲解其中的数学原理,学院引入了折线图、直方图和箱线图等简单的数据可视化,使学生能够更加容易的去理解统计学中的相关理论。 通过对单维度的数据探索性分析后,课程安排了多个变量的关联性分析。其中内容包括:相关性分析,皮尔森相关系数等内容。这部分教学内容的加入使得学生的分析角度不再是单一变量,而是扩展到多维度的变量。 以上三部分的教学,使得学生对数据有了初步的认识后,就可以进行偏重实践操作的Pandas教学中。在这部分的教学中,通过类比Excel的基础操作,讲解如何利用Pandas进行数据分析和探索。除了实践操作的教学,课程中只涉及异常值处理这里理论部分的教学。 4.2 机器学习与深度学习部分 这一部分的教学是整门课程的教学难点和重点。难点在于该模块会涉及机器学习与深度学习中的很多算法,比如线性分类、线性回归、聚类分析和深度神经网络等内容。这些内容需要较好的高等数学、概率论和线性代数的基础知识作为支撑。同时伴随有大量的数学公式和较多的公式推导等内容。这对于大一下学期的学生是一个不小的挑战,也要求老师在教学中也要避免传统的以公式理论为出发的教学方式。 学院在该模块的教学中,以轻理论、重思想、融合实践案例的角度出发,设计了实际问题——算法思想——数学原理——实际案例的四步走的教学方式。以线性分类为例,首先实际问题来源于在卫星图像上如何区分出森林和稻田,其次讲述分类问题的基本思想和基础数学原理,最后又回归到原始问题中,用线性分类解决简化后的原始问题。 在整个教学中,注重理论与实践的紧密结合,尽量弱化数学公式和推导过程,强调最终的算法效果,让学生真实体会到最终的效果。 4.3 数据管理与产品开发 在数据管理与产品开发模块中,主要目的让学生了解数据采集、存储、计算、管理和应用等功能。相比于其他两个模块,这部分内容偏重计算机科学更多一些。首先就涉及传感器、物联网等数据采集。其次数据存储需要数据库、分布式数据库的相关知识。最后计算部分会给学生普及Hadoop、Hive和Spark的内容。 可以说该阶段的教学是“散而广”:不仅有数据库的知识还有物联网和Hadoop等计算平台的内容。在教学中,这些内容的定位是开阔眼界,作为后续课程的铺垫。所以学院采用专题讲座的方式进行,以科普的方式完成物联网、数据库和大数据计算平台等内容讲解。 5总结 数据科学导论是数据科学与大数据技术专业中重要的先导性课程,需要向学生描绘出数据科学的整体框架,让学生掌握数据科学的基本概念、原理和方法。本文探讨了西南林业大学在该门课程中教学模式的改革,提出了数据分析基础、机器学习与深度学习和数据管理与产品开发的三大模块构成的课程体系以及相应的教学模式。在新的课程体系中,打破了原来以数据获取、清理、存储、分析和管理应用为主线的教学方式,从而更加注重培养学生以数据为中心的思维方式。未来将进一步从案例、实践等多个方面进行改进,努力形成适合林业院校的数据科学导论课程。 参考文献: [1] 周建英,李广明,王双成.“数据科学导论”课程教学探讨[J].教育教学论坛,2020(24):230-231. [2] 黄达明,张萍,张莉.数据科学基础课程体系建设与研究——以南京大学为例[J].工业和信息化教育,2020(1):26-31. [3] 杨瑞仙,吴东昌.日本数据科学专业建设情况调查研究[J].情报理论与实践,2020,43(8):195-201,166. [4] 朝乐门.数据科学导论的课程设计及教学改革[J].计算机科学,2020,47(7):1-7. [5] 赵蕊菡,黄如花.国内外数据分析类MOOC调查与分析[J].图书情报工作,2016,60(21):52-60. [6] 陈磊.数据科学导论课程设置探究[J].淮南师范学院学报,2018,20(2):106-108. [7] 刘巧红,凌晨,孙丽萍.医学院校“大数据科学与技术导论”课程建设的实践[J].中国医学教育技术,2020,34(5):578-582. [8] Rachel-Schutt Cathy O'Neil. Doing Data Science: Straight Talk from the Frontline[M]. O'Reilly, 2013. [9] 朝乐门,邢春晓,张勇.数据科学研究的现状与趋势[J].计算机科学,2018,45(1):1-13. 【通联编辑:王力】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。