网站首页  词典首页

请输入您要查询的论文:

 

标题 Hadoop实验教学平台与课程体系设计
范文

    【摘要】首先对大数据管理和分析能力的人才需求进行了分析,简要介绍了Hadoop的主要学习框架。然后介绍了Hadoop大数据实验教学平台的搭建流程,分析并设计了Hadoop课程的一系列实验项目。最后介绍了Hadoop实验室的开放式管理模式的改革方案。

    【关键词】Hadoop? 实验教学? 大数据

    【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2020)05-0253-02

    1.引言

    目前,大数据的分析和处理技术有:数据库的大规模并行处理、可扩展的存储系统、分布式的文件处理系统、分布式数据库、数据挖掘、云计算等。具有大数据处理和分析能力的人才需求正在逐年增长,人才需求的职位主要有大数据分析师、大数据系统架构师、大数据系统管理员、大数据平台开发工程师等。

    Hadoop作为一种分布式的大数据软件开发平台,主要对大数据进行分布式存储和快速计算;Hadoop生态系统中的Hive支持SQL使Hadoop吸收了关系型数据库的优点,便于用户对数据进行优化管理[1]。因此,为了培养具有大数据管理和分析能力的人才,对Hadoop的实验教学平台和课程体系的研究具有重要的意义。

    目前国内具备Hadoop等技术的人才稀缺。高校需要着重培养熟练掌握大数据处理和分析能力的人才[2-5]。本文对Hadoop软件开发平台的理论教学内容进行了分析,包括Hadoop课程的实验教学平台的搭建,Hadoop分析和处理大数据的实验项目的设计,以此培养学生掌握使用Hadoop大数据软件开发平台的方法。为大数据处理和软件开发相关的后继课程的学习奠定基础,培养具有大数据管理和分析能力的人才。

    2.Hadoop框架

    Hadoop框架实现了Map Reduce的编程范式。还提供了HDFS(分布式文件系统),用以存储所有计算节点的中间数据。分布式计算框架Map Reduce和HDFS分布式文件系统的设计,使得整个Hadoop框架能够自动处理各个节点的故障[ 6,7]。

    (1)HDFS:整个Hadoop软件开发平台的体系结构是通过分布式文件系统来实现对分布式存储的底层支持,HDFS通过对流式数据的访问,提供了高吞吐量的应用程序的大数据访问功能。

    (2)Map Reduce:Map对数据集上的相关元素进行程序指定的操作,生成“键-值”对形式的中间结果。Reduce在Map计算的中间结果的基础上,对中间结果中相同“键”的所有“值”进行程序设定的规约,得到最终的结果。

    (3)HBASE(Hadoop Database):利用Hadoop HDFS作为其文件存储系统;HBase利用Map Reduce来处理HBase中的海量数据。

    3.Hadoop大数据实验教学平台搭建

    目前,Hadoop课程的实验教学大多由学生在机房的单个电脑上搭建Hadoop平台的单机模式和伪分布模式环境,以此模拟分布式环境运行的各个节点,并没有搭建基于Linux集群的由多个节点构成的完全分布式的Hadoop集群系统。

    为了使学生更好地理解Hadoop系统的各个模块的构成,更加熟练的掌握Hadoop平台进行数据分析和挖掘算法的研究及优化,用6台虚拟机搭建了Hadoop实验教学平台。6台虚拟机的物理配置均为:内存64GB,双核CPU。目前该平台已用于调试运行基于Hadoop的分布式程序和Hadoop课程的相关实验教学。该Hadoop大数据虚拟实验平台性能稳定、处理速度较快、访问快捷。

    4.Hadoop课程实验教学体系设计

    Hadoop课程是一门实践性很强的课程,设计一系列的分层实验教学项目对课程的教学是至关重要的。为了使学生能够更加深入了解和学习Hadoop,提高实践能力,本课题设计了一系列的实验项目,有一定的层次。通过这些Hadoop课程的分层实验项目的教学,使学生在掌握Hadoop课程的相关理论知识的同时提高了应用此软件平台解决实际问题的能力。实验内容主要有:

    (1)Hadoop 集群环境搭建

    通过实验使学生掌握Hadoop软件开发平台所需的软硬件环境,熟练掌握Hadoop课程实验教学环境的搭建流程,为后面实验的教学打下理论基础。通过Hadoop软件开发平台和运行环境的搭建,使学生熟悉Hadoop的集群管理方式、熟悉Hadoop平台和Linux系统中的常用命令。

    (2)分布式并行编程

    通过实验使学生更加深入的理解Map Reduce 的并行计算工作原理。并通过几个具体的并行计算和分布式环境下的应用实例的运行过程来说明Map Reduce程序的基本结构和执行过程,通过实验使学生理解Map Reduce的并行计算思想、掌握Hadoop软件开发平台的分布式文件系统和基本的编程模型。

    (3)性能分析

    通过几组不同的实验,测试不同的Map和Reduce任务数量对Hadoop性能的影响效果。使学生学习如何调整Map和Reduce的参数来提高Hadoop 的性能,对Hadoop 有更加深入的理解。

    (4)HBase数据库编程

    通过实验使学生熟练掌握HBase的相关操作,更加深入的理解数据库管理的相关知识。通过在HBase中进行插入数据、获取数据、删除数据的操作,使学生了解对HBase中表的管理、数据的操作等。并且通过实验使学生了解如何从Hadoop向HBase进行数据迁移的操作。

    5.开放实验室管理模式

    学生通过网络或者人工方式提交使用虚拟实验的预约申请表,系统管理员根据实际情况按需分配虚拟实验的空间账号;Hadoop开发实验室在课余、周末开放,需要使用物理实验室的老师和学生首先要在网上提交申请,获得审批后就可以使用。学生或教师根据实验室管理员提供的可用实验资源和开放时间等信息,填写将要预约的实验室资源和使用的起止时间、参与实验的人数、开展的具体实验项目名称等相关信息。开放实验室的管理人员对实验室的各种资源进行管理,包括硬件资源、软件资源、允许开放的时间段、开放座位数、开放周期及实验项目数等信息。通过对开放实验室进行预约实验的方式,部分Hadoop课程的分层实验项目可以安排在课外由学生独立完成。学生可以自由选择在课余时间继续进行Hadoop的各个仿真实验,满足学生独立学习的需求。这样不仅提高了实验资源以及硬件设备的利用率,而且还能调动起学生学习的主动性。为学生参加数学建模竞赛、大学生挑战杯竞赛、大学生创新创业训练计划等项目提供了良好的学习平台。

    结束语

    文中分析了Hadoop在大数据背景下的重要作用。基于Hadoop软件开放平台的理论教学内容,详细说明了Hadoop课程的实验教学平台的搭建过程。分析和设计了Hadoop课程的分层实验教学体系,给出了Hadoop课程的部分分层实验项目。最后,对Hadoop教学平台的实验室的管理模式进行了改革,采用了开放实验室和预约实验的方式达到了促进学生自主学习的目的。为后继课程的学习奠定了基础。

    参考文献:

    [1]林中明,李文敬.基于Hadoop的Web用户识别与新闻智能推荐算法研究[J].软件导刊,2016(5):27-29.

    [2]唐燕,刘仁权,王苹,等.基于Hadoop的高校大数据平台的设计与实现[J].信息技术,2017(12):105-109.

    [3]王涛,邵国强,邹红,等.“基于Hadoop的大数据分析”课程规划与设计[J].电脑知识与技术,2015(7):190-192.

    [4]胡锐,陈丽春.基于Hadoop的高校微课系统的研究与实现[J].电子技术与软件工程,2015(24):56-57.

    [5]陳伟.基于Hadoop平台的教育云存储系统的构建方法[J].中国医学教育技术,2015(1):29-33.

    [6]郝树魁.Hadoop HDFS和Map Reduce架构浅析[J].邮电设计技术,2012(7):37-42.

    [7]翟永东.Hadoop分布式文件系统可靠性的研究与优化[D].武汉:华中科技大学,2011.

    作者简介:

    刘芳(1984-),女,四川内江人,内江师范学院讲师,硕士。主要研究领域为大数据分析与处理。

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/15 19:12:43