❤️ ×
各类单机,绅士游戏不断更新:https://www.acghua.com/
网站地址

使用虚拟机搭建Hadoop3.0集群安装环境

摘 要:Hadoop是最流行的大数据分布式基础架构之一,是云计算课程中的一个重要部分。由于Hadoop集群安装环境需要使用多台计算机,并涉及多种计算机软、硬件知识,所以在开展Hadoop实验时,通常只能在实验室进行。本文研究使用虚拟机搭建Hadoop3.0的集群安装环境,使用1台计算机即可以实现Hadoop的集群安装,为开展Hadoop的学习和实践提供了一种成本低廉、方便简洁的解决方案。

关键词:Hadoop;云计算;虚拟机;局域网

中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2018)10-0099-03

Abstract:Hadoop is one of the most popular distributed infrastructure of big data,and is an important part of cloud computing course. Due to the need to use multiple computers in the Hadoop cluster installation environment and the software and hardware knowledge of a variety of computers,the Hadoop experiment is usually carried out in the laboratory. In this paper,a virtual machine is used to build the cluster installation environment of Hadoop3.0,and one computer can be used to implement the cluster installation of Hadoop. It provides a low cost,convenient and simple solution for the learning and practice of Hadoop.

Keywords:Hadoop;cloud computing;virtual machine;LAN

0 引 言

随着大数据时代的到来,云计算作为大数据的处理手段和技术,已成为当今最热门的IT趋势之一,越来越多的得到人们的关注与重视[1]。很多高校的计算机科学与技术、通信工程等电气信息类专业也都开设了云计算技术课程[2]。Hadoop是现在最流行的大数据分布式基础架构之一,其发展历史较长、行业应用广泛,有着分布式处理的经典架构[3],是云计算技术课程中的一个重要内容。

笔者在从事云计算课程教学的过程中,深感Hadoop平台的实践教学不易开展,首先,每个实验小组都需要多台计算机,一般只有实验室才具备这样的硬件环境,且同时开展实验的人数受到计算机台套数量的局限;其次,平台运行的软硬件环境较为复杂,涉及计算机网络、Linux操作系统、程序设计等多种软硬件技术,平台的运行环境不易搭建和维护。这都给实验教学带来了不小的困难。通过研究、实践,笔者摸索出一种使用虚拟机搭建Hadoop集群安装环境的方法,只需要一台计算机就可以开展集群安装、测试等实验,为教学提供了较大的便利。现对这一方法作简单的介绍。

1 主机的硬件配置和软件要求

1.1 主机的硬件配置

使用虚拟机搭建Hadoop3.0集群安装环境,硬件只需要一台计算机,台式机或笔记本均可。对计算机配置的要求如下:

(1)处理能力:要求不高,达到一般家用桌面级即可,如Intel的Celeron系列(G540、G530等)、AMD的A4、A6系列,但CPU必须支持虚拟化(Virtualization)技术,并在主板BIOS设置中打开虚拟化功能(VT-X、AMD-V);(2)内存容量:由于同时开启的虚拟机越多,对内存的需求就会越大,但实验系统一般只开启3台Linux虚拟机,每台虚拟机分配1G左右的内存,所以有4G内存就能达到要求。(3)硬盘容量和速度:硬盘的容量和速度方面要求都不高,有10G左右的空闲容量,速度达到主流硬盘的速度即可。如果能配备数据吞吐率高的硬盘(如固态硬盘等),虚拟机的启动速度和性能会有所提升。

1.2 虚拟化软件

在主机上需要安装虚拟化软件。VMware Workstation是功能强大的本地桌面虚拟化软件,它是一款桌面虚拟计算机软件,可以让用户在单一的桌面上同时运行不同的操作系统,同时提供了完整的虚拟网络环境[4]。

2 虚拟机及虚拟局域网设置

2.1 虚拟机模板的设置和制作

考虑到安装环境的搭建只是在学习、测试方面应用,虚拟机的性能不需要很高,使用1核CPU,1G内存即可。虚拟机硬盘可以设置为10G或者更大,实际使用后才会占用主机的磁盘空间。虚拟机必须配置1个网卡。虚拟机设置如表1所示。

虚拟机的操作系统使用带有桌面的CentOS6.5 X64。为节省安装虚拟机操作系统的时间,使用了VMware Workstation的虚拟机模板功能和克隆功能,只新建1台虚拟机,安装1次操作系统即可。虚拟机安装完操作系统以后,制作它的“快照”,并把它设置为“模板”。在需要新建虚拟机时,就使用“克隆”的方式,从模板虚拟机的快照状态复制得到新的虚拟机,如图1所示。新虚拟机的环境与模板虚拟机的快照状态一致,节省了设置虚拟机硬件和安装操作系统的时间。

VMware Workstation的模板虚拟机克隆分为“完整克隆”和“链接克隆”两种。使用“链接克隆”方法得到的虚拟机会以增量的方式使用主机磁盘记录虚拟机状态的变化,还可以达到节省主机磁盘空间的效果。

2.2 虚拟机局域网设置

要实现Hadoop集群安装,至少要使用3台计算机。从模板虚拟机复制得到3台虚拟机,把虚拟机的网络连接设置为“NAT模式”。这样虚拟机可以通过主机的网络连接访问外部网络,为需要联网安装的软件提供了便利。通过设置NAT映射,虚拟机还可以为外部网站提供服务[5]。另外,还需要分别为3台虚拟机设置主机名(hostname)和IP地址。虚拟机的名称设置、IP地址设置和网络规划如图2所示。

在设置虚拟机IP地址的过程中,会遇到网卡名称与网络接口配置文件名称不一致,导致无法更新网络设置的情况。可以检查操作系统“/etc/udev/rules.d/70-persistent-net.rules”文件中对于网络接口的名称(如:eth0、eth1,等)和MAC地址,对照网络配置文件“/etc/sysconfig/network-scripts/ifcfg-eth0”(或eth1等),通过修改网络接口名称、修改配置文件名称或修改MAC地址的方式,使网络接口名、网络配置文件名、MAC地址等信息对应起来,就可以解决这个问题。

3 虚拟机Hadoop安装环境配置

3.1 配置SSH免密码登录

3.2 安装JDK

由于Hadoop3.0的运行需要依赖JAVA1.8环境,各虚拟机都必须安装JDK1.8。CentOS6.5可以通过网络安装JDK,但需要连接外网,既耗流量又费时间。通过VMware Workstation设置虚拟机的“共享文件夹”,可以使虚拟机访问主机的文件系统,实现文件的共享。设置共享文件夹后,在CentOS虚拟机中,主机的共享文件夹会挂载到“/mnt/hgfs”目录下。

4 工作界面的优化

由于VMware Workstation软件对不同的虚拟机进行操作时,需要在不同的选项卡中进行切换。在进行Hadoop3.0集群安装时,需要轮流在不同的虚拟机上进行操作,这样反复切换的操作比较繁琐,影响效率。

为提高配置工作的效率,可以使用终端模拟器软件(如Xshell、SecureCRT等)同时对多台虚拟机进行连接,并把连接窗口平铺在主机显示器上,实现在同一屏幕上对多台虚拟机进行同时操作,优化工作界面,在一定程度上也可提高工作效率,如图3所示。

5 结 论

经实践,这种使用VMware Workstation虚拟机、虚拟局域搭建的Hadoop3.0集群安装环境不仅成本低廉、方便简洁,在完成集群安装后,也能体现出较好的性能。这种方法对于云计算课程实验教学、云计算爱好者自学搭建实验平台提供了一种易于实现的解决方案,有一定的价值和意义。

参考文献:

[1] 刘鹏.云计算 [M].第三版.北京:电子工业出版社,2015.

[2] 许娟,袁家斌.云计算课程教学内容和教学方法的选择 [J].现代计算机(专业版),2014(18):22-25.

[3] 谭磊,范磊.Hadoop应用实战 [M].北京:清华大学出版社,2017.

[4] 王春海.VMware虚拟化与云计算应用案例详解 [M].第二版.北京:中国铁道出版社,2016.

[5] 顾春峰,李伟斌,兰秀风.基于VMware、GNS3实现虚拟网络实验室 [J].实验室研究与探索,2012,31(1):73-75 +100.

[6] [美]Andrew Hudson,Paul Hudson.深入解析Ubuntu操作系统 [M].陈钢,李韬,肖俊,译.北京:清华大学出版社,2008.

作者简介:杨云海(1978-),男,汉族,广东广州人,讲师,硕士。从事信息技术应用研究。

相关阅读