高校基于VMware的数据中心虚拟服务器常见故障分析
刘寒冰+罗丹
摘 要:高校的数据中心已经成了教育资源开发与应用以及教育管理信息系统的支撑基础。由于虚拟化技术所具备的优势以及带来的效益,使其成了高校数据中心发展的必然趋势。文章以传统数据中心存在的问题为背景,介绍了虚拟化的概念及相关技术,重点分析了VMware技术的特点。然后以笔者所在单位数据中心为研究对象,对两个经典的虚拟服务器故障进行了分析研究,针对性地提出了解决方案,取得了较好的效果。
关键词:数据中心;虚拟化技术;VMware技术;虚拟服务器
1 传统数据中心存在的问题
在信息技术迅猛发展的今天,数据中心作为高校教育信息基础设施,已经成为教育资源开发与应用以及教育管理信息系统的支撑基础。目前,大多数21世纪初期的数据中心主要是以大量的服务器、存储设备通过网络简单互联、集中部署的方式来建设的,动辄几十上百台独立的服务器集中在同一个地点,但又各自提供不同的网络应用服务。
综合国内部分高校数据中心的调研结果可以发现,传统数据中心普遍存在着下列问题:(1)较低的系统资源利用率;(2)系统资源不能动态调度;(3)数据资源共享度低;(4)结构复杂、扩展性差。
随着高校信息化的进一步深化,传统数据中心所存在的问题日益凸显,如何整合现有的服务器硬件资源,提高服务器的使用效率,成了一个亟待解决的问题。
2 虚拟化概念及优势
虚拟化技术的出现为新一代数据中心建设拓宽了方向。那么什么是虚拟化?虚拟化是一个技术用语,它指通过软件系统虚拟出各种硬件设备,使得虚拟机在这些虚拟的硬件设备上运行。对于使用这些虚拟机的用户来说,感觉不到正在使用的是虚拟机还是物理机。通过虚拟化软件对一套硬件系统可以虚拟出许多的虚拟系统,可以充分发掘硬件资源的使用率。
虚拟化技术的常见类型主要可以分为以下3种:基础设施虚拟化,系统虚拟化,软件虚拟化。
目前,国内各高校正在着力开展数据中心建设工作,采用虚拟化技术构建数据中心已成为一个主要的发展方向。
简单来说,虚拟化技术的主要优势有以下几点:
2.1 提升硬件资源利用率
在一个物理服务器上运行多个操作系统,使单个系统服务在独立的操作系统上运行,同时把各个服务相互隔离开来,保证数据的稳定性的同时又保证安全性。
2.2 高可用性
虚拟化技术提高了服务的可靠性,服务中断不会轻易发生,不论是服务器宕机还是软件错误引系统崩溃,都不再会影响到对用户提供服务,使得可用性得到了极大的提高。
2.3 管理效率提升
使用虚拟桌面架构,实现集中化运维管理,缩减运维管理员额,提高单人工作效率。
2.4 可扩展性(Scalability)
虚拟机通过虚拟化技术,实现在实体机上动态迁移,硬件扩展方便快捷,虚拟化技术对热插拔功能的支持实现了,在不用关机的状态下虚拟机可以直接进行硬件扩展。
2.5 环保节能
虚拟化技术可以帮助用户有效地实现环保节能,帮助降低硬件设备能耗,以及降低附带的制冷设备、照明供电、UPS设备的功率,节约了大量的运维成本。
3 服务器虚拟化及VMware技术
3.1 服务器虚拟化的概念
我们可以简单把服务器虚拟化理解为把虚拟化技术应用于服务器。在一台物理服务器上使用把物理资源抽象成逻辑资源的手段,划分出許多台相互隔离的虚拟机,让硬件变成“资源池”实现动态管理,实时地以优先级为标准把资源按负载需求进行分配。最早从虚拟化技术中分离出来的就是服务器虚拟化技术,它是虚拟化技术当最热门也最成熟的一个领域。
3.2 VMware技术
由于VMware技术应用的市场普及度非常高,使它的产品成了最受欢迎的虚拟机管理程序。VMware是一家专门研究虚拟化软件的公司,很早就进入了虚拟化市场,技术一直处于领先状态,尤其以管理技术为代表,在欧洲、北美占有很大的市场份额。VMware技术通过其主导的虚拟化中心管理控制台(信息数据中心)、虚拟机移植工具(vmotion)、分布式资源调度解决方案(DSR)等虚拟化领域,称霸了高端企业虚拟化的市场。
VMware虚拟化软件可以给每个虚拟机模拟一套像普通计算机一样的内存、硬盘、网卡等硬件资源。因此,一个实体机上不论装有多少个虚拟机,从理论上来说也不会存在硬件上的冲突。虚拟化软件技术的原理是在计算机的物理硬件和OS操作系统之间插入一个软件层。该层主要就是Virtual Machine Monitor(VMM)虚拟机监视器,它通过动态和透明的工作方式来给各虚拟机划分硬件资源。在单台物理服务器上可以同时运行多个操作系统,各个虚拟机之间完全隔离和独立但又共享物理硬件资源。
VMware的核心服务器虚拟化产品是VMware vSphere,它是一个云端操作系统,也是部署最广泛的虚拟机管理程序。
VMware vSphere由以下几个部分构成其组件层:基础架构服务;应用程序服务;Vmware vCenter Server;客户端用户。
VMware vSphere的主要优势体现在以下几方面:
(1)实现了虚拟机和底层硬件设备的分离,使虚拟机的迁移不会影响到它所提供的应用,提高了服务的可靠性;(2)在单台物理服务器上通过同时部署众多虚拟服务器,实现了减少实体机数量,提高计算资源和存储资源的利用率,降低能耗、节约成本;(3)利用虚拟机资源分布式调度、实时迁移和负载均衡等虚拟化高级技术,可以在不停机的情况下对硬件设备进行维护,提高服务的延续性;(4)拥有成熟有效的灾难恢复机制;(5)支持虚拟服务器快速迁移和复制。
由vSphere构建的虚拟化数据中心拓扑结构如图1所示。数据中心可以根据业务发展需要增加ESX主机的数量,从而不断扩展数据中心的计算和存储资源;同时,还可以通过虚拟化平台的集群设置,对数据中心的资源进行动态调度和共享。
4 虚拟服务器常见故障及解决方法
虽然VMware vSphere是一个非常强大的虚拟机管理工具。但是在平时的使用中,还是会遇到一些无法通过常规手段来处理的问题,这里主要介绍在日常运维管理过程中会遇到的两个经典故障的处理方法。
4.1 人为原因造成服务器的管理账户密码丢失
因为虚拟机比较实体机更为稳定,可靠性更高,所以在平常的运维工作中,我们经常会遇到有个别用户因较长时间没有登录虚拟服务器或期间管理人员更换而造成的操作系统登录密码丢失。当出现这种情况时,如果是普通的物理服务器,我们一般情况下可以选择使用带有Windows密码破解工具的启动盘来进行密码破解。但是当服务器为虚拟机,并且不带光驱的时候,这种情况下处理起来就不那么容易了。
(1)首先,我们需要将准备好的带有Windows密码破解工具的启动盘镜像文件上传到vSphere所管理的存储空间中去。选中存储“HVS85T_LUN1”,然后点“浏览此数据存储”,选择“上载文件”,上传镜像文件即可。
(2)然后,我们对需要进行登录密码破解的虚拟服务器点击右键选择“编辑设置”,修改虚拟服务器光驱属性配置。选择“硬件”选项卡,选中“CD/DVD驱动器1”,然后勾选属性对话框右侧的“数据存储ISO文件”选项。
点击“浏览”,选中之前上传到存储空间中的ISO镜像文件。选定ISO文件后,勾选“设备状态”中的“打开电源时连接”复选框。然后打开“选项”选项卡,点击“引导选项”,勾选“虚拟机下次引导时,强制进入BIOS设置屏幕”。
(3)完成以上设置后,虚拟服务器开机后就会自动进入BIOS界面,再修改开机启动设备顺序,使服务器开机从光驱启动,然后就可以使用启动盘中的Windows密码破解工具来清除被遗忘的密码。
4.2 虚拟机操作系统本身故障无法正常关机或重启
这种故障在实体机中经常会出现,在虚拟服务器运维过程中并不会经常遇到,也许有的运维人员从来就没碰到过这种情况,但是这种故障是确实存在并会小概率发生的。实体机出现这种故障,可以通过电源按键强制关机或重启,但是虚拟服务器的电源管理是在vSphere平台上操作的,一旦出现平台上无法完成关机或重啟操作的情况,管理员往往束手无策。
虚拟服务器使用起来对于用户来说跟普通的托管物理服务器并没有太大的区别,但是从ESXi主机后台来看,每个虚拟机都是一个后台进程。如果找到故障虚拟服务器对应的后台进程,然后将该进程终止,实际上也相当于是对虚拟服务器进行一个断电的操作。
(1)首先,我们需要在vSphere上开启故障服务器所在ESXi主机的SSH连接功能。这个功能开启后,我们才可以登录连接到ESXi主机后台来进行相关操作。选中vSphere控制台中ESXi主机的“配置”选项卡,然后选择“安全配置文件”,分别修改“服务”和“防火墙”的属性。
(2)点击修改“服务”属性,选中SSH标签,发现进程已停止,然后点击右下“选项”按钮,手动启动SSH守护进程。然后,点击修改“防火墙”属性,勾选“SSH服务器”选项前的复选框,点击“确定”。
(3)SSH服务配置完成后,我们就可以使用相应工具来连接ESXi主机,这里我使用的是SecureCRT这款软件,我们新建一个SSH2的连接,选择默认配置,在“主机名”中输入目标主机的IP地址,并在“用户名”处填入正确的账户名称。输入正确的SSH连接密码,登录主机后台。
登录主机后,可以进行命令行操作,首先敲入命令:
#esxcli vm process list
即可浏览到该主机运行的所有虚拟机进程,找到需要处理的故障虚拟机的条目:
OA_2016_DServer2
World ID: 23561731
Process ID: 0
VMX Cartel ID: 23561730
这里需要我们记录下来的是该虚拟机进程的world ID:23561731。该ID号是此进程在此操作系统中的唯一标识,可以作为函数调用的参数。
记录下该world ID号后,便可以敲入命令:
#esxcli vm process kill --type=force --world-id=23561731
此时,“world-id=”后面需要输入的就是之前我们记录下来的ID数值,此命令的作用便是强制关闭该虚拟机电源,使其停止运行。
完成此操作后,我们可以再次输入命令:#esxcli vm process list,查看该虚拟机进程是否还存在,如果进程消失,则此操作已成功,便可重新登录vShpere平台按正常操作重新启动该虚拟机。
5 结语
基于虚拟化技术的数据中心是高校数据中心发展的趋势,它所具备的优势和带来的效益决定了其在今后的高校信息化发展中将扮演更加重要的角色。本文以高校传统数据中心存在的问题为背景,对服务器虚拟化及相关技术进行了研究。并以作者单位的数据中心为研究对象,对VMware虚拟服务器在日常运维管理中的两个经典故障进行了分析和研究,同时提出了解决方案,取得了较好的效果。数据中心的建设和维护是一个长期的工作,在今后的运维管理工作中还将会遇到各种新故障、新需求,需要管理人员沉下心来及时掌握新技术、新动态,才能更好地解决各种新问题。