标题 | 数据库服务器故障分析与处理 |
范文 | 陈建美 摘要:目前,数据库服务器的重要性已经在校园网内逐渐体现出来,但是数据库服务器不可避免地会发生故障,破坏甚至丢失重要的数据信息将会为院校带来不可预计的经济损失,因此需要使用快速诊断的方法来排除故障。该文总结出排查故障的思路和流程以便快速完成故障定位和处理。 关键词:数据库服务器故障;定位和处理 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)35-0033-03 在局域网中,数据库服务器为用户提供各种数据应用服务,负责处理数据访问、存取与查询、索引与更新、高速缓存、事务管理、查询优化、多用户控制等操作。数据库服务器由通信连接软件、网络传输协议、数据库管理系统(如:Oracle、SQL Server)和应用编程接口API构成。在整个内网通信的数据交换流中,数据库服务器中存储的信息占50%以上,可见数据库服务器在局域网中所处的地位非常重要。 数据库服务器故障分析及处理的总体思路是使用目标效果流程法,将数据库服务器的运行状态分解成四个目标,即操作系统桌面、网络连接状态、数据库系统功能和用户软件配置,然后逐一排查影响其实际效果的各种故障及原因,最后完成故障处理。 1 故障排查流程[1,3] 2 排查流程详解[1-2] 第一步,直接观察数据库服务器能否进入操作系统桌面,若不能进入则存在软硬件故障。 ① 检查内存和硬盘。首先更换内存条,若故障依旧,听硬盘是否有异常响声,是则换上带操作系统的备用硬盘。 ② 若硬盘正常,检查是否操作系统文件缺失和计算机病毒。 若启动时显示“NTLDR is missing按任意键重新启动,不能正确进入系统”就是操作系统启动文件缺失故障。可进入系统故障恢复控制台,转到C盘,输入"copy X:\I386\NTLDR c:\"(X为光驱盘符)并回车,按下"Y"键覆盖,然后输入exit命令退出控制台并重新启动可修复。 若操作系统初始化失败,首先尝试进入安全模式,如果能进入就在附件菜单中选用系统还原功能(还原点尽量靠前),完成之后系统即可恢复正常启动。如果不能进入安全模式,就在系统启动菜单中选“最后一次正确的配置”启动并进入系统,如果能进入就立即实施系统还原,同样能够修复系统。若运行速度缓慢或死机,则首先要查杀病毒。 第二步,通过Windows自带的网络监视器查看网络连接状态。若看不到任何连接用户,则是服务器网卡及数据传输链路故障;若只是看不到故障用户的连接则是该用户网卡及数据传输链路故障。判断链路故障可按以下步骤检查: ① 使用ping 127.0.0.1命令检查服務器网卡本身状态是否正常,若ping不通则为服务器网卡物理损坏或接触不良,处理后若故障依旧则更换服务器网卡。 ② 检查服务器所在的交换机端口指示灯亮不亮,若不亮则切换端口;若亮则使用网线测试仪检查服务器跳线连接状态,证实端口或线缆损坏作相应处理。 ③ 通过网络监视器监测服务器端口是否出现堵塞,若是则应断开连接,使用Netstat命令统计端口的数据流量,找到网络数据流瓶颈的位置,消除瓶颈问题后再重新连接网络。 用户网卡及其传输链路的检测方法与服务器基本相同,但故障定位与用户数量和所在节点有关。 ①若只有一个故障用户,则故障点在接入层交换机端口与用户之间。 ②若故障用户覆盖一个子网,则故障点在接入层交换机与该子网连接的干路网线或汇聚层交换机端口上。 ③若故障用户覆盖几个子网,则故障点在与这些子网连接的核心层交换机端口或干路网线上。 第三步,在故障用户所在的子网中,任意选定一个工作站访问数据库服务器,确认数据库系统的功能实现情况。若不能访问则是数据库服务故障;若能访问则是故障用户机的软件配置问题,在下一步分述。 数据库服务故障主要包括有硬盘阵列、数据库管理系统文件丢失或受破坏、系统服务功能失效,可按以下步骤检查: ①更换硬盘阵列线缆,若故障依旧则替换硬盘测试阵列是否出现故障,若替换后工作正常则视为阵列故障,可通过重新建立阵列解决。 ②打开数据库管理系统菜单检查是否缺失某些管理功能,若功能丢失可使用备份覆盖或重装数据库管理系统。 ③检查数据库系统服务程序是否正常启动,若不能则使用安装光盘修复。 第四步,检查故障用户的软件配置。在未运行应用程序前若操作系统运行速度慢、CPU和内存占用率高为病毒攻击;若进入桌面后显示系统文件出错、缺少文件等提示则为操作系统受破坏;若操作系统正常则属应用程序错误。 若发现计算机病毒应立即杀毒并重新启动客户端软件防火墙功能;若为操作系统问题应打开操作系统system文件夹或使用测试工具检查丢失文件情况,覆盖或重装操作系统即可。应用程序错误可能是版本更新与兼容性问题,或病毒与非法程序攻击造成,可以下载最新版本并重新安装。 第五步,排除上述故障后,数据库服务器应能正常运行,若有特殊故障则按照特定的方式处理。最后应分析和备忘引起故障的各种原因。 3 单项故障处理[2] ①网卡故障处理 完全失效—指网卡在“设备管理器”中无任何响应。首先清理扩展槽和网卡的“金手指”,保证网卡接触良好,若故障依旧,更换新网卡。 适配失当—指网卡在“网络适配器”中标识为黄色“!”。首先清除虚拟网卡,然后重装驱动程序。 硬件冲突—指网卡在“网络适配器”中标识为红色“!”。禁用板载网卡,若故障依旧则更换另一类型的网卡。 ②操作系统故障处理 注册表问题—在计算机启动过程中按F8键,点选“最后一次正确的配置”, 或者启动REGEDIT,然后执行“注册表-导入注册表文件”打开导如注册表文件对话框,选择事先备份好的REG文件进行还原即可。 ③硬盘阵列故障处理 安装故障—当RAID卡被识别后,BIOS开始检测连接设备。如果所连接设备全部被正确扫描出,再安装好驱动之后即可使用RAID功能了。如果其中有某些设备识别不出来,则打开机箱,检查连接设备的电源线和数据线是否正确连接并已插牢,必要时可以换线试一试;如果一根数据线上接了两个设备,那么要确认这两个设备的主从跳线会不会冲突(同一根数据线上的两个设备要为一主一从)。 RAID损坏—如果一个RAID级别被破坏了,则按以下操作进行检查:关闭计算机电源后检查硬盘电源的连接,以及数据线是否与硬盘和RAID控制卡正确连接,若重新开机故障仍然存在,可能是硬盘物理损坏;如果是RAID 1和RAID 0+1,可以用一個新的硬盘将已经被破坏的硬盘上的数据进行备份,确保不丢失数据;如果是RAID 0和JBOD,必须先删除原有的RAID级别,再进行RAID创建,但这样会完全丢失硬盘的数据,因此必须经常对数据进行备份。 ④数据服务故障处理 启动问题—在ms-dos中进入…\mssql\bin(安装SQL文件路径),执行 sqlserver-d...\mssql\data\master.mdf -e...\mssql\log\errorlog-l...\mssql\data\mastlog.ldf,当提示信息出现Using xpstar.dll‘ version ‘1998.11.13 to execute extended stored procedure sp_MSgetversion‘时,即表示已经正常启动;在ms-dos窗口下打开Enterprise Manager和SERVER属性窗口中的Startup parameters并添加参数:-d...\mssql\data\master.mdf -e...\mssql\log\errorlog -l...\mssql\data\mastlog.ldf ;关闭MS-DOS窗口,然后用SQL Server Service Manager启动服务即可。 升级问题—终止使用1433端口的进程,从命令提示符运行 netstat —o找出使用1433端口的应用程序或进程,用任务管理器关闭应用程序或终止进程以释放1433端口;停止所有连接到此 SQL Server 实例的应用程序;在该安装错误消息上选择“重试”来完成升级。 ◇配置问题—使用 SQL Server 2000 (客户端)的网络实用工具或 SQL 配置管理器禁用SQL Server 客户端上的“强制加密”选项;再一次运行 SQL Server安装程序即可。 ⑤数据链路故障处理 首先使用Ping命令检查网卡(Ping 127.0.0.1)。若Ping不通就进入设备管理器检查网卡的当前状态并作出相关的处理;若Ping得通就进入下一步。然后使用Ping命令检查网络的连通性(在本机Ping对方的IP地址)。若Ping不通则首先检查对方计算机的网络基本设置是否正确,然后再检查交换机上对应的端口指示灯是否亮,如果不亮把线拔出插入其他正常的端口中,若灯亮正常是端口坏了;若还是不亮则用测线仪检查线缆,如果线缆正常就是网卡的输出端问题,如果线缆有问题就要检修。 4 故障案例演示 故障现象是我校园网不少用户近日发现学籍管理系统的成绩报表显示及打印功能经常出错,其他服务功能也有类似情况;另外,某子网的用户群访问数据库服务器十分缓慢,个别用户甚至无法访问服务器。具体排障流程如下: ①检查数据库服务器 首先查看数据库服务器的运行状态,发现硬盘阵列中的操作系统盘出现红灯警示,硬盘已被系统标示成DDD (Defunct Disk Drive),处于脱机状态。服务器自动启用热备份功能对脱机硬盘进行逻辑替代,即数据库服务器由于操作系统主硬盘出现物理故障,当前使用的是备份硬盘。 对备份硬盘的检测结果是:操作系统桌面正常;数据库管理系统显示的各项服务选项无丢失。将管理员的手提电脑接入网络中访问服务器的学籍管理系统或其他数据子系统,同样出现上述服务故障。显然,问题还是在服务器端。 既然是近日才出现的服务故障,很可能是备份硬盘投入后引起的。由于阵列中的备份硬盘采用了差异备份方式,不能完全镜像主硬盘,初步判断其数据库系统的版本与主硬盘有差别。经了解主硬盘在故障前曾打过SP3a补丁,而备份盘尚未,那么用户在应用学籍管理或其他子系时必然会出错。在备份盘中补打SP3a补丁后,该服务故障排除。 ②查看网络连接状态 针对某子网的用户群访问数据库服务器十分缓慢的故障,采用Windows自带的网络监视器查看该子网与服务器的连接状态,发现所有用户都处于正常连接状态,并无异常现象。再使用OptiView网络综合分析仪测试该子网上连干路的数据传输速度,发现只有7.58Mbps!而其他子网则可达90Mbps。显然问题出在数据传输链路。 ③检测数据传输链路 首先分别置换该子网干路两端所连接的交换机端口,排查是否交换机端口故障,排查结果是否定了交换机端口故障。 接着沿线检查该子网所在的接入层交换机与汇聚层接入层之间的传输介质,是一条290米的超五类双绞线。采用DSP-4000线缆分析仪的检测,并无发现线缆短路或开路的物理故障,但信号衰减非常严重,传输延迟值大于1500ns。为什么在网络干路使用超过长度限制的双绞线?经询问得知该线缆原来是一条多模光纤,但后来光纤收发器有问题而一直未解决,所以转用现在这条备用的双绞线。由此可见,造成数据传输速度缓慢的原因是双绞线的使用长度超过100米的限制指标。更换光纤收发器之后,重新接入多模光纤作为该子网的传输干路,网络传输速度达到95Mbps以上。服务器访问缓慢故障排除。 ④检查个别用户的软件配置 针对个别用户无法访问数据库服务器的故障,鉴于其网络连接的正常,可直接检查系统性能和软件配置。检查结果是操作系统正常;CPU与内存占用率正常;但运行数据库管理系统的应用程序失败。查实该用户的应用程序竟是旧版,难怪访问数据库失败。询问下该机曾使用Ghost方法重装操作系统及应用程序,而该Ghost文件内的应用程序是旧版的。重新安装新版应用程序后故障消除。 5 总结 数据库服务器若发生故障会导致网络数据访问和信息共享受阻、网络干路堵塞甚至网络风暴,对整个局域网造成严重的影响。本文透过故障现象给出各种情况的处理方法和排查流程,使故障发生时能快速的诊断故障范围、定位故障节点,确定故障原因,完成故障处理。 参考文献: [1] (美)Mark E.Russinovich, David A.Solomon. Microsoft Windows Server 2003/Windows XP/Windows 2000技术内幕[M].潘爱民,译.电子工业出版社, 2007. [2] 曹岳辉,李力.计算机硬件技术基础:第二版实验与实践指导[M].清华大学出版社,2008. [3] 联华科技.BIOS与注册表[M].机械工业出版社,2007. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。