服务器硬件故障应急预案 下载本文

内容发布更新时间 : 2024/6/16 20:33:46星期一 下面是文章的全部内容请认真阅读。

服务器硬件故障应急预案

服务器故障应急预案 有关应急预案

1 服务器硬件故障应急预案

(1)核心服务器双机配置,配置好备用服务器,随时待命。

(2)发生服务器硬件故障后,相关人员应及时查找、确定故障原因,进行先期处置。若故障服务器在短时间内无法修复,相关人员应启动备用服务器,保持局域网系统的正常运行;将故障服务器脱离网络,进行故障排除工作。

2 服务器软件系统故障应急预案

(1)做好服务器软件系统的定时备份,系统崩溃后,能够及时恢复系统。 (2)发生服务器软件系统故障后,相关人员应检查出现故障的原因并尽快排除。

(3)如遇服务器系统崩溃,应启用备份系统进行恢复。 服务器硬件故障预防与排除 1 故障预防

准备相应的应急备用服务器。当服务器出现不可恢复的硬件故障时,马上启动备用服务器,从而减小服务器硬件故障风险。

2 故障排除

当服务器出现硬件故障,通过以下步骤排除:

(1)确定故障原因。依次查看电源、硬盘、内存、主板、处理器等,如条件许可,可使用替换法检测各硬件。

(2)恢复固件缺省配置。比如去除第三方厂商备件和非标配备件;清除CMOS,恢复资源初始配置。

1

3、故障处理

(1)硬盘故障处理:当硬盘出现黄灯提示预警时,应先查看硬盘数据是否丢失,如数据存在应先做好数据备份,将此服务器各应用迅速转移,然后排查报警具体原因,如由于错误操作或硬盘连接不好引起的报警,可尝试重启服务器,重新插拔硬盘等操作即可解决问题。如硬盘损坏,应及时将备用硬盘替换下故障硬盘,使服务器恢复正常工作。排查过程中,如不能正确判断问题原因,不能随便操作,可向IBM售后服务咨询处理。

(2)内存故障:由于我们的服务器有多组内存,单条内存故障时,会对服务器性能稍有影响,当不会影响整体使用,所以如发现内存条损坏时,安排时间将损坏的内存条替换掉即可

(3)RAID卡故障:服务器的RAID卡出现故障时,系统会无法识别出硬盘,服务器不能正常使用,所以应第一时间启动备用服务器。将故障服务器移出生产网络后更换RAID卡,RAID卡通过硬盘重新读取RAID配置信息后即可恢复使用~

(4)电源故障:现阶段我们的服务器都是单电,如果电源故障会使服务器完全瘫痪,预计将服务器都升级双电,这样在一个电源故障时,才有充足的时间将故障电源替换掉,从而减小电源故障对服务器的影响。

(5)CPU故障:我们的服务器多为双CPU,所以在CPU故障时同内存一样,只会对服务器性能有所影响,不会影响整体使用,所以及时安排时间将有问题的CPU换掉即可。

(6)网卡故障:启用本机备用网卡,顶替故障网卡。 服务器软件故障预防与排除 故障预防

1. 服务器初始状态备份

安装配置好服务器软件系统,经测试能够正常投入生产使用后,用GHOST软件备份好服务器系统。备份文件本机一份,光盘或移动存储一份。 2 故障排除

服务器软件系统出现故障,先对服务器系统查毒,升级相关系统软件,若故 2

障依然存在,通过以下步骤排除:

(1)用备份系统还原服务器系统。GHOST文件还原服务器系统的初始状态,进入“目录服务还原模式”还原系统实时状态。

(2)重新安装配置服务器。若备份系统还原系统失败,必须重新安装服务器系统。

附件1

RTX服务器备份及故障应急处理方案

Rtx服务器现为单机运行状态,无热备机,硬盘做了raid1 一、RTX服务常见问题及处理方法: 1、 RTX不能正常登录

查看服务是否正常运行,IP及端口(默认:UDP 80)设置是否正确,

如有异常可重启服务或修正IP地址和服务端口处理。 2、 RTX在使用时如不能发送接受文件

1) 查看服务器端是否开启8003端口, 2) 查看防火墙是否对8003端口做了限制 3) 查看服务器端是否对用户文件传输做了限制 确保上述三点,即可保证用户正常传输文件 3、 用户会话时不显示聊天记录 1) 查看服务器端是否开启8880端口, 2) 查看防火墙是否对8003端口做了限制