包头青山区一家机械制造企业上周服务器突然报警,两块硬盘同时亮红灯,存储的ERP数据库和设计图纸命悬一线。这台Dell PowerEdge R740是2019年上的,跑了5年没出过问题,偏偏在月底结账的时候出问题。凌晨2点接到电话,我们远程处理了整个故障,下面详细说说技术过程。
一、故障现象
服务器型号: Dell PowerEdge R740,配置8个2.4TB SAS硬盘,RAID5阵列(7块硬盘,1块热备)。
故障表现:两块硬盘(3号和6号)同时亮橙色报警灯,阵列降级,iDRAC界面提示”Physical Disk Failed”。
二、远程连接iDRAC
先通过iDRAC9的IPMI远程控制台进入,拿到阵列卡PERC H730的实时状态。执行以下命令查看物理磁盘:
omreport storage pdisk controller=0
输出显示:3号盘状态Failed,6号盘状态Ready但SMART预测故障。两块盘都存在重建扇区错误,reallocated sector count超过阈值。
三、判断是否可以热拔插
关键判断:RAID5阵列在7块盘+1热备情况下,坏1块可以自动重建,坏2块理论上数据会丢失。但我们检查发现6号盘实际还在读写,只是SMART预警,3号盘是彻底挂了。
策略:先备份能读出来的数据,再更换3号盘。
四、紧急数据保护步骤
用MegaRAID Storage Manager(简称MSM)连接到阵列控制器,将所有能读取的LUN映射为RDM设备,通过网络dd命令做了增量镜像:
dd if=/dev/sdb of=/mnt/backup/erp_db_$(date +%Y%m%d).img bs=4M status=progress
整个ERP数据库28GB,备份耗时约40分钟。这个过程中服务器不能断电,我们用UPS做了双路保护。
五、硬盘更换与阵列重建
备份完成后,安排工程师2小时内到场(青山区服务半径,半小时到场),热拔3号故障盘,插入同规格希捷ST2000NM0044 SAS 2TB新盘。
PERC H730自动识别新盘并开始RAID5重建,6.2TB数据重建耗时约3.5小时。重建期间服务器正常对外提供服务,业务零中断。
六、事后复盘与硬件升级建议
这台R740已经服役5年,SAS盘平均无故障时间约5万小时,两块盘同时接近寿命极限属于正常老化。建议企业定期做硬盘健康检查,不要等告警了才处理。
我们的建议:每半年做一次iDRAC健康报告导出,每季度用MegaCLI做阵列状态巡检。包头青山区、昆区、九原区的企业如果有服务器运维需求,可以联系我们做季度巡检服务包。
七、包头服务器运维服务内容
- Dell/HP/联想服务器上架、调试、RAID配置
- Linux(CentOS、Ubuntu、Rocky Linux)环境部署与优化
- Windows Server域控、DHCP、DNS、文件服务器配置
- VMware vSphere、Proxmox虚拟化集群部署
- 数据备份方案设计与实施(Veeam、Rsync)
服务器故障应急响应:17704868686
【不舍昼夜技术 · 包头IT一站式服务】
- 电脑/服务器:重装系统、硬件升级、服务器Linux/Windows环境部署
- 数据安全:硬盘/U盘/数据库数据恢复、网络安全加固、病毒清理
- 弱电安防:监控安装、机房建设、综合布线、门禁人脸识别
- 办公耗材:打印机维修、硒鼓墨盒配送、复印机租赁
- 软件开发:企业官网、小程序开发、APP定制、ERP系统
服务单位:内蒙古不舍昼夜技术有限公司
业务涵盖:电脑维修/系统重装/数据恢复/监控安防/弱电布线/打印耗材
技术热线:17704868686(包头本地团队,随叫随到!)