【项目背景】
去年七月一个雷雨夜,九原区某物流园的电话把我从睡梦中炸醒——"杨工,整个园区网络全断了,调度系统瘫痪,30多辆货车堵在门口出不去!"我穿着拖鞋就往现场赶。到了一看,核心机房一股焦糊味:一台H3C S5500核心交换机的光模块被感应雷击穿,级联端口全黑;更惨的是,UPS电池组已经用了4年半,容量衰减到额定值的37%,市电闪断后3分钟就挂了。机房精密空调也停转,温湿度传感器报警——41℃、RH85%。物流园这种24小时运转的场景,断网1小时就是几十万的损失。
【咨询设计】
灾后第二天我带团队进场做整改方案。核心诉求就一个:任何单点故障不能导致业务中断。供电层面:原有3KVA UPS直接淘汰,更换为华为UPS2000-G3-6KTS(6KVA/4.8KW在线双转换),电池组从2组扩到4组(松下LC-P12100ST 12V/100Ah),后备时间从3分钟延长到45分钟;新增一台5KVA柴油发电机作为二级后备。网络层面:核心交换机从单机改为双机热备(两台H3C S6800做IRF堆叠),上联链路从单路光纤改为双路冗余(主用中国联通10Mbps MPLS VPN,备用中国移动4G CPE做SD-WAN自动切换)。链路侦测用BFD协议,故障切换时间从默认的30秒压到800ms。
【施工规划】
供电改造是重头戏。机房配电柜重新布线,UPS输入端加装防雷器(OBO V25-B/3+NPE,In=25kA,Up≤1.5kV),UPS输出到PDU的线缆全部换算载流量——6平方铜芯线接32A空开,每个机柜PDU独立回路。电池柜安装时发现原位置离暖气管道太近(间距不足200mm),我坚持要求移位——铅酸电池环境温度每升高10℃,寿命缩短50%,在包头这种夏天地面温度能到60℃的地方,散热不是小事。网络改造中,两台核心交换机做IRF堆叠,使用2个10GE端口做堆叠链路,Mad检测用BFD方式。上联链路压测:联通MPLS VPN跑iperf3测吞吐量稳定在9.2Mbps,移动4G CPE测速下行35Mbps/上行12Mbps,SD-WAN策略设置为主链路丢包率>5%或延迟>200ms时自动切换。
【安全补丁】
应急抢修方案里必须包含安全加固——很多企业灾后重建只管恢复业务,不管攻击面扩大。我们做了三件事:第一,UPS和发电机管理口全部改默认密码,SNMP community从public改成15位随机字符串,防止被扫描到后远程关机;第二,SD-WAN备用链路通过4G CPE接入,我们给CPE开了APN专线,不走公网,同时防火墙上加了一条策略:备用链路只允许业务端口(TCP 443/8080)通行,禁止全通;第三,灾后系统恢复时,先隔离再上线——所有服务器用卡巴斯基中小企业版全盘扫描确认无勒索病毒残留后才开放业务端口。
【验收交付】
验收分两个场景实测。场景一:模拟市电中断——拉闸后UPS无缝切换,服务器零感知,电池放电45分钟后发电机自动启动,全程业务不中断。场景二:模拟主链路故障——拔掉联通MPLS光纤,SD-WAN在800ms内切换到移动4G,视频会议略有卡顿但3秒内恢复流畅。交付文档:UPS放电曲线测试报告、发电机带载测试记录、SD-WAN切换时间截图、防雷器检测报告、机房配电系统图。给园区值班员做了应急演练培训,包括市电中断处置流程、UPS电池状态查看方法、发电机手动启动步骤。
【售后承诺】
物流园7×24运转,我们也7×24待命。UPS电池每半年上门检测一次内阻和容量,发现衰减超20%立即建议更换。SD-WAN链路状态远程实时监控,异常5分钟内电话预警。雷雨季节(6-9月)每月巡检一次防雷器和接地电阻。大年三十、国庆假期,打17704868686,杨工团队2小时到现场。终身技术咨询,园区扩容规划免费出方案。
【不舍昼夜技术 · 包头IT全生命周期服务】
业务全闭环:咨询规划、方案设计、工程实施、竣工验收、维保售后。
咱能干的:包头修电脑/装监控/拉网线/做系统/救数据/办软件/卖耗材。
技术范畴:5G通信、大数据服务、信息系统集成、网络安全、商用密码、平面设计。
服务区域:昆区、青山区、九原区、东河区、高新区等包头全境,随叫随到。
技术热线:17704868686(本地专业团队,不舍昼夜为您守候!)