1.早检查,早预防
在一次机房安全检查时,发现配电箱里的电线老化,严重处铜线外漏,用电笔测试绝缘线皮,居然漏电,立即申请配电箱抢修工程。
还有一次,在进行通信工程检查时,发现设备控制箱向北敞开着,里面有光端机、电源插板、保险、电表、空气开关等。北方的雨水,一般多从西北而来,如果在下西北雨时,雨水直接进入控制箱,安全问题就涌现出来,严重时可能造成电击事故。
在现实中,因为做到早检查、早预防,所以正常运行,但是容易被忽视;而因为没有做到早检查、早预防,结果为企业、为国家、为社会造成严重的经济损失,结果却显而易见。
2.职责清晰,分工明确
团队提倡精诚合作,但是也不能分工不明、职责不清。当两个人都深陷沼泽,又是好朋友,彼此都想帮助对方共同脱离沼泽,可是只能越陷越深,怎么办呢?最后商量,先让一个人脱离沼泽,脱离沼泽的朋友脚跟站稳后,再去搭救他的朋友。这就涉及谁先脱离沼泽,也属于一种分工。当脱离沼泽的朋友站稳脚跟后,他就应该去搭救朋友,这就是他的使命和责任。三个和尚没水吃的故事,深刻地告诉我们没有分工就没有责任心,往往事情就被耽搁了。
运维经理接到一个求助,公司出纳的计算机总自动关机。早会上,经理把此任务交给了两个工程师负责解决。这两个工程师平时就有点不对头,一听是难对付的出纳,谁都不愿意去,于是都想让对方去。第二天早会,经理让各自汇报情况,这两个工程师都没有提及此事,经理也没在意这件小事。散会后,财务经理直接来找经理,让他安排人修理计算机,否则运维报销也将延期。经理把此二人叫到自己办公室,问其原由,二人异口同声:“我以为××去修了,我现在马上去帮她修。”
3.及时更新运维信息(密码、配置文档、系统参数等)
项目竣工后,并不是一成不变,经常因为用户变更、设备或部件更换、系统升级、密码修改等日常维护工作,导致系统参数、配置文档、资源档案等的变化,所以要及时更新运维信息,以备日后参阅。
有这样一段经历,集团新增了一批网络设备,包括路由器、交换机、服务器、入侵检查设备等。运维工程师加班加点,熬了两个通宵终于完成了工程。完工后,这两个工程师都在家调休,上班以后又投入到其他地方的故障抢修,就这样一拖再拖,最后忘记更新相应文档。
三个月后,其中一名工程师离职,另外一名工程师升级为另外一个运维网点的经理。新接手的工程师,不清楚集团新增那批网络设备的拓扑结构、策略路由、登录密码等。
事情终于发生了,有一天,新员工在设备上架时,需要接入此部分网络中,可是不清楚这部分的拓扑结构,又没有系统的登录密码。电话咨询以前的工程师时,他们都说因工作紧急,忘记了那部分工作,并都说对方清楚。新工程师无可奈何,只好自己摸索。两个月后,问题才有了眉目。
4.及时升级、改造
在概念部分,我们学习了产品、工程、项目的生命周期,也认识到事物总是有灭亡的时候。同理,完工的项目,在运维期间,会有许多设备、材料进入灭亡期,就像计算机从286、386、486等到今天的双核、四核、多核。在开展运维工作的同时,我们要通过日常巡检、设备档案查阅、新技术的学习等途径,及时采取设备、材料、系统等的升级和改造工作,以便与时俱进。
我们提倡早发现、早预防。发现了,无预防,也是无济于事。上面的机房检查,如果发现配电箱漏电,不采取改造工作,就是一个极大的安全隐患。
社会在进步,科技在发展,产品在更新换代,我们也要及时升级我们的系统,及时更换新设备和设施。只有这样,才能做到与时俱进。
5.增加备份方案
备份方案包括:设备备份、链路备份、方案备份、人员备份等。
网络通信中有设备冗余、双机热备、备用设备、形成环网、生成树等。足球队、篮球队等有替补队员。供电系统中,增加UPS供电系统,柴油发电机。运维过程中,经常有备用工具。做预算时候的储备金。这些都是很好的备份方案,切记不要在一棵树上吊死。
注:此文摘自《项目经理沟通管理技巧与实务》