打铁还需自身硬——省局信保中心团队纪实

11.12.2014  17:31

编者按: 河南省气象信息技术与保障中心主任方立清在技术保障部门已工作了三年。期间,他亲身经历了多个设备、系统从出现故障、排查故障、解决故障的全过程,也“领教”过商人的“手段”、“技巧”和“方法”。从大到几十万元的会商系统屏幕,小到系统的一次“死机”,方立清带领的团队用自身过硬的专业本领挑战商家的所谓“专业”和“潜规则”,用最小的成本近乎“完美”的解决了问题。这些生动的案例再现了一个有责任、有担当、有能力的部门负责人的形象以及团结自律、刻苦钻研的团队作风。“打铁还需自身硬,只有练就过硬本领,才能不会被商人所蒙蔽、吓倒;熟悉问题解决的方法和渠道,才能有解决问题的定力!”方立清如是说。正如省局王建国局长在方立清写的工作体会上批示指出,这些案例是领导干部作风硬朗、敢于负责、勇于担当的鲜活教材,值得学习借鉴,也诠释了在全面推进气象现代化进程中,学习新知识,掌握新技术,练就过硬本领的重要性。省局纪检组长王世涛也批示到:有了强烈的责任心,就会处处为事业着想,就敢于担当,就会找到问题的解决办法,从这些案例也不难看出,信保中心技术人员的过硬技术和责任担当,处处有心皆学问,相信你们会做的更好,在实践中培养锻炼出一支优秀的保障人才队伍。现将方立清所写的《打铁还需自身硬》一文给予刊登。

打铁还需自身硬
方立清


      在省气象台工作时,与“老天”打交道,经历过风和日丽,遇到过暴风骤雨,体验过电闪雷鸣,深知风谲云诡,知道“天有不测风云”的难处;在技术保障部门做事中,与“商人”打交道,遇到过诚信商家,见识过店大欺客,领教过商海“风云变幻”,体验过商海水深水浅!三年来,亲身经历了多个设备、系统从出现故障、排查故障、解决故障的全过程,“领略”过商人的“手段”、“技巧”和“方法”,体会到同志们解决疑难杂症后的喜悦心情和恍然大悟之惊叹!现举几个案例,作为信息保障系统新兵,请行家指点。
      案例一:会商系统图像颜色反差大。2014年1月,全省高清会商系统升级、扩建工作基本完成。会商系统中2011年建设的大屏幕系统继续使用,其中八块拼接屏幕的色差和亮度方面出现的严重问题引起各级领导的高度关注,局领导多次指出会商系统色彩故障,并要求中心尽快解决和处理。中心技术人员多方排查,仍然没能解决问题。技术人员又联系负责维护会商系统的社会化保障公司,要求他们排查问题、提出解决方案。在两个月的时间里,社会化保障公司技术人员多次通过各种方式对屏幕进行调试,包括从其他渠道邀请国内更加专业的工程师、设备原厂技术人员来我局处理,故障依然存在。
      在此情况下,我于3月6日安排三家公司和中心技术人员一起进行诊断、讨论和分析。四方技术人员经过近3个小时、几种替换和交叉测试后,三家公司技术人员均表明:造成目前色彩故障主要是由于大屏幕光机系统老化,根本的解决方法是整体更换8块屏幕的光机,预计需要花费50~60万元(占大屏幕系统建设成本的一半左右)。等到公司技术人员一离开,我当即指示中心技术人员进行最后的大胆调试,出了问题与技术人员无关、由中心负责。事实证明中心技术人员用一天时间通过遥控器逐个调整屏幕,没有花费一分钱,彻底解决8块屏幕的色彩问题。
      案例二:会商系统图像规律性模糊。全省高清会商系统于2014年1月扩建基本完成后使用基本正常。自2014年6月起,计算机双流信号大约每2秒出现一次持续1秒钟的图像抖动性模糊,其高清性能发挥受到很大影响。系统集成商多方、多次派技术人员到场,将近半年时间都无法解决。2014年11月18日,中心主任又联系南方一家技术实力强的专业公司诊断原因、查找问题。该公司3位技术人员、中心技术人员一起经过当日一个下午的反复测试、调试、试验、比对,终于发现问题症结:在该系统中有一个菜单某一选项由√变成__即可解决,并且可以逆向重现故障、排除故障。据了解,外省会商系统也有类似的故障,只是表现形式不同而已,他们的故障也可通过我们的方法进行排除。
      案例三:会商系统“插嘴”问题。2012年春季,现象是:在全国天气会商过程中,其他省气象台正当发言时,我省会商系统“私自插嘴”打断其他省正常发言,严重影响全国天气会商正常进行,技术人员只有采取关闭我省会商系统语音子系统的方法让会商系统暂时“闭嘴”。我们技术人员多方查找,未发现问题产生原因。此时设备已使用近10年、早已过保修期,问题解决起来比较复杂。中心技术人员找设备厂家,他们来人检查后,“判断”是语音子系统故障、无法修复,并说该设备已经停产,只能换掉整个语音系统,费用大约2.5万元,要先付全款、2个月后才可到货。得知该情况,我对技术人员说:既然厂家都说无法修复、判了“死刑”,你就放手、大胆拆开看看是否 “有救”。技术人员就拆开语音系统,捯饬了大约半小时,动手做了个小“片片”按上去,天衣无缝,问题居然迎刃而解!解决得还如此简单!
      案例四:会商系统灯泡“短命”问题。会商系统DLP大屏幕灯泡寿命一般为8000小时左右。根据我省气象部门会商系统使用情况,DLP大屏幕灯泡大约可以使用5年左右。2012年夏季,在我省大屏幕会商系统更新刚快满一年的时候(系统质保2年、灯泡质保半年),DLP大屏幕系统中的16个灯泡出现严重色差、色暗。问题反馈给集成商,说是灯泡寿命已到,采取换掉8个灯泡(每个报价4500元)、再从16个“”灯泡中挑取8个较好(可以再使用半年)的配合使用的办法进行解决。集成商技术人员赶到中心时已是晚上,在换灯泡的过程中,我和中心2位技术人员一直在现场。我发现新灯泡换上后色差、色暗问题依然存在,一点也没改变。集成商技术人员说:一会儿调下参数,“色差”、“色暗”问题即可解决。我当即叫停集成商技术人员换新灯泡,将已经安装上的新灯泡全部取下,重新装上老灯泡。集成商技术人员强调灯泡安上后不容易取下、容易损坏。主任说:刚才看你装灯泡是轻轻放进灯槽的,取下过程若损坏了,我们负责。事实是:通过调参数的16个被判“半瞎”灯泡又全都“复明”了,又正常使用一年多也没出问题。我现场向集成商负责人打电话质疑:既然调下参数可解决“色差”、“色暗”问题,没有必要换新灯泡。随后我又让技术人员通过互联网联系到灯泡原厂总代理,一样的灯泡报价1600元(约为集成商报价4500元的三分之一)。因为第一次打交道,灯泡原厂总代理答应不收款先发来2个灯泡让我们试用,若质量不好直接退回。我们试用3个月后,技术人员反映质量确实不错,按双方约定数量、价格买来备用。
      案例五:会商系统莫名“死机”。2012年春,技术人员多次反映,我省会商系统每月不定期、不定时会出现“死机”现象,需要重启系统,多年来问题一直未能解决,时常影响天气预报会商正常进行。有一天,我到机房查看,无意中发现会商系统MCU热得发烫:手无法在上面停留。让技术人员将该MCU上面、下面的设备全部腾空试试看。结果出人意料:温度降了,该设备自此两年来几乎不再出现“死机”现象。
      案例六:服务器“死而复生”。2012年夏季,我省用于处理雨量站数据的一台服务器出现加不上电现象,技术人员经过排查未能解决,服务器厂家技术人员到场也说使用年限太长,无修复价值。该设备就放在机房地板上。一天我到机房巡视,问这台服务器是怎么回事后,就让刚好在当场的另外科室一位技术人员看看。这位技术人员将该服务器搬到机房外,放在桌面上来回这儿按按、那儿拔拔插插,将机器又除除尘,重新加电,令人意外地事情出现了:服务器运转正常。
      案例七:服务器周期性宕机。2012汛期中,承担区域站资料处理任务的一台服务器又出现宕机。该服务器宕机恢复起来很费事,一般需要一天来时间,有时还需要服务器厂家技术人员到场才能解决。这种情况已经多年出现,大概每年就要出现一次,时间不定,原因不明。得到技术人员报告,我到机房了解处理情况进展,与技术人员对宕机的可能原因进行分析、诊断。我提出,看看磁盘空间情况,是否是因磁盘空间耗尽引起。技术人员通过技术手段得到该服务器磁盘空余字节数为0。这时,大家都明白困扰技术人员多年的原因是区域站数据日志文件日积月累将磁盘空间用尽所致。
      为避免此类情况再次发生,我安排技术人员开发UNIX操作系统下的服务器磁盘空间、I/o、CPU使用率、内存使用率等等一系列参数的实时监控软件进行实时监控,一旦出现问题征兆,便于技术人员及时处理。技术人员都反映不十分熟悉UNIX操作系统这方面的技术,开发起来有难度。我想到正在承担中心一个大项目系统集成商,便问其法人是否可以帮助解决,中心愿付与任务相当的开发费用。该集成商法人说,这事容易解决,大概需要三天时间就可完成,权当干大活顺便为业主干个小活,过不着算钱。我要求,无论算钱与否,必须给全部源代码才能接受软件(软件进入核业务心系统,不能不小心!)。果然,三天后该集成商技术人员将写好的源代码拿来,所有源代码大概1000行以内的样子(会者不难!)。可以完全实现UNIX操作系统的服务器相关参数实时监控,并将监控结果实时写入数据库。我即时安排中心技术人员将入库后的服务器相关参数进行WEB页面方式实时显示。两年多来,中心所有UNIX操作系统服务器,不再出现因服务器资源用尽引起的类似故障。
      这种情况在业务系统中经常出现。在省气象台工作时,也出现过此种情况:2008年省台购买了10台高性能工作站,其中处理雷达业务的一台工作站,每周左右出现系统崩溃,无法启动,出现多次,原因不明。因为是新购、批量设备,厂商十分重视,换过新机器依然如此。台长即考虑是否是因频繁读写、磁盘空间等方面的原因所引起,便安排技术人员修改雷达数据处理相关软件,在软件加入磁盘空间限制语句(使用量不超过总量的62.8%),超过空间限制数便进行老数据自动删除。自此修改后,多年不再出现此问题,直到台长到中心后了解还是这样。在2014年春季,我省几百个区域站全部出现数据无法上传故障,经中心技术人员排查,初步判断是采集器存储卡空间用尽引起,反映给区域站设备厂家。他们派技术人员现场诊断、分析,原因确实是存储卡空间用尽。换上大容量存储卡后发生故障的区域站全部及时恢复,厂家又像省台技术人员那样修改程序,以彻底解决此类问题。
      案例八:雷达传动轴系“直接了断
    2014年春节期间,郑州市新一代CINRAD-SA型气象雷达在运行过程中,出现了检测装置齿轮传动轴的齐刷刷断裂现象,直接导致雷达无法正常工作。春节上班第一天,我听取雷达技术人员汇报后,即带领技术人员去现场查看。回到单位后,我安排并和技术人员一起解剖该部件,大家一同开起“诸葛亮会”进行断轴原因诊断、分析。我提出,从力学、结构学原理看,该轴设计似有缺陷。于是和郑州大学机械工程学院教授联系,请他们从理论、实验室模拟、实验室试验,该部件是否存在设计缺陷。

图1 雷达轴断裂
      我、分管主任、正研专家、技术人员一起到郑大,和教授们一起探讨故障原因,双方达成合作:“雷达检测装置齿轮传动轴断裂分析与结构优化设计”,基于材料力学及断裂力学,通过宏观、微观的深入分析,探讨齿轮传动轴断裂失效的原因。
      通过郑州大学机械学院的实验室数据仿真实验,并且结合理论数据,分析了该齿轮传动轴实际工作状况和作用,通过对断裂轴的外观、材料力学性能及断口形貌等的综合分析,并从传动轴的几何形状因素、尺寸效应、加工表面质量、装配误差等方面进行深入探讨,可基本断定传动轴断裂失效的原因是疲劳断裂,其性质为扭转及弯曲疲劳断裂。并按工程级标准制作改进设计后的轴。
郑大试验证明中心主任的判断是对的。厂家技术服务部门得知河南的做法后,专门致电表示感谢。
 
图2 轴系剖面图
 
图3 实际工况下原齿轮传动轴受力情况
      通过剖析上述几个案例,作为中心负责人和技术人员,可以得到以下经验:
      作为单位负责人特别是分管负责人,一是需要经常深入业务一线,及时了解、发现问题,而不是仅仅停留在听取业务人员汇报上、仅仅依靠技术人员汇报来掌握业务系统特别是关键技术系统运行动态;二是为技术人员解决问题提供及时的支持和帮助,而不是等到技术人员汇报才被动地听听情况而已;三是鼓励技术人员在遵守技术规范、技术要求下进行大胆尝试,为他们解决问题排除后顾之忧,而不是对基层反映问题提不出指导意见;四是听技术人员问题报告后,及时到达现场,一同进行问题、疑难杂症的分析、诊断和排除,而不是说你们想法后就万事大吉;五是鼓励技术人员成为行家里手、遇到问题首先要靠自己解决,而不是过度依赖商家、厂家、维保公司;六是充分相信技术人员的水平和能力,遇到一时排除不了的故障,及时给技术人员鼓劲,相信他们凭自己的努力能够解决问题,就是一时解决不了可以耐心等待,而不是过分指责、埋怨;七是帮助技术人员开拓视野,遇到问题不仅仅是依靠系统集成商,可以向设备制造商直接进行咨询、请教,可以向省内外同行进行请教、交流,可以向国家级业务单位技术专家请教、寻求帮助,可以向“互联网”这个无私的“好老师”、“好专家”请教,而不是闭门造车、光自己“”。
      作为技术人员,一是要细心看,在业务系统建设时期掌握好关键技术,从不同角度、侧面观察建设业务系统的商家技术人员的各个操作步骤、参数配置、硬件安装顺序等环节;二是要虚心问,凡来建设业务系统的商家技术人员大多都对该业务系统有一定的专长和特长,有比较丰富的经验,他们是学习的最后老师,遇到问题、疑惑,及时、现场向他们进行学习,可以快速了解业务系统的关键环节和重点;三是专心钻,遇到问题正是提高自己水平的好时机,通过多种途径、方法、渠道,切实掌握好业务系统的构造、结构、布局、流程等环节,做到对业务系统“了如指掌”,技术就可能达到“炉火纯青”的境界;四是用心想,遇到问题后思考为什么发生,问题解决后想想是怎么排除的,并及时将排除的关键点、关键部位、关键环节形成技术报告,与同行交流和共享五是要“艺高人胆大”,对重要装备要用心钻研、掌握过硬的技术,敢于质疑权威、敢于质疑厂家,敢于动手排除故障、解决故障。
      这几个案例表明,我们无论作为部门负责人、分管负责人,还是作为技术人员,只有掌握技术系统的关键技术、关键环节,才能不受制于人;打铁还需自身硬,只有练就过硬本领,才能不会被“商人”所“蒙蔽”、“吓倒”;熟悉问题解决的方法和渠道,才能有解决问题的定力!
      截至2014年12月中旬,已满三年信息网络技术保障负责人的经历,说起来不长不短,可想起来,却是感慨万千。作为信息网络、技术保障方面的“新兵”,光凭借以前写几十万行代码、二十多年气象业务管理的经历是远远不够的,需要从多方面、多角度、多维度地进行观察、思考、决策,才能把一班人带好。