这六个月试用期,用我们行话说,叫“试岗不试错”。能留下来,说明我经手的系统没捅大娄子,该顶上去的时候也顶住了。简单交代一下:我主要负责核心交易系统的运维,兼着做点故障分析和稳定性优化。说白了,这活儿干得好不好,不看写了多少文档,就看两条——系统崩的时候你在不在,数据丢的时候能不能找回来。
先看几组硬指标。试用期间,核心交易系统、行情网关、内部OA三个板块,全年累计非计划内宕机时间控制在28分钟,折算下来可用性99.994%。处理各类报修工单326件,其中下班后和节假日响应的占四分之一左右。有一点我自己比较在意:入职第二个月开始,业务部门交易员私下@我问“系统卡不卡”的次数明显少了,最近一个月是零。这个我当满分。
接下来说点实在的,这半年怎么过来的。
第一件事,是把监控从“事后喊救命”往前推了半拍。 刚来时每天被报警短信炸醒,后来发现七成报警是虚惊,真正要命的反而不叫。我花了两周时间,把所有监控项的阈值重新跑了一遍历史数据,拿业务高峰期的真实负载做基准,把CPU、内存、IO的报警线从“快死了才喊”改成“开始喘气就喊”。改完那周,有个夜间的批处理脚本因为临时数据量暴增把IO打满了,监控提前八分钟预警。我半夜三点爬起来远程连进去,赶在早上开盘前把资源调度调顺了。那一宿没白熬,第二天交易员该下单下单,没人知道夜里差点出事。
第二件事,是一次让我学会敬畏物理层的故障。 那是9月15号,上午刚开盘,主行情源突然断流。备用链路自动切了,但切的过程有十几秒延迟,客户端行情卡成狗。业务部门电话三分钟打了二十多个,那场面,你懂的。我第一反应不是回电话解释,是冲到机柜前看链路指示灯——当时脑子里就一个念头:如果是软件层面的事,重启可能有用;如果是物理层的事,每浪费一秒都是在给自己挖坟。抓包一看,主链路的收光功率在临界值上下跳,判断是光模块或者光纤接触不良。我做了个决定:不等自动切换了,直接上命令行把主端口的优先级拉低,强制让业务全走备用链路。三十秒后行情恢复。事后去弱电井排查,果然是前几天下雨,那个光纤接头进了潮气,氧化了。这件事给我的教训是:软件配置得再花哨,扛不住物理层的“一票否决权”。从那以后,我把核心链路的物理巡检写进周常任务,每周至少钻一次机房,用手摸一遍线缆温度,拿光功率计测一遍收发光。难看不重要,管用就行。
第三件事,是关于备份和恢复的那点破事儿。 来之前公司有备份,但从来没人验证过能不能恢复。我问了句“如果现在要恢复上周的某个表,需要多久”,没人答得上来。我自己动手做了一次随机文件的恢复演练,结果发现有个核心业务的归档日志因为脚本路径配错,压根没备份进去。那天晚上我发了一封邮件,标题就四个字——“差点出事”。后面我立了条规矩:每月做一次异地恢复演练,从冷备磁带里把数据拉出来,真真实实跑一遍应用。备份这东西,有和能用,中间差着一个银河系。我宁可平时不烧香,也绝不允许急用时抱不上佛脚。
再聊点干活攒下的体会。
第一个体会:故障处理要快,但复盘必须慢。 出问题的时候,怎么快怎么来,重启、回滚、切备机,先保住业务。但事后的复盘,一定要慢下来、钻进去。我不写“加强责任心、提高警惕”那种屁话,只写技术上哪个环节有漏洞。比如那次行情故障,我的复盘结论是:“主备切换逻辑对物理链路震荡场景考虑不周,需修改脚本加入链路质量检测。”这才是能帮系统变稳当的关键点。
-
✹好拿网精选档案:
- 国企投资公司转正工作总结 | 医药公司员工转正工作总结 | 投资公司工作计划 | 投资公司实习报告 | 投资公司员工转正工作总结 | 投资公司员工转正工作总结
第二个体会:把复杂操作简单化,把简单操作自动化。 刚来那会儿,部署一套新环境要敲四十多行命令,手一抖就配错。这半年我把常用的服务部署、版本回滚、健康检查都写成脚本,现在新同事来,执行一条命令,喝口水的工夫环境就搭好了。这是把自己从重复劳动里捞出来,腾出手去搞更有价值的事,比如优化系统架构、压测瓶颈点。
第三个体会:有些坑是自己挖的,早晚得自己填。 说实话,我现在最怕的不是出故障,而是故障复盘到最后,发现是当初自己图省事埋的雷。比如有次因为写定时任务时没考虑跟备份脚本的时间窗口冲突,结果半夜磁盘写满,业务卡死。我穿着睡衣远程进去,一边删日志一边骂自己手贱。这半年踩的坑,有一半是这种自己种的因。但反过来想,这也是成长——下次再遇到类似场景,脑子里会响警报。
最后说几句实在话。试用期过了,不代表活儿干圆满了。眼下有几个硬骨头还得啃:一个是那套老掉牙的行情分发系统至今没有双活,每次发版我都得盯着,生怕它一口气上不来;另一个是核心数据库的恢复时间目标虽然压到了半小时内,但真要出大事,这个时间还是太长了,得继续优化。后面几个月,我得把这两件事往前推一推。
-
推荐阅读:
(可收藏)投资公司员工转正工作总结
国企投资公司转正工作总结(集锦十二篇)
医药公司员工转正工作总结(汇总10篇)
投资公司实习周记(收藏十五篇)
公司员工年度工作总结(收藏十一篇)
投资公司工作计划(精华19篇)
-
欲了解工作总结网的更多内容,可以访问:工作总结