(荐阅)事业单位工作总结

时间:2026-04-11 作者:好拿网

今年主要就干了一件事:把手头这几个破系统稳住,别动不动就炸。顺便把机房理了一遍,补了一堆之前欠下的烂账。任务清单和完成情况一条条说,废话不聊。

一、故障处理与系统稳定性

全年工单287条,紧急故障23起。这个数其实不好看,去年紧急故障才17起,说明系统老化和变更失控的问题在恶化。最典型的是七月份那个数据库连接池爆满。凌晨两点被叫起来,业务全挂,所有页面转圈。那叫一个气——白天刚做了一次上线,开发说“小改动,没事”。我先看监控,CPU内存都正常,但活跃连接数飙到800,平时峰值200。直觉告诉我又是慢查询把连接堵死了。抓了当时慢查询日志(用pt-query-digest按时间窗筛的),发现一条统计报表的SQL,开发上个月改过,加了group by三个字段的视图。我拿到执行计划一看,全表扫描,扫描行数一百多万,而且那视图连索引都没建。真服了,这也能上生产?处理动作:kill掉所有空闲连接,重启连接池,业务恢复。后续我跟开发负责人拍了桌子:以后所有生产SQL变更,执行计划必须经过我审,不签字谁也别想上线。另外把监控告警阈值从90%调到75%,还加了连接数突增的环比告警(五分钟内涨50%就报)。

另一个差点搞砸的是十月份那个系统自动重启。每隔两三天就死一回,日志里只有“killed process”,没OOM记录。开发和运维互相甩锅,我夹在中间。后来我决定蹲守。把cron日志、messages、audit日志全开了详细级别。等了三天,终于抓到现场:/var/log/messages里有一条“systemd: Started Session XXX of user root”,顺着session ID查到是个cron定时脚本,里面调了find /。那脚本是半年前一个离职同事写的,没人知道它的存在。问题是某个业务目录下有几百万个小文件(图片缩略图),find扫到那里内存干到8G,被OOM Killer干掉,顺便把业务进程也误杀了。解决办法:修改脚本,限制find路径和深度,加上-maxdepth 3。同时给那个目录做了生命周期策略,超过30天的自动压缩归档。再观察一个月,没再重启。说白了,这种坑就是历史遗留+监控盲区——之前没人想过要监控cron任务的资源消耗。我现在给所有cron脚本都加了ulimit -v 4194304,限制了虚拟内存,还在监控里加了进程的oom_score检查。

二、工艺标准与施工规范

单位推标准化运维,我负责机房布线、上架、标签这三块。说实话,以前那叫一个乱——网线颜色乱飞,标签写“服务器A”“服务器B”的都有,甚至还有没标签的。你想想,万一出问题,你根本不知道哪根线连哪台设备。我拿着新编的《机房布线工艺标准V2.1》一条条对。从PDU的安装朝向(必须朝外,方便拔插),到光纤跳线的弯曲半径(不能小于40mm),再到标签打印格式(资产编号+IP末位+维保到期日),全部拍照留底。施工队一开始嫌我事多,有次光纤走线弯了个直角,我让他们拆了重做,工头跟我吵,说“以前都这么干”。我说“以前是以前,现在标准在这,不达标不验收”。最后他们返工了。全年整改12个机柜,理线47条,补打标签200多个。亮点是上个月换核心交换机板卡,新来的同事照着标签一分钟定位到设备,没耽误事。不足:还有两个老机柜因为业务不能停,至今没整改,拖到明年一季度必须搞定。

三、质量验收与设备维护

今年验收一批存储和30台服务器。我卡得比较死:不仅看原厂报告,自己还得跑一遍压力。存储用fio打48小时随机读写,服务器挨个跑memtest86stress-ng。还真发现一台服务器的内存有坏块,跑了一整天报错,直接退回换货。这事要是不测就上线,当数据库节点迟早崩。设备维护这块,每季度一次全量巡检,重点看硬盘SMART、电源冗余、风扇转速。全年换预警硬盘7块(全是4年以上的SAS盘),换了两台UPS的故障风扇。最让我无语的是,有台备份服务器的电源模块挂了,居然没人发现——它还在另一个电源上跑着,要不是我巡检看到告警灯,不知道要拖多久。后来我给所有双电源设备加了“电源冗余丢失”的监控项,哪怕坏一个也能立刻报警。

对了,备份恢复演练今年一次都没做。这是个大坑。年初排了计划,每季度一次,结果一忙就忘,年中又碰上几次故障处理,彻底搁置了。明年第一季度必须补上,先拿非核心系统练手,把RTO压到半小时以内。

四、跟开发、施工方、厂商的那些扯皮

干运维的都知道,很多时候不是技术问题,是人问题。七月份那个连接池故障之后,我跟开发团队立了个规矩:所有SQL变更必须走我的执行计划分析,否则不批。一开始有人不服,私下上线,结果又出了次小问题(没崩,但响应慢了十倍)。我直接在群里甩了前后对比图,那哥们儿再没废话。跟施工队也一样,布线标准不妥协,他们返工两次后就老实了。厂商那边更逗,有个存储设备的维保,原厂工程师上门,连工具包都没带,就靠远程。我说你这叫上门?后来我要求每次维保必须提供现场操作记录和更换部件序列号,少一样不签字。

五、几个至今没填好的坑

监控覆盖面还是不全。虽然补了20多个自定义项,但像NTP偏移、时钟同步状态还没加。上个月有个服务器时间漂了5秒,导致分布式事务报错,查了半天。这个月必须加上。文档依然滞后。拓扑图画了,但配置文档、灾备切换步骤、常见问题手册还是散的。我打算用两周时间把wiki搭起来,强制团队每人贡献三条。还有那个没整改完的老机柜,以及备份演练,全是债。

今年就这么过来了。明年就三件事:把老机柜整改完,把备份演练做起来,把监控盲区再扫一遍。其他的,见招拆招吧。

    欲了解工作总结网的更多内容,可以访问:工作总结

本文来源://www.hn373.com/zongjie/170273.html