服务器UPS不稳定事件调查报告

背景

这件事从最开始发现到现在已经有将近一年了,而直到现在也不能得出100%确定的原因,本文中所得出的结论也只是我的推测。任何复杂的系统,都难以通过单方面的判断得出有效的结论,消融实验是必要的,而很多时候又没有做消融实验的条件和时机。谨以本篇文章,还原我从发现UPS不稳定,到得出结论的心路历程,希望能带给读者一些参考。如果有读者遇到类似的事件,不妨与我讨论。

本文中涉及的UPS型号为山特 SANTAK TG-BOX 850,但本文不认为该 UPS 有质量问题,甚至这个 UPS 质量非常好,精度非常高,我们会在后文讨论。

山特UPS购买记录

本文一切内容均来自个人经验,并非相关品牌专业人士的官方声明,请在专业人士指导下进行相关操作。

突如其来的告警

那是一个平凡的夏天,我正坐在电脑前吹着空调看着番剧吃着雪糕,几个告警突然从手机弹出:UPS is on battery power。

UPS的告警详情

正当我困惑,家里没停电啊,为什么 UPS 进入电池模式了,难道是误报?突然又收到一条告警已清除的邮件,随后就来来回回不停地收到一堆“抖动”的告警。

“抖动”的告警

我开始检查 NAS 的状况,我有理由怀疑是 NAS 因为莫名其妙的原因触发了告警,而实际上 UPS 并没有发出告警,因为实际上并没有断电。但我并没有什么方法从 NAS 上找到线索,因为它的配置似乎是正常的。UPS 触发 NAS 告警的原理应该是:UPS 通过 USB 协议向 NAS 发送通知,NAS 上的服务接收到通知后,通过 SMTP 发到我的邮箱里。现在 USB 协议这段出现了莫名其妙的故障,导致了误触发,至少我当时是这么考虑的。我甚至考虑过暂时性地把联动关闭,但是风险很大,所以我一开始也只是延长了从断电到关机的时间,以在“抖动”中寻求稳定和折中。

NAS的UPS配置

我开始检查 UPS 的状况,发现好像确实在每次告警的时候,UPS 进入了电池模式,因为 UPS 的硬件告警灯亮了。这瞬间让我意识到没有关闭联动的必要性,如果我关闭了联动,而恰好 UPS 消耗光了电量,将会发生什么不可逆的后果。而调查也有了思路:线路故障,或者 UPS 本身故障。

消融实验

我一开始怀疑线路故障,因为插线板经常就会出现接触不良的问题,所以我在线更换了一个插线板,在更换完的一天内确实没有出现过告警,而之后又再次出现了,可以证明并非线路故障,因为该插线板在其他线路中工作正常。

随着告警越来越多,我在一次告警中观察到了长时间的 UPS 断电告警,我把 UPS 从系统中分离以进行进一步的测试。直到我把 UPS 插在我工作台的插座上,仍然提示告警,我坚信,这一定是 UPS 故障导致的。于是我立马联系 UPS 的售后,得知了这台 UPS 拥有三年质保,厂商的处理很迅速,从我寄过去到 UPS 寄回只用了不到一周时间。果然,新的 UPS 就再也没有发生过这种问题了。

然而,最近又开始断断续续地发生着告警,我很疑惑,所有的模块我都做过消融实验了啊,难道这个型号的 UPS 就有问题吗?但是既没有收到厂商对产品的召回,网络上也没有讨论相关话题的。

结论

直到我最近在小区的物业群里看到了有人在讨论最近小区电力不稳,一切都迎刃而解了。我迅速找到去年的告警,果然也是在夏天。这一切的一切,只有一个东西没有做过消融实验——那就是上游供电。我怎么就不能怀疑是它不稳导致的呢?但是我家里的另外两台 UPS 都工作正常,只有这台不正常,而且电脑也一直在持续稳定运行,因此我一开始就忽略掉了这个最不应该忽略的因素。因为电脑电源的电容很大所以稳定是正常的,而其他 UPS 可能对电压不稳并没有这么敏感,只有这台 UPS 的精度很高,对于哪怕电压出现的一丁点异常都能检测出来并及时接管供电。而都是发生在夏天,因为夏天大家都在使用,尤其是我发现天气越热就越容易出现这种情况,那一切就都解释清楚了。时间点也对得上,这些告警都是在晚上出现的,而晚上应该也是空调使用最多的时间段。

物业群的消息

去年夏天的告警

虽然我这么认为了,不过未来还会不会有其他证据推翻我的猜测呢?谁也不好说,因为没有确定性的证据,这些猜想,都只是我的一厢情愿,但姑且认为是这样子吧。我最近也开始在家里着手节能减排的规划了,先停掉了一个冰柜,然后将厨房的热水器也停掉了(冬天会改成定时运行),烧水器也改成只有白天运行了。虽然这并没有什么用,但我还是打算避免不必要的浪费。

服务器UPS不稳定事件调查报告

https://mmdjiji.com/2024/07/1/

作者

吉吉

发布于

2024-07-25

更新于

2024-12-21

许可协议