崩溃之中:CrowdStrike 和微软无法解决的一件事

7 月 21 日(星期日),我在经过该国两个最大的机场 15 小时的旅程中只看到一次蓝屏死机,就在两天前,一次拙劣的软件更新导致数百万台运行 Windows 操作系统的企业计算机瘫痪。

“也许一切都还好。”我记得早上 9 点左右,当我的家人迈出第一步进入纽约拉瓜迪亚机场时,我这样想。但在2024 年大窗户停运的第 3 天,头条新闻却恰恰相反,票务和行李区看起来不太好。坏的。

我应该更清楚。我实际上在大楼内走了两步,然后就收到了达美航空一天中大约 3,000 封延误电子邮件中的第一封,以及来自 Flighty 和 Fly Delta 应用程序的更多通知。从纽约跑回家到佛罗里达并不是一件容易的事,多年来我已经做过几十次这样的事了。

来自 Apple Watch 上的 Flighty 应用程序的通知。
通常优秀的 Flighty 应用程序根本无法跟上如此多的机身更换 – 这些通知每小时会出现多次。菲尔·尼克森 / 数字趋势

我对航班延误并不陌生。 (一月下旬,我在洛杉矶国际机场的天空俱乐部度过了 15 个小时——虽然它有多好,但我并不推荐它。)但这一次不同。天气发生。发生机械问题。它们很糟糕,但这些都归结为安全。这次?第三方安全供应商在 Windows 内部破坏了一个文件。 CrowdStrike应该已经发现了。微软应该已经抓住了它。直到为时已晚。虽然修复相对简单——启动到安全模式,或者不断重新启动机器直到坏文件被替换——但一阶效应是巨大的。

航空公司真正出了问题的是二阶和三阶效应。达美航空受到的打击尤其严重——首席执行官埃德·巴斯蒂安 (Ed Bastian) 周日写道,截至周六,已有 3,500 多个航班被取消,周日还有更多航班被取消。周日下午 4:30 左右,当看板刷新显示“已取消”时,我们的登机口工作人员说道:“如果您需要拥抱,请到讲台上来见我。”

2024 年 7 月 21 日深夜,亚特兰大哈茨菲尔德-杰克逊国际机场 A7 登机口的场景。
对于亚特兰大哈茨菲尔德-杰克逊国际机场的许多人来说,除了等待,别无他法,希望下一个航班不会被取消。菲尔·尼克森 / 数字趋势

亚特兰大 A 大厅(美国最繁忙的机场的七个航站楼之一)的改签柜台前的排队队伍长得可笑(或悲惨)。我戴着一只耳机坐着,在机票预订热线上等待了两个小时才放弃。 (我的哥哥,他的飞行常客身份要高得多,至少设法找到一个真人告诉他,我不可能在午夜之前出去,最好的办法就是坚持乘坐指定的航班现在。)

7 月 22 日星期一凌晨,一名空乘人员终于登上了飞机,让我们知道了真正造成问题的原因:达美航空不知道机组人员在哪里。当天晚些时候,达美航空的另一篇新闻也证实了这一点,该新闻称其一半以上的 IT 系统运行 Windows,即使在受影响的计算机重新启动后也需要额外的同步时间。

“达美航空的工作人员人员齐全,随时准备为我们的客户提供服务,”该帖子继续说道。 “但达美航空最关键的系统之一——确保所有航班在正确的时间、正确的地点都有完整的机组人员——非常复杂,需要最多的时间和人工支持才能同步。”

等待离开亚特兰大的达美航空 757-200 上的机上娱乐屏幕。
虽然已经过了午夜,但我们这些成功登上波音 757-200 飞机的人对此感到非常兴奋。菲尔·尼克森 / 数字趋势

凌晨两点左右,我们终于回到家了,很累。有点疲惫。但总共只晚了大约八个小时。我们很幸运。两天前,我哥哥在亚特兰大机场待了大约 30 个小时,只是为了在中止西海岸之旅后返回彭萨科拉的家。没有航班。没有单程汽车租赁。除了等待之外,除了单程开车五个小时去救援之外,没有其他真正的选择。

我们的故事只是数千个中的两个——而且我们的风险相对较低。我们没有任何孩子独自旅行。除了我们没有计划在机场吃的几顿饭外,我们并没有花很多钱。我们的行李是在同一架飞机上运来的。

CrowdStrike 故障的立即修复非常简单。 CrowdStrike 和 Microsoft 需要制定适当的政策来降低这种情况再次发生的可能性。 (当然,这种情况还会再次发生。)但俗话说——这是 PG-13 版本——粪便往山下流。这一切都不是航空公司的错。但这很快就变成了他们需要清理的烂摊子。

这是简单的重启无法解决的问题。即使你做了超过800万次


Posted

in

by

Tags: