CrowdStrike 解析影响数百万人的 Microsoft Windows 错误更新为何未经过适当测试

周三,CrowdStrike 披露了其事后初步审查的结果,揭示了为什么最近造成大面积破坏的 Microsoft Windows 更新在内部测试中未被检测到。这起影响全球数百万人的事件凸显了更新验证过程中的严重缺陷。
领先的网络安全公司 CrowdStrike 为其 Falcon 代理提供两种不同类型的安全内容配置更新:传感器内容和快速响应内容。传感器内容更新提供了全面的对手响应和长期威胁检测功能。这些更新不是从云端动态获取的,而是经过大量测试,允许客户控制其整个集群的部署。
相比之下,快速响应内容由专有二进制文件组成,其中包含配置数据,可在不修改代码的情况下增强设备可见性和检测能力。此内容由旨在确保分发前完整性的组件进行验证。然而,7 月 19 日发布的更新旨在解决利用命名管道的新型攻击技术,却暴露了一个严重缺陷。
自 3 月以来一直依赖的验证器包含一个错误,导致错误更新通过验证。由于缺乏额外的测试,更新被部署,导致大约850 万台 Windows 设备出现蓝屏死机 (BSOD) 循环。这次崩溃源于越界内存读取导致未处理的异常。尽管 CrowdStrike 的内容解释器组件旨在管理此类异常,但这一特定问题并未得到充分解决。
针对此次事件,CrowdStrike 致力于加强快速响应内容的测试协议。计划中的改进包括本地开发人员测试、全面更新和回滚测试、压力测试、模糊测试、稳定性测试和接口测试。内容验证器将接受额外检查,错误处理流程也将得到强化。此外,还将实施快速响应内容的交错部署策略,让客户能够更好地控制这些更新。
周一,CrowdStrike 宣布了一项针对受缺陷更新影响的系统加速修复计划,在恢复受影响设备方面已取得重大进展。该事件被认为是历史上最严重的 IT 故障之一,导致航空、金融、医疗保健和教育等多个行业遭受重大破坏。
事后,美国众议院领导人敦促 CrowdStrike 首席执行官乔治·库尔茨 (George Kurtz) 就该公司参与此次大规模中断一事向国会作证。与此同时,组织和用户已收到警告,利用此事件的网络钓鱼、诈骗和恶意软件攻击有所增加。
此次事件凸显了网络安全中迫切需要强有力的测试和验证流程,以防止将来再次发生此类大规模破坏。