CrowdStrike spiega perché un aggiornamento errato di Microsoft Windows che ha interessato milioni di persone non è stato testato correttamente
Mercoledì, CrowdStrike ha rivelato gli approfondimenti della loro revisione preliminare post-incidente, facendo luce sul motivo per cui un recente aggiornamento di Microsoft Windows che ha causato interruzioni diffuse non è stato rilevato durante i test interni. Questo incidente, che ha colpito milioni di persone in tutto il mondo, ha evidenziato difetti critici nel processo di convalida degli aggiornamenti.
CrowdStrike, azienda leader nel settore della sicurezza informatica, fornisce due tipi distinti di aggiornamenti della configurazione dei contenuti di sicurezza al suo agente Falcon: contenuti dei sensori e contenuti a risposta rapida. Gli aggiornamenti del contenuto dei sensori offrono funzionalità complete per la risposta agli avversari e il rilevamento delle minacce a lungo termine. Questi aggiornamenti non vengono recuperati dinamicamente dal cloud e sono sottoposti a test approfonditi, consentendo ai clienti di controllare l'implementazione nelle loro flotte.
Al contrario, il contenuto a risposta rapida è costituito da file binari proprietari contenenti dati di configurazione per migliorare la visibilità e il rilevamento del dispositivo senza modificare il codice. Questo contenuto è convalidato da un componente progettato per garantirne l'integrità prima della distribuzione. Tuttavia, l'aggiornamento rilasciato il 19 luglio, volto ad affrontare nuove tecniche di attacco che sfruttano le named pipe, ha rivelato un difetto critico.
Il validatore, utilizzato da marzo, conteneva un bug che permetteva all'aggiornamento difettoso di superare la convalida. A causa dell'assenza di test aggiuntivi, l'aggiornamento è stato distribuito, causando un loop Blue Screen of Death (BSOD) su circa 8,5 milioni di dispositivi Windows . Questo arresto anomalo è derivato da una lettura della memoria fuori dai limiti che ha causato un'eccezione non gestita. Sebbene il componente interprete dei contenuti di CrowdStrike sia progettato per gestire tali eccezioni, questo particolare problema non è stato affrontato adeguatamente.
In risposta a questo incidente, CrowdStrike si impegna a migliorare i protocolli di test per i contenuti a risposta rapida. I miglioramenti pianificati includono test degli sviluppatori locali, test completi di aggiornamento e rollback, test di stress, fuzzing, test di stabilità e test dell'interfaccia. Il validatore del contenuto riceverà ulteriori controlli e i processi di gestione degli errori verranno rafforzati. Inoltre, verrà implementata una strategia di distribuzione scaglionata per contenuti a risposta rapida, fornendo ai clienti un maggiore controllo su questi aggiornamenti.
Lunedì CrowdStrike ha annunciato un piano di riparazione accelerato per i sistemi interessati dall’aggiornamento difettoso, con progressi significativi già compiuti nel ripristino dei dispositivi interessati. L’incidente, considerato uno dei fallimenti IT più gravi della storia, ha provocato gravi interruzioni in vari settori, tra cui l’aviazione, la finanza, la sanità e l’istruzione.
In seguito, i leader della Camera degli Stati Uniti stanno sollecitando il CEO di CrowdStrike George Kurtz a testimoniare davanti al Congresso in merito al coinvolgimento dell'azienda nella vasta interruzione. Nel frattempo, organizzazioni e utenti sono stati avvisati di un aumento di tentativi di phishing, truffe e malware che sfruttano questo incidente.
Questo evento sottolinea la necessità fondamentale di robusti processi di test e convalida nella sicurezza informatica per prevenire interruzioni così diffuse in futuro.