CrowdStrike se explica: “El problema se debió a una actualización de Rapid Response Content con un error no detectado”
- Actualidad
El viernes 19 de julio, una caída de Windows provocó incidencias en miles de empresas de todo el mundo. El fallo se debió a un problema con el software de seguridad de CrowdStrike. La compañía ha publicado un informe preliminar sobre el incidente en el que explica qué ha pasado y anuncia medidas para que no vuelva a suceder.
El pasado viernes, la caída de un sistema de Microsoft afectó a miles de empresas en España, así como a instituciones y empresas del todo el mundo. El origen de la caída fua una actualización del software de seguridad de CrowdStrike y llegó a afectar a 8,5 millones de equipos Windows. Sin duda fue la noticia del día, poniendo de relieve la excesiva complejidad de los sistemas. Incluso el INCIBE lanzó un protocolo de ayuda a empresas y ciudadanos.
Ayer CrowdStrike publicó en su blog un informe preliminar para arrojar un poco de luz sobre el incidente. La compañía hace una detallada descripción de su sistema de actualizaciones y las pruebas que se realizan antes de afirmar que “el problema del viernes se debió a una actualización de Rapid Response Content con un error no detectado”.
Y explica con más detalle: “se desplegaron dos IPC Template Instances adicionales. Debido a un bug en el Content Validator, una de las dos pasó el proceso de validación pese a contener datos de contenido problemático. Basándonos en las pruebas realizadas antes del despliegue inicial de Template Type (el 5 de marzo de 2024), confiamos en las comprobaciones realizadas por el Content Validator y en los anteriores despliegues exitosos de IPC Template Instance, las nuevas instancias entraron en producción”.
“Cuando fueron recibidas por el sensor y cargadas en el Content Interpreter, el contenido problemático del Channel File 291 supuso una lectura de memoria fuera de los límites y desencadenó una excepción. Esta excepción inesperada no se pudo manejar correctamente, lo que provocó el crash del sistema operativo Windows”.
Como medidas adicionales para evitar que se pueda volver a producir algo así, la compañía explica toda una nueva batería de pruebas de resiliencia y testeo, así como mejoras específicas en la gestión del despliegue de Rapid Response Content, el elemento específico que causó el problema.