“You’ve got to test this stuff.”
“You can’t come into a mission-critical 24/7 operation and tell us you have a bug it doesn’t work.”
Ed Bastian, CEO de Delta.
El 19 de julio de 2024 se produjo una interrupción en los sistemas de tecnologías de información de uso crítico y masivo que sacudió a múltiples sectores de la economía global. Esta crisis fue desencadenada por una actualización de software rutinaria realizada por la empresa de ciberseguridad CrowdStrike Holdings Inc.
El incidente, que algunos consideran como la mayor interrupción en la historia de la tecnología de la información, afectó a aproximadamente 8.5 millones de dispositivos con sistemas operativos Windows de Microsoft, causando que la fatídica y tan temida “pantalla azul” apareciera y permaneciera en los monitores de los sistemas de acceso.
La falla fue causada por una actualización de software defectuosa de CrowdStrike, un importante proveedor de tecnología de ciberseguridad basada en la Nube. Esta actualización provocó que los dispositivos Windows dejaran de funcionar, lo cual resultó en la cancelación de vuelos, procedimientos médicos electivos y problemas con aplicaciones de pago, correo electrónico y otros programas cruciales críticos en tiempo real.
Este evento puso de manifiesto la creciente vulnerabilidad de la infraestructura en la Nube ante los puntos de falla. Los servicios de ciberseguridad son un mercado fragmentado, lo cual no puede ser lo mejor en términos de eficiencia dentro del ecosistema digital. El incidente demostró que incluso en un mercado de servicios intermedios concurren múltiples proveedores. Un software defectuoso puede causar daños extensos, dado que los proveedores suelen entregar la misma versión de software a todos los usuarios que a su vez ofrecen servicios finales.
Las empresas también son susceptibles a interrupciones causadas por fallas en los proveedores de servicios en la Nube, fallo en seguridad y operativos en productos de software de terceros que se ejecutan en la Nube, o en casos donde delincuentes obtienen acceso no autorizado a entornos en la Nube o al de un proveedor externo en la Nube.
Este incidente subraya la importancia de la gestión de riesgos y la diversificación en la infraestructura tecnológica, especialmente a medida que las empresas y los gobiernos dependen cada vez más de la infraestructura en la Nube para ofrecer servicios críticos.
La magnitud de esta interrupción fue inmediatamente evidente. Downdetector.com, un sitio web que monitorea el rendimiento en tiempo real de miles de servicios web en todo el mundo,[1] experimentó un aumento sin precedentes en la actividad de los usuarios.
El impacto se extendió a través de una amplia y diversa gama de sectores de actividad económica:
- Servicios de emergencia: experimentaron el mayor aumento sobre su promedio diario de interrupciones y fallos, con un incremento de 68 veces.
- Sistemas informáticos: Microsoft fue duramente golpeado, con un aumento de 42 veces en los informes de interrupciones. Microsoft 365 vio un aumento de 18 veces, mientras que Microsoft Azure experimentó un incremento de 21 veces.
- Transporte y entrega: Tesla tuvo un aumento de 12 veces sobre su promedio diario de fallos, mientras que Uber experimentó un aumento de 57 veces y Uber Eats de 41 veces. Amazon presenció un aumento de 14 veces en los informes de interrupciones, mientras que DHL y FedEx vieron aumentos de 6 y 4 veces, respectivamente.
- Aerolíneas: este sector fue particularmente afectado, con un aumento de más de 50 veces en el número promedio de informes de usuarios sin acceso. Delta Airlines y Ryanair lideraron este sector en términos de problemas reportados.
La industria de las aerolíneas fue un caso dramático debido a la gravedad de la situación que causó el fallo. Según OAG, un proveedor de información digital de vuelos, las 20 aerolíneas más grandes del mundo se vieron obligadas a cancelar cerca de 10,000 vuelos entre el 19 y el 21 de julio.
Delta Airlines fue la más afectada, cancelando 5,300 vuelos desde el inicio de la interrupción. Como resultado, la aerolínea se encuentra ahora bajo investigación por su manejo de los retrasos y cancelaciones a consecuencia del fallo informático.
El sector financiero también se vio afectado. Visa recibió más de 64,000 informes de usuarios con fallas en el uso de sus sistemas de pagos, en comparación con su promedio diario típico de solo 1,500. El banco en línea TDBank aumentó sus reportes de usuarios a más de 56,000 en comparación con su promedio diario típico de 240 informes.
En cuanto a las implicaciones para la industria de seguros,[2] al 26 de julio las pérdidas aseguradas de esta interrupción generalizada parecían ser un evento limitado para las aseguradoras de propiedad y accidentes.
Sin embargo, determinar las pérdidas finales para la industria será un proceso largo y complejo debido a que el lenguaje de las pólizas de seguros cibernéticos no está estandarizado en entre todos los sectores.
La firma de servicios de seguros Parametrix estimó pérdidas económicas totales de 5.4 mil millones de dólares por este evento, con pérdidas aseguradas probablemente entre 540 millones y 1.1 mil millones (10-20% de las pérdidas económicas).
Por su parte, CyberCube proporcionó una estimación preliminar de pérdidas aseguradas entre 400 millones y 1.5 mil millones de dólares para el mercado de seguros cibernéticos independientes.
La mayoría de las pérdidas derivadas serán por interrupciones en las transacciones, que es el principal factor de las pérdidas por incidentes cibernéticos. Dado que estas pérdidas no fueron causadas por un ciberataque, las reclamaciones se harán bajo la cobertura de “falla de sistemas”, que se está convirtiendo en una cobertura estándar dentro de las pólizas de seguros cibernéticos.
El momento de la interrupción podría contribuir a limitar la magnitud de las pérdidas aseguradas. La actualización defectuosa se envió a las computadoras el 19 de julio a las 04:09 UTC y sólo afectó a las computadoras que estaban en línea entre ese momento y las 05:27 UTC, aproximadamente 80 minutos después.
En ese momento, más sistemas de Asia-Pacífico estaban en línea que sistemas europeos y estadounidenses, pero Europa y EE.UU. tienen una mayor participación en la cobertura de seguros cibernéticos que la región de Asia-Pacífico.
Según Munich Reinsurance Company, las primas totales para el mercado global de seguros cibernéticos fueron de aproximadamente 14 mil mdd en 2023 y se espera que crezcan a alrededor de 29 mil mdd para 2027. A pesar de su rápido crecimiento, el seguro cibernético representa menos de 1 por ciento de los ingresos por primas de toda la industria en EE.UU.
Este evento ha puesto de manifiesto los amplios riesgos que plantea un único punto de falla con efectos sistémicos de gran magnitud.
Fallas que incluso pueden ser de naturaleza fortuita, aunado al grado en que muchos sectores de la economía están interconectados e interdependientes, debido a que el ecosistema digital es transversal a todos los sectores de la economía moderna en diferentes magnitudes.
El efecto de la interrupción fue similar al de un ciberataque a una cadena de suministro, afectando múltiples industrias y deteniendo a todos los sistemas de TI de todo tipo de empresas, desde aerolíneas hasta hospitales.
Es de esperarse que los usuarios de tales sistemas informáticos de misión crítica evalúen el alcance y la naturaleza del evento y ajusten sus prácticas, centrándose en la cobertura de fallas de sistemas aunque sean eventos menos probables que un ciberataque malintencionado.
Aunque las aseguradoras han mejorado su capacidad para analizar las posibles pérdidas relacionadas con violaciones de datos individuales, pérdidas por ransomware e interrupciones de pagos, sigue siendo un desafío analizar interrupciones generalizadas como esta ajenas a un ataque por terceros.
Es ahí donde existe una oportunidad para el uso de plataformas de IA para mejorar los pronósticos de eventos catastróficos.
El modelado de fallos y de ataques cibernéticos ha avanzado, pero los riesgos están en constante evolución, lo que crea incertidumbre en torno al retorno de la inversión.
La interrupción de CrowdStrike seguramente impulsará un mayor escrutinio actuarial de las agregaciones de riesgo y las prácticas de modelado y estimulará la demanda de seguros cibernéticos.
Este incidente nos debe llamar la atención respecto a conocer la economía de los problemas de agente-principal en los sistemas digitales de misión crítica. Aquellos que surgen y se deben de reconocer entre las empresas de ciberseguridad y las proveedoras de los servicios en la Nube.
Problemas entre las partes de un contrato de proveeduría que provienen por no considerar que puede existir una desalineación de incentivos y asimetría de información entre las partes.
En este contexto conceptual económico, las partes son las siguientes:
- Los proveedores de servicios en la Nube son típicamente los principales, ya que contratan las empresas de ciberseguridad.
- Las empresas de ciberseguridad actúan como agentes, proporcionando servicios y experiencia en seguridad informática.
Los aspectos económicos clave en esta relación incluyen:
1. Asimetría de información:
- Las empresas de ciberseguridad a menudo tienen un conocimiento más detallado sobre amenazas, vulnerabilidades y medidas de seguridad.
- Los proveedores de la Nube pueden no entender completamente los detalles técnicos o el alcance de los riesgos de seguridad.
2. Incentivos desalineados:
- Las empresas de ciberseguridad pueden tener un incentivo para exagerar las amenazas o recomendar medidas de seguridad excesivas para aumentar su negocio.
- Los proveedores de la Nube buscan equilibrar la seguridad con la rentabilidad y la experiencia del usuario, lo cual puede llevar a una inversión insuficiente en seguridad desde la perspectiva de la empresa de ciberseguridad.
3. Riesgo moral:
- Una vez contratadas, las empresas de ciberseguridad podrían no ejercer un esfuerzo óptimo si su desempeño es difícil de medir o verificar.
- Los proveedores de la Nube podrían volverse complacientes, confiando demasiado en la empresa de ciberseguridad sin mantener su propia vigilancia.
4. Contratos incompletos y prioridades conflictivas:
- Es difícil diseñar contratos que alineen perfectamente los intereses de todas las partes y tengan en cuenta todos los escenarios posibles.
- Las empresas de ciberseguridad priorizan la máxima seguridad, mientras que los proveedores de la Nube también necesitan considerar factores como el rendimiento del sistema, la accesibilidad del usuario y el monto de la inversión.
- Los directivos de la empresa pueden tener diferentes objetivos que aquellos de sus accionistas, en perjuicio del capital invertido por éstos a diferencia de los ingresos de los directivos.
- Los accionistas de CrowdStrike han demandado a la empresa argumentando que han ocultado sobre lo inadecuado de sus pruebas de software y que causaron la interrupción global del 19 de julio,[3] teniendo como efecto que el precio de las acciones de CrowdStrike cayera 32 por ciento en los siguientes días, eliminando 25 mil millones de dólares de valor de mercado.
- En una demanda colectiva presentada el 30 de julio en el tribunal federal de Austin, Texas, los accionistas dijeron que se enteraron de que las garantías de CrowdStrike sobre su tecnología eran materialmente falsas y engañosas sobre la actualización de software defectuosa.
5. Riesgo reputacional:
- Los eventos de intromisión de terceros o violación en la seguridad pueden dañar severamente la reputación de un proveedor de la Nube, pero la empresa de ciberseguridad puede no asumir todas las consecuencias de tales eventos, pero sí aquellas deficiencias de las que son responsables directos.
7. Cumplimiento regulatorio:
- Los proveedores de la Nube son en última instancia responsables del cumplimiento regulatorio, pero dependen de las empresas de ciberseguridad para garantizar este cumplimiento, creando conflictos potenciales dado que el que causa una falla no internaliza por completo los costos que causa dicha falla, es evidente como ejemplo el caso de las aerolíneas y su relación con Microsoft y CrowdStrike.
- El WSJ reporta que el CEO de Delta afirma que el evento le costó a la línea aérea 500 millones de dólares y que litigará contra Microsoft y CrowStrike los daños causados.[4]
Para mitigar estos problemas de agente-principal, se pueden emplear varias estrategias comúnmente citadas en la literatura económica:
- Contratos basados en el desempeño con métricas de seguridad claras y medibles.
- Auditorías y evaluaciones regulares por terceros.
- Mejora de la comunicación y transparencia entre las partes.
- Modelos de responsabilidad compartida para la seguridad.
Entender y abordar estos problemas de agente-principal es crucial para mantener una ciberseguridad robusta en entornos de servicios en la Nube, dado que ambas partes se deben de complementar eficientemente hacia el objetivo de proteger datos y sistemas, o en su caso optar por la integración vertical entre las partes minimizando riesgos y costos de transacción.
El caso de referencia ha demostrado la vulnerabilidad del actual ecosistema digital, para operaciones en tiempo real, y la importancia de herramientas preventivas, tanto contractuales como operativas.
También ha subrayado la necesidad de una mayor resiliencia y redundancia en los sistemas tecnológicos y un mejor entendimiento de la economía de los incentivos y contratos incompletos que puedan mejorar la complementariedad entre las partes de tal fundamental cadena de suministro en el ecosistema digital.
[1] Fuente: https://www.ookla.com/
[2] Moody’s Credit Outlook, “Business interruption will drive cyber insurance losses from CrowdStrike outage”, 29 de julio de 2024.
[3] Reuters, “CrowdStrike is sued by shareholders over huge software outage”, 1 de agosto de 2024.
[4] WSJ, “Delta CEO Says CrowdStrike Tech Outage Cost It $500 Million”, 31 de julio de 2024.