Respuesta ante fallos y transparencia de AWS - La estructura de confianza que construye Correction of Errors

Comparamos la cultura de AWS de publicar informes de análisis post-incidente de fallos a gran escala y el mecanismo de mejora continua mediante el proceso Correction of Errors (COE) con la respuesta ante fallos de Azure y GCP.

Los fallos son inevitables, lo que importa es la calidad de la respuesta

En los servicios en la nube, es imposible reducir a cero la ocurrencia de fallos. AWS, Azure y GCP han experimentado fallos a gran escala en el pasado. Lo importante no es que no ocurran fallos, sino cómo se responde a ellos, qué se aprende y cómo se mejora. AWS adopta el enfoque más transparente de la industria en la respuesta ante fallos. Cuando ocurre un fallo a gran escala, publica informes detallados de análisis post-incidente que explican concretamente qué ocurrió, por qué ocurrió, cómo se abordó y cómo se prevendrá en el futuro. Esta transparencia es un elemento extremadamente importante para construir relaciones de confianza con los clientes.

Correction of Errors - El proceso que transforma los fallos en aprendizaje organizacional

Internamente en AWS, un proceso llamado Correction of Errors (COE) es el núcleo de la respuesta ante fallos. COE es un proceso que realiza sistemáticamente la identificación de la causa raíz, la evaluación del alcance del impacto y la formulación de medidas preventivas cuando ocurre un fallo o incidente. La característica del COE es la cultura de no culpar a individuos. En lugar de atribuir la causa del fallo a un error individual, se identifican los defectos en los sistemas y procesos que permitieron ese error, y se realizan mejoras estructurales. Por ejemplo, si la causa directa del fallo fue un error de operación, el COE investiga por qué fue posible esa operación errónea, por qué no existía un mecanismo para detectarla y por qué no se limitó el alcance del impacto.

El valor de los informes post-incidente publicados

AWS ha publicado informes detallados de análisis post-incidente sobre fallos a gran escala pasados. Para fallos importantes como el fallo de S3 en 2017, el fallo eléctrico de us-east-1 en 2019 y el fallo de red de us-east-1 en 2021, se describen concretamente la línea temporal, la causa raíz, el alcance del impacto y las medidas de mejora. Estos informes tienen tres valores. Primero, sirven como material para que los clientes revisen su propia arquitectura. Al comprender los patrones de fallo de AWS, se puede reconocer concretamente la importancia de las configuraciones multi-AZ y multi-región. Segundo, se puede entender la dirección de las mejoras de diseño de AWS. Qué aprendieron de fallos pasados y qué mejoras realizaron se documenta públicamente. Tercero, contribuyen al conocimiento de toda la industria sobre la operación de sistemas distribuidos.

Comparación con la respuesta ante fallos de Azure

Azure también publica informes de Root Cause Analysis (RCA) cuando ocurren fallos, pero hay diferencias en el grado de transparencia comparado con AWS. Los informes RCA de Azure describen el resumen del fallo y el alcance del impacto, pero en algunos casos los detalles técnicos y las explicaciones que profundizan en la arquitectura interna no son tan completos como los de AWS. Un patrón característico de los fallos de Azure es que los problemas en la infraestructura de autenticación (Azure AD / Entra ID) se propagan a una amplia gama de servicios. En el fallo a gran escala de 2023, un problema en la infraestructura de autenticación afectó a Azure Portal, Azure DevOps, Microsoft 365 y otros servicios, revelando los riesgos de las dependencias estrechas entre servicios.

Comparación con la respuesta ante fallos de GCP

GCP realiza su respuesta ante fallos basándose en la cultura SRE (Site Reliability Engineering) de Google. Google ha publicado libros sobre SRE y tiene el mérito de haber difundido la cultura de postmortem (análisis post-incidente) en la industria. Los informes de fallos de GCP son técnicamente detallados y contienen información valiosa para especialistas en sistemas distribuidos. Sin embargo, lo que se señala como desafío en la respuesta ante fallos de GCP es la velocidad de comunicación durante los fallos. Se han reportado casos donde el tiempo desde la detección del fallo hasta la notificación al cliente es más largo comparado con AWS. Además, la frecuencia de actualización de la página de estado de GCP y la precisión en la comunicación del alcance del impacto también presentan áreas de mejora.

La cultura de respuesta ante fallos determina la fiabilidad a largo plazo

La calidad de la respuesta ante fallos afecta a corto plazo la velocidad de resolución de incidentes y a largo plazo la mejora de la fiabilidad del servicio. Lo que hace excelente al proceso COE de AWS es que no trata cada fallo como un punto aislado, sino que los conecta como una línea de aprendizaje para toda la organización. Las lecciones obtenidas de un fallo se extienden horizontalmente a mejoras de diseño de otros servicios, previniendo la ocurrencia de fallos similares. El resultado de que este ciclo de mejora continua haya funcionado durante 18 años es la fiabilidad actual de AWS. AWS no solo aprende de los fallos, sino que también tiene la cultura de simular fallos intencionalmente. En ejercicios llamados GameDay, se ejecutan escenarios de fallo en condiciones cercanas al entorno de producción para verificar la capacidad de respuesta del equipo.

Resumen

La respuesta ante fallos de AWS se compone del análisis sistemático de causa raíz mediante el proceso COE, la publicación de informes detallados post-incidente, la cultura de no culpar a individuos y los esfuerzos preventivos mediante simulación de fallos (GameDay). Azure publica informes RCA pero no alcanza a AWS en detalle técnico, y el riesgo de propagación de fallos por dependencias estrechas entre servicios también es un desafío. GCP realiza análisis de fallos técnicamente excelentes basados en la cultura SRE, pero tiene margen de mejora en la velocidad de comunicación orientada a empresas. La transparencia en la respuesta ante fallos y la cultura de mejora continua son la base que sustenta la fiabilidad a largo plazo de una plataforma en la nube, y AWS lidera en este ámbito.