AWS Resilience Hub
Servicio de gestión de resiliencia que evalúa cuantitativamente la tolerancia a fallos de aplicaciones, visualiza el cumplimiento de objetivos RTO/RPO y proporciona recomendaciones de mejora
Descripción general
AWS Resilience Hub es un servicio que evalúa la resiliencia de las aplicaciones contra objetivos definidos de RTO (Recovery Time Objective) y RPO (Recovery Point Objective). Descubre automáticamente los recursos de la aplicación, evalúa su postura de resiliencia contra políticas definidas y proporciona recomendaciones accionables para mejorar la tolerancia a fallos.
Políticas de resiliencia y mecanismo de evaluación
Resilience Hub permite definir políticas de resiliencia que especifican objetivos de RTO y RPO para diferentes tipos de interrupción: fallo de infraestructura (instancia/AZ), fallo de aplicación y fallo regional. La evaluación descubre automáticamente los recursos de la aplicación (a través de CloudFormation stacks, Resource Groups o etiquetas) y analiza su configuración contra la política. Los resultados muestran el estado de cumplimiento por componente, identificando brechas donde la configuración actual no cumple los objetivos. Por ejemplo, si el RTO objetivo es 5 minutos pero la base de datos no tiene Multi-AZ habilitado, se señala como brecha con recomendación específica de habilitación.
Integración con pruebas de inyección de fallos
Resilience Hub se integra con AWS Fault Injection Simulator (FIS) para validar que la resiliencia teórica se traduce en resiliencia práctica. Basándose en los resultados de evaluación, Resilience Hub puede generar experimentos FIS que simulan los escenarios de fallo evaluados. Ejecutar estos experimentos verifica que los mecanismos de recuperación (failover, auto-scaling, backup restoration) funcionan según lo esperado dentro de los objetivos de tiempo. Esta combinación de evaluación estática (configuración) y validación dinámica (pruebas de caos) proporciona confianza integral en la postura de resiliencia. Los resultados de pruebas se registran como evidencia de cumplimiento.
Recomendaciones operativas y evaluación continua
Las recomendaciones de Resilience Hub cubren múltiples dimensiones: configuración de infraestructura (Multi-AZ, réplicas de lectura), estrategia de backup (frecuencia, retención, pruebas de restauración), monitoreo (alarmas, dashboards) y procedimientos operativos (runbooks, planes de recuperación). Las recomendaciones se priorizan por impacto en el cumplimiento de la política. La evaluación continua mediante integración con pipelines CI/CD verifica que los cambios de infraestructura no degraden la postura de resiliencia. Las evaluaciones programadas detectan deriva de configuración. La integración con Systems Manager permite ejecutar runbooks de remediación directamente desde las recomendaciones. El drift detection alerta cuando cambios posteriores al despliegue reducen la resiliencia por debajo de los objetivos.