Evaluación de la tolerancia a fallos de aplicaciones con AWS Resilience Hub - Visualización del cumplimiento de objetivos RTO/RPO

Explicamos la evaluación de tolerancia a fallos de aplicaciones con Resilience Hub, la configuración de políticas RTO/RPO y el aprovechamiento de recomendaciones de mejora.

約 8 分で読めます最終更新: 2026-05-30

Necesidad de la evaluación de resiliencia y rol de Resilience Hub

La tolerancia a fallos de las aplicaciones (resiliencia) se cuantifica mediante el RTO (Recovery Time Objective) y el RPO (Recovery Point Objective). Sin embargo, muchas organizaciones tienen objetivos RTO/RPO ambiguos o no verifican si su arquitectura actual puede cumplirlos. Resilience Hub resuelve este problema evaluando cuantitativamente la tolerancia a fallos y visualizando el cumplimiento de RTO/RPO. Descubre automáticamente configuraciones de recursos desde stacks de CloudFormation, archivos de estado de Terraform, aplicaciones registradas en AppRegistry o clústeres EKS. Dispone de cuatro escenarios de evaluación: fallo de AZ, fallo de región, fallo de aplicación y fallo de infraestructura, con objetivos RTO/RPO configurables individualmente por escenario. Los recursos detectados incluyen EC2, RDS, DynamoDB, S3, ELB, Lambda, ECS y EKS, y el servicio analiza la configuración de cada recurso (ubicación Multi-AZ, replicación, configuración de backup) para calcular una puntuación de tolerancia a fallos.

Definición de política de resiliencia y ejecución de evaluaciones

El uso de Resilience Hub comienza con la definición de una política de resiliencia. La política establece objetivos RTO/RPO para cada escenario de fallo, por ejemplo: 'Fallo AZ: RTO 1 hora, RPO 5 minutos', 'Fallo de región: RTO 4 horas, RPO 1 hora', 'Fallo de aplicación: RTO 30 minutos, RPO 5 minutos'. Luego se registra la aplicación especificando el nombre del stack de CloudFormation, mapeando automáticamente recursos y dependencias. Al ejecutar una evaluación se analizan las configuraciones actuales para estimar RTO/RPO y se proporcionan recomendaciones de mejora priorizadas para recursos que no cumplen. Los ejemplos incluyen convertir RDS de una sola AZ a Multi-AZ, habilitar replicación entre regiones en S3, aumentar el mínimo de Auto Scaling y habilitar recuperación puntual de DynamoDB. Cada recomendación incluye impacto en costos y mejora estimada de RTO/RPO, y la reevaluación tras implementar muestra la diferencia de puntuación.

Integración con FIS y pruebas de fallos

Resilience Hub se integra con FIS (Fault Injection Service) para generar plantillas de pruebas de fallos recomendadas basadas en los resultados de la evaluación. Verifica si la aplicación puede cumplir los objetivos RTO/RPO en escenarios como fallo de AZ, terminación de instancias EC2, failover de RDS, pausa de I/O de EBS e inyección de latencia de red. Un cuadro de mando visualiza el nivel de tolerancia a fallos de cada componente con código de colores (verde: cumplido, amarillo: parcialmente incumplido, rojo: incumplido), clarificando las prioridades de mejora. La generación automática de SOP estandariza los procedimientos de respuesta ante incidentes y puede generar documentos de Systems Manager Automation. El ciclo de evaluación, mejora, prueba y reevaluación mejora continuamente la resiliencia. Para un estudio sistemático de Resilience Hub, los libros relacionados en Amazon también son una referencia útil.

Evaluación continua e integración operativa

Resilience Hub soporta gestión continua de resiliencia, no solo evaluaciones puntuales. Cuando cambian las configuraciones de recursos, la detección de drift identifica modificaciones y solicita reevaluación. La integración con EventBridge automatiza notificaciones y acciones posteriores activadas por la finalización de la evaluación, y la incorporación de pasos de evaluación en pipelines CI/CD detecta regresiones en la tolerancia a fallos con cada despliegue. La integración con Organizations permite gestión centralizada de aplicaciones en múltiples cuentas. Las evaluaciones pueden programarse para ejecución automática mensual o trimestral además de las ejecuciones manuales.

Mejores prácticas de diseño y errores comunes

El uso efectivo de Resilience Hub depende de la granularidad de definición de aplicaciones. Agrupar monolíticamente todos los recursos en una aplicación hace que el cuadro de mando sea inmanejable, por lo que se recomienda dividir las aplicaciones por dominio de negocio o equipo y asignar niveles RTO/RPO apropiados a cada una. Defina niveles como Tier-1 (misión crítica: RTO 5 min / RPO 1 min), Tier-2 (negocio: RTO 30 min / RPO 1 hora) y Tier-3 (informacional: RTO 4 horas / RPO 24 horas) para evitar la sobreingeniería. Un error común es que los recursos no incluidos en stacks de CloudFormation (buckets S3 creados manualmente, registros DNS) no se detectan. Registre recursos en AppRegistry o agréguelos mediante Resource Mapping para evitar lagunas en la evaluación. Además, las evaluaciones son análisis de configuración estática y no garantizan tiempos de recuperación reales. La combinación con pruebas de fallos FIS es esencial para validar la fiabilidad del cuadro de mando.

Comparación con otros servicios de AWS

Varios servicios de AWS abordan la tolerancia a fallos pero sirven roles diferentes. AWS Backup proporciona gestión centralizada de backups y restauración pero no evalúa la tolerancia a fallos de la arquitectura general. CloudWatch destaca en la detección de anomalías en tiempo real pero no puede comparar contra objetivos RTO/RPO ni generar recomendaciones de mejora. Health Dashboard se especializa en notificaciones de incidentes de infraestructura AWS. El valor único de Resilience Hub es combinar datos de estos servicios para ofrecer evaluaciones integrales de tolerancia a fallos a nivel de aplicación y hojas de ruta de mejora. Complementa el pilar de fiabilidad del Well-Architected Tool: mientras que Well-Architected Review proporciona revisiones cualitativas de diseño, Resilience Hub automatiza la evaluación cuantitativa y las acciones de mejora específicas.

Precios de Resilience Hub

Los precios de Resilience Hub se basan en el número de evaluaciones, aproximadamente 0.10 USD por evaluación. La definición de aplicaciones y configuración de políticas RTO/RPO no generan cargos adicionales. La ejecución de pruebas FIS genera cargos FIS separados. Seleccione las aplicaciones a evaluar según su criticidad y priorice las aplicaciones críticas para gestionar los costos. Las evaluaciones mensuales programadas mantienen bajos los costos por aplicación, pero incorporar evaluaciones en CI/CD para cada despliegue requiere atención al aumento del volumen de evaluaciones.

Resumen

Resilience Hub evalúa cuantitativamente la tolerancia a fallos de las aplicaciones y visualiza el cumplimiento de los objetivos RTO/RPO a nivel de componente. Defina objetivos por escenario de fallo en una política de resiliencia, descubra automáticamente la arquitectura desde stacks de CloudFormation, archivos de estado de Terraform y clústeres EKS, y ejecute evaluaciones en cuatro escenarios de fallo. Las recomendaciones de mejora incluyen estimaciones de impacto en costos, y la integración con FIS automatiza las pruebas de fallos. La detección de drift y la integración CI/CD permiten evaluación continua, y la segmentación a nivel de aplicación y el diseño de niveles RTO/RPO son clave para una operación efectiva.

El mecanismo de sincronización horaria interna de AWS - Amazon Time Sync Service y el diseño de smearing de segundos intercalaresExplicamos el mecanismo de Amazon Time Sync Service operado de forma independiente por AWS, la fuente de tiempo de alta precisión con GPS y relojes atómicos, la decisión de diseño de absorber los segundos intercalares mediante smearing y la importancia de la sincronización horaria en sistemas distribuidos.Centralización de registros de auditoría SaaS con AWS AppFabric - Estandarización OCSF e integración con Security LakeExplicamos la recopilación de registros de auditoría de aplicaciones SaaS con AppFabric, la estandarización al formato OCSF y la construcción de pipelines de análisis.Implementación de Feature Flags con AWS AppConfig - Despliegue seguro de configuración y rollbackDespliega cambios de configuración de forma independiente al código mediante estrategias Linear y Exponential. Garantiza la seguridad con rollback automático activado por alarmas de CloudWatch.Revisión de arquitectura - Evaluación sistemática de cargas de trabajo con AWS Well-Architected ToolExplica la revisión de arquitectura de cargas de trabajo usando AWS Well-Architected Tool. Presenta la evaluación basada en 6 pilares, la elaboración de planes de mejora y el uso de lentes personalizados.Diseño y operación de logs de auditoría - Registro completo de actividad API con CloudTrailExplica las técnicas de diseño de logs de auditoría con AWS CloudTrail, el registro de actividad API, el almacenamiento a largo plazo en S3 y la respuesta de cumplimiento mediante integración con Config.Lecciones de sistemas distribuidos de los informes de incidentes (COE) de AWS - Principios de diseño que cambiaron las grandes interrupciones del pasadoA partir de los Correction of Errors (COE) e informes de incidentes publicados por AWS, explicamos las causas raíz de grandes incidentes pasados como la interrupción de S3, la interrupción de DNS en us-east-1 y la interrupción de Kinesis, y cómo cambiaron los principios de diseño de AWS.El diseño de tags determina las operaciones - Curiosidades y reglas de nomenclatura prácticas de la estrategia de tags de recursos AWSExplicamos por qué los tags de recursos AWS no son simples etiquetas sino la base de la asignación de costos, control de acceso y automatización, las reglas de nomenclatura de claves de tags, cómo usar el límite de 50 tags y la gobernanza mediante políticas de tags.Por qué existen las cuotas de servicio de AWS - Diseño multitenant que protege la infraestructura compartidaExplicamos que las cuotas de servicio de AWS (antes límites de servicio) no son simples restricciones sino un diseño para proteger a otros clientes en un entorno multitenant, desde el problema del vecino ruidoso, la diferencia entre límites soft y hard, y el trasfondo de las solicitudes de aumento.

Necesidad de la evaluación de resiliencia y rol de Resilience Hub

Definición de política de resiliencia y ejecución de evaluaciones

Integración con FIS y pruebas de fallos

Evaluación continua e integración operativa

Mejores prácticas de diseño y errores comunes

Comparación con otros servicios de AWS

Precios de Resilience Hub

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares