Construccion de gestion de incidentes con AWS Health Dashboard - Automatizacion de notificaciones de interrupciones y analisis de impacto

Una guia completa que cubre la deteccion de interrupciones de servicio, notificaciones automatizadas mediante integracion con EventBridge y analisis de impacto a nivel organizacional a traves de la integracion con Organizations.

約 8 分で読めます最終更新: 2026-04-21

Dos vistas del Health Dashboard

El Health Dashboard proporciona dos vistas: Service Health (estado operativo de mas de 200 servicios de AWS) y Account Health (eventos que afectan a tu cuenta especifica). Service Health muestra el estado operativo general de los servicios de AWS por region. Account Health muestra solo eventos que impactan directamente tus recursos: mantenimiento programado de EC2, degradacion de EBS, retiro de hardware y problemas operativos. Los eventos de Account Health incluyen los ARN de los recursos afectados, permitiendo identificar inmediatamente que recursos requieren accion. Los eventos se clasifican en tres categorias: issue (interrupcion), accountNotification (mantenimiento planificado) y scheduledChange (cambio planificado), cada una con diferente nivel de urgencia. Los issues requieren respuesta inmediata, mientras que scheduledChange permite dias a semanas de anticipacion. Disenar objetivos de notificacion y reglas de escalamiento por categoria minimiza la carga operativa.

Notificaciones automatizadas mediante integracion con EventBridge

Los eventos de Health se envian automaticamente a EventBridge, por lo que puedes usar reglas de eventos para filtrar tipos de eventos especificos y enrutarlos a Lambda o SNS. Un flujo de trabajo tipico involucra publicar automaticamente eventos de mantenimiento de EC2 en un canal de Slack con la lista de instancias afectadas adjunta. Tambien puedes implementar respuestas automatizadas donde una funcion Lambda recibe eventos de Health, remueve temporalmente instancias afectadas de un grupo de Auto Scaling y las restaura despues del mantenimiento. Combinado con AWS Chatbot, se publican automaticamente notificaciones enriquecidas de eventos de Health en canales de Slack. En el patron de eventos de la regla de EventBridge, especifica source como aws.health y detail-type como AWS Health Event, luego filtra por detail.service o detail.eventTypeCategory. Se requieren reglas en la region us-east-1 para recibir eventos globales (interrupciones de IAM, Route 53, CloudFront); las reglas en otras regiones solo reciben eventos de servicios regionales. Pasar por alto este diseno causa notificaciones perdidas para interrupciones de servicios globales.

Integracion con Organizations y monitoreo a nivel organizacional

Al habilitar la API de Health de Organizations (Vista Organizacional), puedes agregar y revisar eventos de Health de todas las cuentas en tu organizacion a traves de la cuenta de gestion o una cuenta de administrador delegado. Para organizaciones grandes que operan cientos de cuentas, verificar los Health Dashboards individuales es impractico. La Vista Organizacional permite monitorear centralmente los eventos de todas las cuentas y priorizar respuestas para eventos de alto impacto. El enfoque recomendado es usar reglas de EventBridge para agregar eventos de Health a nivel organizacional y enviar notificaciones consolidadas a los equipos de seguridad y operaciones. Para un estudio sistematico del Health Dashboard, consulta libros relacionados en Amazon.

Patrones de diseno de flujo de trabajo de respuesta a incidentes

La respuesta a incidentes con Health Dashboard como nucleo se disena en tres etapas. Etapa 1 (Deteccion): Las reglas de EventBridge reciben eventos y notifican inmediatamente al personal de operaciones via SNS. Etapa 2 (Triaje): Una funcion Lambda obtiene la lista de recursos afectados y crea automaticamente un OpsItem en Systems Manager OpsCenter. El OpsItem incluye alarmas de CloudWatch relacionadas, ARN de recursos afectados y acciones recomendadas, permitiendo a los respondedores iniciar la remediacion desde un panel unico. Etapa 3 (Auto-remediacion): Los runbooks de Systems Manager Automation ejecutan respuestas estandar (reinicio de instancia, restauracion desde snapshot, failover de DNS) sin intervencion humana. Este diseno de tres etapas aumenta los casos donde la recuperacion se completa antes de que el ingeniero de guardia se despierte durante incidentes nocturnos. Para integracion con PagerDuty u Opsgenie, un diseno que selecciona automaticamente la politica de escalamiento basandose en el campo severity del evento de Health es efectivo.

Diferenciacion de CloudWatch y otros servicios

Health Dashboard notifica sobre interrupciones del lado de la infraestructura de AWS, mientras que CloudWatch Alarms detecta anomalias en metricas de aplicacion. Ambos son complementarios y deben usarse juntos. Por ejemplo, los errores de I/O de volumenes EBS se notifican a traves de Health Dashboard, mientras que el throttling de IOPS se detecta via metricas de CloudWatch. Trusted Advisor detecta riesgos de configuracion (grupos de seguridad abiertos, recursos infrautilizados) pero no proporciona notificaciones de interrupciones en tiempo real. AWS Fault Injection Simulator (FIS) es una herramienta de ingenieria del caos para inyectar fallos intencionalmente y puede usarse para verificar que los pipelines de notificacion del Health Dashboard funcionan correctamente. Systems Manager Incident Manager integra la gestion del ciclo de vida de incidentes (deteccion, escalamiento, respuesta, retrospectiva), y en organizaciones grandes, la creacion automatica de incidentes disparados por eventos del Health Dashboard es practica estandar.

Precios del Health Dashboard

El Health Dashboard es gratuito. No hay cargos adicionales por ver Service Health y Account Health o por enviar eventos a EventBridge. La API de Health (Vista Organizacional de Organizations) tambien es gratuita. Los costos se incurren solo por las ejecuciones de reglas de EventBridge (aproximadamente 1 USD por millon de eventos) y las tarifas de uso de los destinos de notificacion como SNS y Lambda. Como fundacion de seguridad gratuita que debe habilitarse en todas las cuentas de AWS, no hay razon para no adoptarlo. El mayor impacto de costo real proviene de las tarifas de ejecucion de funciones Lambda, pero la frecuencia de eventos de Health es tipicamente de unos pocos a unas docenas por cuenta por mes, bien dentro del nivel gratuito de Lambda (1 millon de solicitudes por mes).

Resumen

El Health Dashboard es un servicio que proporciona notificaciones en tiempo real sobre interrupciones de servicios de AWS y eventos especificos de la cuenta. Construye notificaciones automatizadas y respuestas automatizadas a traves de la integracion con EventBridge, y monitorea centralmente el impacto organizacional con la integracion de Organizations. Disena un flujo de trabajo de respuesta a incidentes de tres etapas (deteccion, triaje, auto-remediacion) y combina con CloudWatch Alarms e Incident Manager para lograr recuperacion de interrupciones sin intervencion manual.

El mecanismo de sincronización horaria interna de AWS - Amazon Time Sync Service y el diseño de smearing de segundos intercalaresExplicamos el mecanismo de Amazon Time Sync Service operado de forma independiente por AWS, la fuente de tiempo de alta precisión con GPS y relojes atómicos, la decisión de diseño de absorber los segundos intercalares mediante smearing y la importancia de la sincronización horaria en sistemas distribuidos.Centralización de registros de auditoría SaaS con AWS AppFabric - Estandarización OCSF e integración con Security LakeExplicamos la recopilación de registros de auditoría de aplicaciones SaaS con AppFabric, la estandarización al formato OCSF y la construcción de pipelines de análisis.Implementación de Feature Flags con AWS AppConfig - Despliegue seguro de configuración y rollbackDespliega cambios de configuración de forma independiente al código mediante estrategias Linear y Exponential. Garantiza la seguridad con rollback automático activado por alarmas de CloudWatch.Revisión de arquitectura - Evaluación sistemática de cargas de trabajo con AWS Well-Architected ToolExplica la revisión de arquitectura de cargas de trabajo usando AWS Well-Architected Tool. Presenta la evaluación basada en 6 pilares, la elaboración de planes de mejora y el uso de lentes personalizados.Diseño y operación de logs de auditoría - Registro completo de actividad API con CloudTrailExplica las técnicas de diseño de logs de auditoría con AWS CloudTrail, el registro de actividad API, el almacenamiento a largo plazo en S3 y la respuesta de cumplimiento mediante integración con Config.Lecciones de sistemas distribuidos de los informes de incidentes (COE) de AWS - Principios de diseño que cambiaron las grandes interrupciones del pasadoA partir de los Correction of Errors (COE) e informes de incidentes publicados por AWS, explicamos las causas raíz de grandes incidentes pasados como la interrupción de S3, la interrupción de DNS en us-east-1 y la interrupción de Kinesis, y cómo cambiaron los principios de diseño de AWS.El diseño de tags determina las operaciones - Curiosidades y reglas de nomenclatura prácticas de la estrategia de tags de recursos AWSExplicamos por qué los tags de recursos AWS no son simples etiquetas sino la base de la asignación de costos, control de acceso y automatización, las reglas de nomenclatura de claves de tags, cómo usar el límite de 50 tags y la gobernanza mediante políticas de tags.Por qué existen las cuotas de servicio de AWS - Diseño multitenant que protege la infraestructura compartidaExplicamos que las cuotas de servicio de AWS (antes límites de servicio) no son simples restricciones sino un diseño para proteger a otros clientes en un entorno multitenant, desde el problema del vecino ruidoso, la diferencia entre límites soft y hard, y el trasfondo de las solicitudes de aumento.

Dos vistas del Health Dashboard

Notificaciones automatizadas mediante integracion con EventBridge

Integracion con Organizations y monitoreo a nivel organizacional

Patrones de diseno de flujo de trabajo de respuesta a incidentes

Diferenciacion de CloudWatch y otros servicios

Precios del Health Dashboard

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares