Amazon CloudWatch Internet Monitor - Detección instantánea de fallos de ISP y visualización del impacto en usuarios
CloudWatch Internet Monitor es un servicio que monitorea continuamente la disponibilidad y el rendimiento de los usuarios finales que acceden a aplicaciones a través de Internet, por ISP, ciudad y ASN. Aprovecha los datos de observación de la red global de AWS para proporcionar desde la detección de degradación del rendimiento hasta el soporte de decisiones de cambio de enrutamiento DNS.
Contexto de la necesidad de monitoreo desde la perspectiva del usuario final
Las métricas tradicionales de CloudWatch se han centrado en monitorear indicadores del lado de la infraestructura de AWS, como el uso de CPU de EC2 o la latencia de ALB. Sin embargo, por mucho que la aplicación funcione normalmente, si hay problemas en la ruta de Internet entre el usuario y la región de AWS, los usuarios finales experimentarán latencia o timeouts. Los problemas de red que ocurren fuera del control de AWS, como fallos de ISP, daños en cables submarinos o anomalías de enrutamiento BGP en regiones específicas, no son infrecuentes. De hecho, los fallos de ISP importantes ocurren a una escala de decenas por año, y el número de usuarios afectados puede alcanzar millones. CloudWatch Internet Monitor fue diseñado para cubrir este punto ciego, aprovechando los datos de observación de red recopilados de la infraestructura de CloudFront y Route 53 desplegada por AWS en todo el mundo, para visualizar la calidad de Internet que los usuarios finales realmente experimentan. La esencia de este servicio es el cambio de perspectiva de capturar problemas invisibles solo con métricas del lado del servidor, desde el punto más cercano al usuario.
Mecanismo que aprovecha los datos de observación de la red global de AWS
La mayor característica de Internet Monitor es que no requiere colocar sondas o agentes propios en el lado del usuario. AWS recopila constantemente datos de rendimiento de rutas de Internet en todo el mundo a través de más de 600 ubicaciones de borde de CloudFront y la red de resolvers de Route 53. Internet Monitor cruza estos enormes datos de observación con los patrones de tráfico de los recursos de AWS especificados por el usuario (distribuciones de CloudFront, VPC, directorios de WorkSpaces, etc.) para estimar las variaciones en el tiempo de ida y vuelta (RTT) y la disponibilidad del acceso desde ISP o ciudades específicas. Por ejemplo, si el RTT del acceso desde la red NTT Docomo en Tokio salta de los habituales 15ms a 120ms, Internet Monitor detecta esa anomalía en menos de 5 minutos y la notifica como un evento de salud. Esta velocidad de detección reduce significativamente el tiempo hasta el reconocimiento del fallo en comparación con la operación tradicional de esperar consultas de los usuarios. El hecho de que la monitorización comience sin agentes y casi en tiempo real simplemente registrando los recursos a monitorear contribuye a la baja carga operativa.
Lógica de detección de eventos de salud y diseño de umbrales
Internet Monitor calcula una puntuación de disponibilidad y una puntuación de rendimiento del tráfico monitoreado en un rango de 0-100, y genera un evento de salud cuando estas caen por debajo de los umbrales configurados. Los umbrales predeterminados están establecidos en 95% para disponibilidad y 95% para rendimiento, pero se pueden personalizar según el SLA de la aplicación. Lo importante es que Internet Monitor calcula puntuaciones no solo para el global total, sino para cada combinación de ciudad e ISP (ASN). Incluso si la disponibilidad general es del 99%, si solo el acceso a través de un ISP específico en Osaka cae al 80%, captura esa degradación localizada como un evento de salud. Los eventos de salud también incluyen una estimación del volumen de tráfico afectado, lo que permite distinguir entre un problema menor que afecta al 0.5% de todos los usuarios y un fallo grave que afecta al 30%, para juzgar la prioridad de respuesta. La integración con EventBridge permite vincular la ocurrencia de eventos de salud con Lambda o SNS para construir flujos de respuesta automáticos. Si los umbrales son demasiado estrictos aumenta el ruido, y si son demasiado laxos la detección se retrasa, por lo que el enfoque práctico es observar la línea base durante 1-2 semanas en la operación inicial antes de ajustar.
Visualización que respalda las decisiones de cambio de enrutamiento DNS
Los insights de tráfico proporcionados por Internet Monitor se vinculan directamente con las decisiones de cambio de enrutamiento DNS en configuraciones multi-región. Por ejemplo, en una configuración activo-activo con la región de Tokio y la región de Osaka, cuando el rendimiento de un ISP específico se degrada en la ruta hacia la región de Tokio, se necesita material para decidir si redirigir el tráfico de esos usuarios a la región de Osaka. En la consola de Internet Monitor, se visualizan en un mapa las combinaciones de ciudad e ISP afectadas, el volumen de tráfico estimado y el aumento del RTT. Además, combinándolo con los health checks de Route 53, se puede lograr una configuración que ejecute automáticamente el failover usando los eventos de salud de Internet Monitor como disparador. Azure Front Door también tiene una función similar de monitoreo de tráfico global, pero Internet Monitor tiene una integración más profunda con CloudFront y Route 53, siendo una ventaja de diseño que se completa dentro del ecosistema de AWS. Incluso en el caso de cambio manual, poder confirmar el alcance y la gravedad de la degradación en el dashboard de Internet Monitor antes de decidir previene failovers innecesarios por reacción excesiva.
Estructura de costos y diseño de recursos monitoreados
El precio de Internet Monitor se basa en un modelo de pago por uso según el volumen de tráfico procesado por los recursos monitoreados. No hay un costo fijo mensual por monitor, y se cobra según la proporción del tráfico que pasa por las distribuciones de CloudFront o VPC monitoreadas que Internet Monitor analiza. El límite superior del tráfico monitoreado se puede configurar por monitor, soportando hasta 500,000 redes de ciudad (combinaciones de ciudad y ASN). Para controlar costos, es más efectivo crear monitores limitados a aplicaciones críticas para el negocio en lugar de consolidar todos los recursos en un solo monitor. Por ejemplo, gestionar el panel de administración interno y el servicio de producción para clientes en monitores separados, configurando umbrales estrictos y conexión de alertas solo para el monitor del servicio de producción. Se pueden registrar hasta 50 recursos por monitor, y en el caso de VPC se registra uno por región. Al monitorear una distribución de CloudFront, la distribución geográfica y el rendimiento de todo el tráfico que pasa por esa distribución se analizan automáticamente, proporcionando amplia visibilidad sin configuración adicional.
Puntos clave del diseño operativo y diferenciación con otros servicios de monitoreo
Para operar Internet Monitor de manera efectiva, es importante clarificar la división de roles con otras funciones de monitoreo de CloudWatch. Synthetics ejecuta sondas periódicamente para monitorear activamente la respuesta de endpoints específicos, y RUM mide la experiencia real del usuario con JavaScript incrustado en el navegador. Internet Monitor, a diferencia de estos, monitorea pasivamente la salud de toda la ruta de Internet con datos de observación obtenidos de la infraestructura de red de AWS. Combinando los tres, se logra un monitoreo de tres capas: capa de infraestructura, capa de aplicación y capa de experiencia de usuario. En la operación real, el flujo común es notificar eventos de salud a Slack o PagerDuty a través de EventBridge, y que el ingeniero de guardia confirme el alcance del impacto antes de decidir la necesidad de failover. El historial de eventos de salud se puede almacenar en CloudWatch Logs, y en revisiones mensuales se puede analizar la tendencia de fallos por ISP para mejorar el diseño multi-región. Libros relacionados en Amazon también son útiles como referencia.