Amazon CloudWatch Internet Monitor - Detección instantánea de fallos de ISP y visualización del impacto en usuarios

CloudWatch Internet Monitor es un servicio que monitorea continuamente la disponibilidad y el rendimiento de los usuarios finales que acceden a aplicaciones a través de Internet, por ISP, ciudad y ASN. Aprovecha los datos de observación de la red global de AWS para proporcionar desde la detección de degradación del rendimiento hasta el soporte de decisiones de cambio de enrutamiento DNS.

約 9 分で読めます最終更新: 2026-04-22

Contexto de la necesidad de monitoreo desde la perspectiva del usuario final

Las métricas tradicionales de CloudWatch se han centrado en monitorear indicadores del lado de la infraestructura de AWS, como el uso de CPU de EC2 o la latencia de ALB. Sin embargo, por mucho que la aplicación funcione normalmente, si hay problemas en la ruta de Internet entre el usuario y la región de AWS, los usuarios finales experimentarán latencia o timeouts. Los problemas de red que ocurren fuera del control de AWS, como fallos de ISP, daños en cables submarinos o anomalías de enrutamiento BGP en regiones específicas, no son infrecuentes. De hecho, los fallos de ISP importantes ocurren a una escala de decenas por año, y el número de usuarios afectados puede alcanzar millones. CloudWatch Internet Monitor fue diseñado para cubrir este punto ciego, aprovechando los datos de observación de red recopilados de la infraestructura de CloudFront y Route 53 desplegada por AWS en todo el mundo, para visualizar la calidad de Internet que los usuarios finales realmente experimentan. La esencia de este servicio es el cambio de perspectiva de capturar problemas invisibles solo con métricas del lado del servidor, desde el punto más cercano al usuario.

Mecanismo que aprovecha los datos de observación de la red global de AWS

La mayor característica de Internet Monitor es que no requiere colocar sondas o agentes propios en el lado del usuario. AWS recopila constantemente datos de rendimiento de rutas de Internet en todo el mundo a través de más de 600 ubicaciones de borde de CloudFront y la red de resolvers de Route 53. Internet Monitor cruza estos enormes datos de observación con los patrones de tráfico de los recursos de AWS especificados por el usuario (distribuciones de CloudFront, VPC, directorios de WorkSpaces, etc.) para estimar las variaciones en el tiempo de ida y vuelta (RTT) y la disponibilidad del acceso desde ISP o ciudades específicas. Por ejemplo, si el RTT del acceso desde la red NTT Docomo en Tokio salta de los habituales 15ms a 120ms, Internet Monitor detecta esa anomalía en menos de 5 minutos y la notifica como un evento de salud. Esta velocidad de detección reduce significativamente el tiempo hasta el reconocimiento del fallo en comparación con la operación tradicional de esperar consultas de los usuarios. El hecho de que la monitorización comience sin agentes y casi en tiempo real simplemente registrando los recursos a monitorear contribuye a la baja carga operativa.

Lógica de detección de eventos de salud y diseño de umbrales

Internet Monitor calcula una puntuación de disponibilidad y una puntuación de rendimiento del tráfico monitoreado en un rango de 0-100, y genera un evento de salud cuando estas caen por debajo de los umbrales configurados. Los umbrales predeterminados están establecidos en 95% para disponibilidad y 95% para rendimiento, pero se pueden personalizar según el SLA de la aplicación. Lo importante es que Internet Monitor calcula puntuaciones no solo para el global total, sino para cada combinación de ciudad e ISP (ASN). Incluso si la disponibilidad general es del 99%, si solo el acceso a través de un ISP específico en Osaka cae al 80%, captura esa degradación localizada como un evento de salud. Los eventos de salud también incluyen una estimación del volumen de tráfico afectado, lo que permite distinguir entre un problema menor que afecta al 0.5% de todos los usuarios y un fallo grave que afecta al 30%, para juzgar la prioridad de respuesta. La integración con EventBridge permite vincular la ocurrencia de eventos de salud con Lambda o SNS para construir flujos de respuesta automáticos. Si los umbrales son demasiado estrictos aumenta el ruido, y si son demasiado laxos la detección se retrasa, por lo que el enfoque práctico es observar la línea base durante 1-2 semanas en la operación inicial antes de ajustar.

Visualización que respalda las decisiones de cambio de enrutamiento DNS

Los insights de tráfico proporcionados por Internet Monitor se vinculan directamente con las decisiones de cambio de enrutamiento DNS en configuraciones multi-región. Por ejemplo, en una configuración activo-activo con la región de Tokio y la región de Osaka, cuando el rendimiento de un ISP específico se degrada en la ruta hacia la región de Tokio, se necesita material para decidir si redirigir el tráfico de esos usuarios a la región de Osaka. En la consola de Internet Monitor, se visualizan en un mapa las combinaciones de ciudad e ISP afectadas, el volumen de tráfico estimado y el aumento del RTT. Además, combinándolo con los health checks de Route 53, se puede lograr una configuración que ejecute automáticamente el failover usando los eventos de salud de Internet Monitor como disparador. Azure Front Door también tiene una función similar de monitoreo de tráfico global, pero Internet Monitor tiene una integración más profunda con CloudFront y Route 53, siendo una ventaja de diseño que se completa dentro del ecosistema de AWS. Incluso en el caso de cambio manual, poder confirmar el alcance y la gravedad de la degradación en el dashboard de Internet Monitor antes de decidir previene failovers innecesarios por reacción excesiva.

Estructura de costos y diseño de recursos monitoreados

El precio de Internet Monitor se basa en un modelo de pago por uso según el volumen de tráfico procesado por los recursos monitoreados. No hay un costo fijo mensual por monitor, y se cobra según la proporción del tráfico que pasa por las distribuciones de CloudFront o VPC monitoreadas que Internet Monitor analiza. El límite superior del tráfico monitoreado se puede configurar por monitor, soportando hasta 500,000 redes de ciudad (combinaciones de ciudad y ASN). Para controlar costos, es más efectivo crear monitores limitados a aplicaciones críticas para el negocio en lugar de consolidar todos los recursos en un solo monitor. Por ejemplo, gestionar el panel de administración interno y el servicio de producción para clientes en monitores separados, configurando umbrales estrictos y conexión de alertas solo para el monitor del servicio de producción. Se pueden registrar hasta 50 recursos por monitor, y en el caso de VPC se registra uno por región. Al monitorear una distribución de CloudFront, la distribución geográfica y el rendimiento de todo el tráfico que pasa por esa distribución se analizan automáticamente, proporcionando amplia visibilidad sin configuración adicional.

Puntos clave del diseño operativo y diferenciación con otros servicios de monitoreo

Para operar Internet Monitor de manera efectiva, es importante clarificar la división de roles con otras funciones de monitoreo de CloudWatch. Synthetics ejecuta sondas periódicamente para monitorear activamente la respuesta de endpoints específicos, y RUM mide la experiencia real del usuario con JavaScript incrustado en el navegador. Internet Monitor, a diferencia de estos, monitorea pasivamente la salud de toda la ruta de Internet con datos de observación obtenidos de la infraestructura de red de AWS. Combinando los tres, se logra un monitoreo de tres capas: capa de infraestructura, capa de aplicación y capa de experiencia de usuario. En la operación real, el flujo común es notificar eventos de salud a Slack o PagerDuty a través de EventBridge, y que el ingeniero de guardia confirme el alcance del impacto antes de decidir la necesidad de failover. El historial de eventos de salud se puede almacenar en CloudWatch Logs, y en revisiones mensuales se puede analizar la tendencia de fallos por ISP para mejorar el diseño multi-región. Libros relacionados en Amazon también son útiles como referencia.

El mecanismo de sincronización horaria interna de AWS - Amazon Time Sync Service y el diseño de smearing de segundos intercalaresExplicamos el mecanismo de Amazon Time Sync Service operado de forma independiente por AWS, la fuente de tiempo de alta precisión con GPS y relojes atómicos, la decisión de diseño de absorber los segundos intercalares mediante smearing y la importancia de la sincronización horaria en sistemas distribuidos.Centralización de registros de auditoría SaaS con AWS AppFabric - Estandarización OCSF e integración con Security LakeExplicamos la recopilación de registros de auditoría de aplicaciones SaaS con AppFabric, la estandarización al formato OCSF y la construcción de pipelines de análisis.Implementación de Feature Flags con AWS AppConfig - Despliegue seguro de configuración y rollbackDespliega cambios de configuración de forma independiente al código mediante estrategias Linear y Exponential. Garantiza la seguridad con rollback automático activado por alarmas de CloudWatch.Revisión de arquitectura - Evaluación sistemática de cargas de trabajo con AWS Well-Architected ToolExplica la revisión de arquitectura de cargas de trabajo usando AWS Well-Architected Tool. Presenta la evaluación basada en 6 pilares, la elaboración de planes de mejora y el uso de lentes personalizados.Diseño y operación de logs de auditoría - Registro completo de actividad API con CloudTrailExplica las técnicas de diseño de logs de auditoría con AWS CloudTrail, el registro de actividad API, el almacenamiento a largo plazo en S3 y la respuesta de cumplimiento mediante integración con Config.Lecciones de sistemas distribuidos de los informes de incidentes (COE) de AWS - Principios de diseño que cambiaron las grandes interrupciones del pasadoA partir de los Correction of Errors (COE) e informes de incidentes publicados por AWS, explicamos las causas raíz de grandes incidentes pasados como la interrupción de S3, la interrupción de DNS en us-east-1 y la interrupción de Kinesis, y cómo cambiaron los principios de diseño de AWS.El diseño de tags determina las operaciones - Curiosidades y reglas de nomenclatura prácticas de la estrategia de tags de recursos AWSExplicamos por qué los tags de recursos AWS no son simples etiquetas sino la base de la asignación de costos, control de acceso y automatización, las reglas de nomenclatura de claves de tags, cómo usar el límite de 50 tags y la gobernanza mediante políticas de tags.Por qué existen las cuotas de servicio de AWS - Diseño multitenant que protege la infraestructura compartidaExplicamos que las cuotas de servicio de AWS (antes límites de servicio) no son simples restricciones sino un diseño para proteger a otros clientes en un entorno multitenant, desde el problema del vecino ruidoso, la diferencia entre límites soft y hard, y el trasfondo de las solicitudes de aumento.

Contexto de la necesidad de monitoreo desde la perspectiva del usuario final

Mecanismo que aprovecha los datos de observación de la red global de AWS

Lógica de detección de eventos de salud y diseño de umbrales

Visualización que respalda las decisiones de cambio de enrutamiento DNS

Estructura de costos y diseño de recursos monitoreados

Puntos clave del diseño operativo y diferenciación con otros servicios de monitoreo

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares