Detección de anomalías operativas basada en ML - Descubrimiento de fallos en fase de presagio con Amazon DevOps Guru

Explicación de la detección de anomalías operativas basada en ML con Amazon DevOps Guru. Se presenta el análisis automático de métricas de CloudWatch, la detección de presagios de anomalías, las acciones recomendadas y la monitorización por stack de CloudFormation.

約 7 分で読めます最終更新: 2026-01-10

Desafíos de la monitorización operativa y el rol de DevOps Guru

En la monitorización operativa de entornos cloud, es común configurar métricas, alarmas y paneles de CloudWatch para detectar anomalías. Sin embargo, en entornos a gran escala con cientos o miles de métricas a monitorizar, resulta difícil establecer y mantener umbrales apropiados para todas. Además, existen anomalías complejas que no pueden detectarse con umbrales de métricas individuales (por ejemplo, cuando la CPU es normal pero la latencia aumenta gradualmente y la tasa de errores también sube ligeramente). Amazon DevOps Guru es un servicio que analiza automáticamente métricas de CloudWatch, eventos de CloudTrail y cambios de configuración de Config mediante modelos ML, detectando anomalías operativas en fase de presagio. No requiere configuración de umbrales individuales; DevOps Guru aprende patrones históricos y construye líneas base dinámicas. El análisis de correlación entre múltiples métricas permite detectar anomalías complejas que se pasarían por alto con métricas individuales.

Configuración de objetivos de monitorización y detección de anomalías

Los objetivos de monitorización de DevOps Guru se especifican de dos formas. El método por stack de CloudFormation monitoriza solo los recursos contenidos en un stack específico (aplicación). Esto permite una monitorización alineada con los límites de la aplicación, facilitando la identificación del alcance del impacto de las anomalías. El método de monitorización de toda la cuenta AWS abarca todos los recursos de la cuenta. DevOps Guru recopila y analiza automáticamente las métricas de CloudWatch de los recursos objetivo. Para funciones Lambda monitoriza invocaciones, tasa de errores, tiempo de ejecución y cold starts; para DynamoDB la utilización de capacidad de lectura/escritura y throttling; para RDS el uso de CPU, conexiones y I/O de disco, entre otras métricas específicas de cada servicio. Cuando se detecta una anomalía, se reporta como un Insight que incluye las métricas anómalas relacionadas, la causa raíz estimada y las acciones recomendadas.

Análisis de causa raíz y acciones recomendadas

Los Insights de DevOps Guru incluyen la estimación de la causa raíz de la anomalía y acciones recomendadas específicas. Por ejemplo, si aumenta la tasa de errores de una función Lambda, correlaciona con eventos de despliegue de CloudFormation o cambios de configuración de Config ocurridos en el mismo período, estimando que "un despliegue reciente podría ser la causa". Si se detecta throttling en DynamoDB, recomienda "aumentar la capacidad provisionada" o "cambiar al modo bajo demanda". Los Insights se clasifican en dos tipos: Reactive (anomalías que ya están causando impacto) y Proactive (anomalías donde se observan presagios pero aún no hay impacto). Los Proactive Insights permiten actuar antes de que ocurra un fallo, contribuyendo directamente a la prevención de tiempo de inactividad. Las notificaciones SNS alertan inmediatamente sobre la aparición de Insights, y la integración con EventBridge permite incorporarlos en flujos de trabajo de gestión de incidentes existentes como PagerDuty o Slack. Para profundizar en el conocimiento operativo de automatización DevOps, los libros especializados (Amazon) son útiles.

Diferenciación con CloudWatch Anomaly Detection

Tanto DevOps Guru como CloudWatch Anomaly Detection son detección de anomalías basada en ML, pero difieren en alcance. CloudWatch Anomaly Detection configura bandas de detección de anomalías (rango de valores esperados) para métricas individuales y dispara alarmas cuando se excede la banda. Requiere configuración por métrica y no realiza análisis de correlación entre múltiples métricas. DevOps Guru abarca toda la aplicación, realizando automáticamente análisis de correlación entre múltiples métricas y estimación de causa raíz. La configuración se limita a especificar los objetivos de monitorización, sin necesidad de configurar umbrales individuales. Ambos pueden usarse conjuntamente: configurar alarmas explícitas con CloudWatch Anomaly Detection para métricas individuales importantes (latencia de API, tasa de errores) y usar DevOps Guru para la monitorización integral de toda la aplicación es un enfoque efectivo. El precio es de 0.0028 USD por hora de análisis de recurso; para 100 recursos monitorizados, aproximadamente 20 USD mensuales.

Precios de DevOps Guru

Los precios de DevOps Guru se basan en el número de recursos AWS analizados. El análisis basado en stacks de CloudFormation cuesta aproximadamente 0.0028 dólares mensuales por recurso, y el análisis basado en etiquetas aproximadamente 0.0042 dólares. Para un entorno de 100 recursos, el costo mensual es de aproximadamente 0.28 a 0.42 dólares, siendo muy económico. Incluye tanto Proactive Insights (detección de presagios) como Reactive Insights (análisis de fallos). Se optimizan los costos limitando los objetivos de análisis a los recursos del entorno de producción y excluyendo los entornos de desarrollo y pruebas.

Resumen - Directrices de uso de DevOps Guru

Amazon DevOps Guru es un servicio que detecta anomalías operativas en fase de presagio mediante análisis automático basado en ML. Sus principales fortalezas son el análisis automático de métricas de CloudWatch, el análisis de correlación entre múltiples métricas, la estimación de causa raíz y la presentación de acciones recomendadas. La monitorización por stack de CloudFormation permite la detección de anomalías alineada con los límites de la aplicación, y al no requerir configuración de umbrales individuales, su implementación es sencilla. Es especialmente efectivo para la monitorización de aplicaciones serverless y microservicios en entornos de producción.

El mecanismo de sincronización horaria interna de AWS - Amazon Time Sync Service y el diseño de smearing de segundos intercalaresExplicamos el mecanismo de Amazon Time Sync Service operado de forma independiente por AWS, la fuente de tiempo de alta precisión con GPS y relojes atómicos, la decisión de diseño de absorber los segundos intercalares mediante smearing y la importancia de la sincronización horaria en sistemas distribuidos.Centralización de registros de auditoría SaaS con AWS AppFabric - Estandarización OCSF e integración con Security LakeExplicamos la recopilación de registros de auditoría de aplicaciones SaaS con AppFabric, la estandarización al formato OCSF y la construcción de pipelines de análisis.Implementación de Feature Flags con AWS AppConfig - Despliegue seguro de configuración y rollbackDespliega cambios de configuración de forma independiente al código mediante estrategias Linear y Exponential. Garantiza la seguridad con rollback automático activado por alarmas de CloudWatch.Revisión de arquitectura - Evaluación sistemática de cargas de trabajo con AWS Well-Architected ToolExplica la revisión de arquitectura de cargas de trabajo usando AWS Well-Architected Tool. Presenta la evaluación basada en 6 pilares, la elaboración de planes de mejora y el uso de lentes personalizados.Diseño y operación de logs de auditoría - Registro completo de actividad API con CloudTrailExplica las técnicas de diseño de logs de auditoría con AWS CloudTrail, el registro de actividad API, el almacenamiento a largo plazo en S3 y la respuesta de cumplimiento mediante integración con Config.Lecciones de sistemas distribuidos de los informes de incidentes (COE) de AWS - Principios de diseño que cambiaron las grandes interrupciones del pasadoA partir de los Correction of Errors (COE) e informes de incidentes publicados por AWS, explicamos las causas raíz de grandes incidentes pasados como la interrupción de S3, la interrupción de DNS en us-east-1 y la interrupción de Kinesis, y cómo cambiaron los principios de diseño de AWS.El diseño de tags determina las operaciones - Curiosidades y reglas de nomenclatura prácticas de la estrategia de tags de recursos AWSExplicamos por qué los tags de recursos AWS no son simples etiquetas sino la base de la asignación de costos, control de acceso y automatización, las reglas de nomenclatura de claves de tags, cómo usar el límite de 50 tags y la gobernanza mediante políticas de tags.Por qué existen las cuotas de servicio de AWS - Diseño multitenant que protege la infraestructura compartidaExplicamos que las cuotas de servicio de AWS (antes límites de servicio) no son simples restricciones sino un diseño para proteger a otros clientes en un entorno multitenant, desde el problema del vecino ruidoso, la diferencia entre límites soft y hard, y el trasfondo de las solicitudes de aumento.

Desafíos de la monitorización operativa y el rol de DevOps Guru

Configuración de objetivos de monitorización y detección de anomalías

Análisis de causa raíz y acciones recomendadas

Diferenciación con CloudWatch Anomaly Detection

Precios de DevOps Guru

Resumen - Directrices de uso de DevOps Guru

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares