Amazon DevOps Guru

Servicio AIOps que detecta automáticamente patrones anómalos en métricas y logs de CloudWatch mediante machine learning, proporcionando estimación de causa raíz y recomendaciones de mejora

Descripción general

Amazon DevOps Guru es un servicio AIOps que utiliza machine learning para detectar automáticamente anomalías operativas en aplicaciones, proporcionando estimación de causa raíz y recomendaciones concretas de mejora. Analiza continuamente métricas de CloudWatch, logs de CloudTrail e historial de cambios de Config, reportando como insights las desviaciones de los patrones operativos normales. Permite detectar sin intervención humana problemas operativos en entornos serverless y de contenedores, como el aumento de cold starts en funciones Lambda, throttling en DynamoDB o patrones de terminación anómala de tareas ECS.

Tipos de insights y mecanismo de detección de anomalías

Los insights generados por DevOps Guru se clasifican en dos tipos: insights reactivos e insights proactivos. Los insights reactivos se generan cuando se detecta una anomalía que ya está ocurriendo. Por ejemplo, si la latencia de API Gateway aumenta repentinamente, correlaciona el aumento de la tasa de errores de funciones Lambda relacionadas y el throttling de DynamoDB, presentando candidatos de causa raíz. Los insights proactivos detectan señales que, aunque no han causado una falla en el momento actual, podrían convertirse en problemas si se ignoran. Esto incluye casos como el consumo de capacidad de una tabla DynamoDB con tendencia creciente o el número de ejecuciones concurrentes de una función Lambda acercándose al límite. La base de la detección de anomalías utiliza modelos de machine learning entrenados con datos operativos a gran escala acumulados por AWS. No es necesario que el usuario entrene modelos propios; basta con habilitar el servicio para que el aprendizaje de la línea base comience automáticamente. El período de aprendizaje es normalmente de 1 a 2 semanas, durante el cual se generan insights pero la precisión mejora después de establecer la línea base.

Configuración de cobertura y agrupación de recursos

El alcance de monitoreo de DevOps Guru se puede filtrar por toda la cuenta de AWS, stacks específicos de CloudFormation o etiquetas específicas. Es común monitorear solo los stacks del entorno de producción, eliminando el ruido del entorno de desarrollo. Con la especificación por stack de CloudFormation, todos los recursos contenidos en el stack (Lambda, DynamoDB, API Gateway, SQS, etc.) se agregan automáticamente al alcance de monitoreo. Con la especificación basada en etiquetas, se pueden monitorear solo los recursos con una etiqueta como `devops-guru:enabled=true`. La agrupación de recursos está directamente relacionada con la precisión de la detección de anomalías. Al agrupar recursos relacionados, DevOps Guru comprende con precisión las dependencias entre recursos y puede rastrear cadenas de fallos. En arquitecturas de microservicios, un diseño efectivo es separar los stacks de CloudFormation por servicio y tratarlos como unidades de monitoreo independientes. El precio se basa en una tarifa mensual por número de recursos AWS analizados, aproximadamente 0,0028 USD por recurso al mes.

Canales de notificación y flujo de trabajo operativo

Los insights de DevOps Guru se notifican al equipo de operaciones a través de topics de Amazon SNS. Al configurar un topic SNS, se publican mensajes cuando se genera un nuevo insight, cuando cambia la severidad de un insight y cuando se cierra un insight. Reenviando las notificaciones de SNS a un canal de Slack a través de Chatbot, el equipo puede revisar los insights en su herramienta de comunicación habitual. También es posible la integración con EventBridge, permitiendo activar diferentes acciones según el tipo y severidad del insight. Por ejemplo, se puede configurar que cuando se genera un insight reactivo de severidad High se llame al responsable de guardia mediante PagerDuty, mientras que los de severidad Medium o inferior se limiten a notificaciones en Slack. En la pantalla de detalle del insight se muestran los gráficos de las métricas donde se detectó la anomalía, la lista de recursos relacionados y las acciones recomendadas. Las recomendaciones incluyen enlaces a la documentación de AWS y guían hasta los pasos específicos de cambio de configuración, facilitando que operadores con poca experiencia puedan determinar la dirección de respuesta.

共有するXB!