Amazon DevOps Guru Especializado2020年〜
Un servicio que utiliza aprendizaje automático para detectar y diagnosticar automáticamente problemas operativos en aplicaciones
Qué hace
Amazon DevOps Guru utiliza aprendizaje automático para analizar las métricas operativas de sus recursos de AWS y detectar automáticamente señales de degradación del rendimiento o fallos en sus aplicaciones. Integra métricas de CloudWatch, registros de CloudTrail e historial de cambios de AWS Config para identificar causas raíz y recomendar acciones correctivas.
Casos de uso
Se utiliza para la detección temprana de aumentos de latencia y picos en la tasa de errores en aplicaciones en producción, detección automática de comportamientos anómalos después de despliegues, y diagnóstico de problemas específicos de servicios de AWS como tiempos de espera de funciones Lambda y limitación de DynamoDB.
Analogía cotidiana
Piense en ello como un administrador de sistemas experimentado. Monitorea constantemente los indicadores del servidor y nota cosas como 'Este patrón de uso de CPU es inusual. Podría ser causado por el despliegue de ayer', detectando señales tempranas de problemas y diciéndole la causa y cómo solucionarlo.
¿Qué es Amazon DevOps Guru?
Amazon DevOps Guru es un servicio que utiliza aprendizaje automático para detectar automáticamente problemas operativos en aplicaciones que se ejecutan en AWS. Tradicionalmente, los equipos de operaciones tenían que monitorear paneles de CloudWatch, configurar alarmas e investigar manualmente los registros cuando ocurrían problemas. DevOps Guru automatiza estas tareas: cuando detecta patrones anómalos, presenta un análisis de causa raíz y acciones recomendadas. Esto reduce la carga de los equipos de operaciones y ayuda a resolver problemas más rápidamente.
Insights y acciones recomendadas
Cuando DevOps Guru detecta una anomalía, la reporta como un "insight". Hay dos tipos: insights reactivos (problemas que ya están ocurriendo) e insights proactivos (señales que podrían convertirse en problemas en el futuro). Cada insight incluye gráficos de métricas anómalas, una lista de recursos afectados y pasos de corrección recomendados. Por ejemplo, podría ver una sugerencia específica como 'La capacidad de lectura de la tabla DynamoDB es insuficiente. Considere cambiar al modo bajo demanda.' Para libros técnicos relacionados con insights y acciones recomendadas, también puede consultar libros de referencia (Amazon).
Cobertura y notificaciones
DevOps Guru puede analizar toda su cuenta de AWS, stacks específicos de CloudFormation o recursos con etiquetas específicas. Integra métricas de CloudWatch, registros de llamadas API de CloudTrail e historial de cambios de configuración de Config para un análisis integral. Las notificaciones de anomalías detectadas se pueden configurar a través de temas SNS o EventBridge, y también se pueden integrar con herramientas externas como Slack y PagerDuty.
Aspectos a tener en cuenta
- Pricing is based on the number of analyzed AWS resources and API calls. Be mindful of costs in environments with many resources
- The machine learning model takes 1-2 weeks to train, so detection accuracy may be lower immediately after activation
- DevOps Guru detects and diagnoses problems but does not auto-remediate. The operations team must carry out the remediation actions