Amazon DevOps Guru のアイコン

Amazon DevOps Guru 专业2020年〜

利用机器学习自动检测和诊断应用程序运维问题的服务

它能做什么

Amazon DevOps Guru 利用机器学习分析 AWS 资源的运维指标,自动检测应用程序性能下降或故障的征兆。它整合 CloudWatch 指标、CloudTrail 日志和 AWS Config 变更历史进行综合分析,识别根本原因并推荐修复措施。

使用场景

适用于生产环境中延迟增加和错误率上升的早期检测、部署后异常行为的自动检测,以及诊断 Lambda 函数超时和 DynamoDB 限流等 AWS 服务特有问题。

日常类比

可以将其比作一位经验丰富的系统管理员。他们持续监控各种服务器仪表,能够察觉到'这个 CPU 使用率的变化模式不正常,可能是昨天的部署导致的'这样的异常征兆,并告诉您原因和解决方法。

什么是 Amazon DevOps Guru

Amazon DevOps Guru 是一项利用机器学习自动检测 AWS 环境中应用程序运维问题的服务。传统上,运维团队需要监控 CloudWatch 仪表板、设置告警,并在问题发生时手动调查日志。DevOps Guru 将这些工作自动化——当检测到异常模式时,它会呈现根本原因分析和推荐操作。这减轻了运维团队的负担,帮助更快地解决问题。

洞察与推荐操作

当 DevOps Guru 检测到异常时,会以"洞察"的形式报告。洞察分为两种类型:反应式洞察 (已经发生的问题) 和主动式洞察 (未来可能成为问题的征兆)。每个洞察包含异常指标图表、受影响资源列表和推荐的修复步骤。例如,您可能会看到'DynamoDB 表的读取容量不足,建议切换到按需模式'这样的具体建议。 有关洞察和推荐操作的相关技术书籍,也可参阅 参考书籍 (Amazon)

覆盖范围与通知

DevOps Guru 可以分析整个 AWS 账户、特定的 CloudFormation 堆栈或带有特定标签的资源。它整合 CloudWatch 指标、CloudTrail API 调用日志和 Config 配置变更历史进行综合分析。异常检测通知可通过 SNS 主题或 EventBridge 配置,还可与 Slack 和 PagerDuty 等外部工具集成。

注意事项

  • Pricing is based on the number of analyzed AWS resources and API calls. Be mindful of costs in environments with many resources
  • The machine learning model takes 1-2 weeks to train, so detection accuracy may be lower immediately after activation
  • DevOps Guru detects and diagnoses problems but does not auto-remediate. The operations team must carry out the remediation actions
共有するXB!