Amazon DevOps Guru 専門
機械学習でアプリケーションの運用上の問題を自動検出・診断するサービス
何ができるか
Amazon DevOps Guru は、機械学習を使って AWS リソースの運用メトリクスを分析し、アプリケーションのパフォーマンス低下や障害の兆候を自動的に検出するサービスです。CloudWatch メトリクス、CloudTrail ログ、AWS Config の変更履歴などを統合的に分析し、問題の根本原因と推奨される対処法を提示します。
どのような場面で使うか
本番環境のアプリケーションで発生するレイテンシの増加やエラー率の上昇の早期検知、デプロイ後の異常動作の自動検出、Lambda 関数のタイムアウトや DynamoDB のスロットリングなど AWS サービス固有の問題の診断に活用されています。
身近な例え
経験豊富なシステム管理者に例えるとわかりやすいでしょう。サーバーの各種メーターを常に監視し、「この CPU 使用率の上がり方は普段と違う。昨日のデプロイが原因かもしれない」と異常の兆候を察知して、原因と対処法を教えてくれます。
Amazon DevOps Guru とは
Amazon DevOps Guru は、AWS 環境で稼働するアプリケーションの運用上の問題を機械学習で自動検出するサービスです。従来、運用チームは CloudWatch のダッシュボードを監視し、アラームを設定し、問題発生時にログを手動で調査していました。DevOps Guru はこれらの作業を自動化し、異常なパターンを検出すると根本原因の分析結果と推奨アクションを提示します。運用チームの負荷を軽減し、問題の早期解決を支援します。
インサイトと推奨アクション
DevOps Guru が異常を検出すると「インサイト」として報告されます。インサイトにはリアクティブインサイト (既に発生している問題) とプロアクティブインサイト (将来問題になりそうな兆候) の 2 種類があります。各インサイトには関連するメトリクスの異常グラフ、影響を受けるリソースの一覧、推奨される対処法が含まれます。たとえば「DynamoDB テーブルの読み取りキャパシティが不足している。オンデマンドモードへの切り替えを検討してください」のような具体的な提案が示されます。
カバレッジと通知
DevOps Guru の分析対象は、AWS アカウント全体、特定の CloudFormation スタック、または特定のタグが付いたリソースから選択できます。対象リソースの CloudWatch メトリクス、CloudTrail の API コールログ、Config の設定変更履歴を統合的に分析します。異常検出時の通知は SNS トピックや EventBridge 経由で設定でき、Slack や PagerDuty などの外部ツールとも連携できます。
注意点
- 料金は分析対象の AWS リソース数と API コール数に基づいて課金される。リソース数が多い環境ではコストに注意
- 機械学習モデルの学習に 1-2 週間程度かかるため、有効化直後は検出精度が低い場合がある
- DevOps Guru は問題の検出と診断を行うが、自動修復は行わない。修復アクションは運用チームが実施する必要がある
この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。