AWS Health Dashboard で構築するインシデント管理 - 障害通知の自動化と影響分析
Health Dashboard によるサービス障害の検知、EventBridge 連携による自動通知、Organizations 統合による組織全体の影響分析を解説します。
Health Dashboard の 2 つのビュー
Health Dashboard はサービスヘルスとアカウントヘルスの 2 つのビューを提供します。サービスヘルスは AWS サービス全体の稼働状況を表示し、リージョンごとのサービス障害を確認できます。アカウントヘルスは自分のアカウントに影響するイベントのみを表示し、EC2 インスタンスのメンテナンス予定、RDS の計画的フェイルオーバー、EBS ボリュームの障害通知など、具体的なリソースに紐づいた情報を提供します。アカウントヘルスのイベントは影響を受けるリソースの ARN が含まれるため、対応が必要なリソースを即座に特定できます。
この分野について体系的に学びたい方は、関連書籍 (Amazon) も参考になります。
EventBridge 連携による自動通知
Health イベントは EventBridge に自動送信されるため、イベントルールで特定のイベントタイプをフィルタリングし、Lambda や SNS にルーティングできます。EC2 のメンテナンス通知を Slack チャネルに自動投稿し、影響を受けるインスタンスの一覧を添付するワークフローが典型的です。Lambda 関数で Health イベントを受け取り、影響を受けるインスタンスを Auto Scaling グループから一時的に除外し、メンテナンス完了後に復帰させる自動対応も実装可能です。AWS Chatbot と組み合わせると、Slack チャネルに Health イベントのリッチな通知が自動投稿されます。
Organizations 統合と組織全体の監視
Organizations の Health API (Organizational View) を有効にすると、組織内の全アカウントの Health イベントを管理アカウントまたは委任管理者アカウントから集約して確認できます。数百のアカウントを運用する大規模組織では、個別アカウントの Health Dashboard を確認するのは非現実的です。Organizational View で全アカウントのイベントを一元監視し、影響範囲の大きいイベントを優先的に対応します。EventBridge ルールで組織全体の Health イベントを集約し、セキュリティチームや運用チームに一括通知する構成が推奨されます。
さらに詳しく知りたい方は、関連書籍 (Amazon) で理解を深められます。
まとめ
Health Dashboard は AWS サービスの障害とアカウント固有のイベントをリアルタイムに通知するサービスです。EventBridge 連携で自動通知と自動対応を構築し、Organizations 統合で組織全体の影響を一元監視します。インシデント管理の基盤として、全 AWS 環境で活用すべきサービスです。
AWS の優位点
- アカウント固有のイベント (EC2 のメンテナンス、RDS のフェイルオーバー) をリアルタイムに通知し、影響を受けるリソースを特定できる
- EventBridge との統合で Health イベントを Lambda や SNS にルーティングし、Slack 通知や自動対応ワークフローを構築できる
- Organizations の Health API で組織内の全アカウントの Health イベントを集約し、委任管理者から一元監視できる
- 計画的メンテナンスの事前通知で、影響を受けるリソースの移行やフェイルオーバーを事前に準備できる
- サービスイベント履歴で過去の AWS サービス障害の詳細と影響範囲を確認し、インシデントレポートの作成に活用できる