Amazon Managed Grafana
オープンソースの Grafana をフルマネージドで提供し、CloudWatch、Prometheus、Timestream など 30 以上のデータソースを統合した運用ダッシュボードを構築するサービス
概要
Amazon Managed Grafana は、オープンソースの Grafana をフルマネージドで提供する可視化・モニタリングサービスです。サーバーの構築やバージョンアップが不要で、IAM Identity Center (旧 SSO) や SAML 2.0 による認証統合、VPC 内データソースへのプライベート接続、ワークスペース単位のマルチテナント分離を標準で備えています。Grafana のプラグインエコシステムをそのまま活用でき、CloudWatch、Amazon Managed Service for Prometheus、Timestream、X-Ray、Athena、Redshift など 30 以上のデータソースに接続できます。
ワークスペースの設計とデータソース接続
Managed Grafana のワークスペースは、独立した Grafana インスタンスに相当します。チーム別、環境別 (本番/開発)、プロジェクト別にワークスペースを分離することで、アクセス制御とダッシュボードの管理を整理できます。データソースの接続は AWS データソース設定機能で自動化でき、CloudWatch や Prometheus のデータソースをワンクリックで追加できます。IAM ロールベースの認証により、データソースごとにアクセスキーを管理する必要がありません。VPC 内のデータソース (RDS、OpenSearch、自前の Prometheus サーバーなど) に接続する場合は、VPC エンドポイント接続を設定します。クロスアカウントのデータソースにも対応しており、Organizations 内の複数アカウントの CloudWatch メトリクスを 1 つのダッシュボードに集約できます。Grafana のアラート機能で閾値超過を検知し、SNS、PagerDuty、Slack に通知を送信するワークフローも構築可能です。ワークスペースの料金はアクティブユーザー 1 人あたり月額 9 USD (Editor) または 5 USD (Viewer) で、ユーザー数に応じたスケーラブルな課金モデルです。
Prometheus メトリクスの可視化パイプライン
Managed Grafana と Amazon Managed Service for Prometheus (AMP) の組み合わせは、Kubernetes 環境のモニタリングにおける標準構成です。EKS クラスター上の Prometheus エージェント (AWS Distro for OpenTelemetry または Prometheus サーバーのリモートライト) がメトリクスを AMP に送信し、Managed Grafana が AMP をデータソースとしてダッシュボードを描画します。Grafana のテンプレート変数を活用すれば、クラスター、名前空間、Pod を動的に切り替えられるインタラクティブなダッシュボードを構築できます。PromQL (Prometheus Query Language) による柔軟なクエリで、CPU 使用率のパーセンタイル、メモリの増加トレンド、リクエストレートの異常検知などを表現します。Grafana のダッシュボードは JSON でエクスポート/インポートできるため、Terraform や CloudFormation でダッシュボードの定義をコード管理し、環境間で一貫したモニタリング構成を維持できます。コミュニティが公開しているダッシュボードテンプレート (Kubernetes クラスター概要、Node Exporter、NGINX Ingress など) をインポートすれば、ゼロからダッシュボードを構築する手間を省けます。
CloudWatch との統合と運用ダッシュボードの実践
CloudWatch ダッシュボードと Managed Grafana のどちらを使うかは、運用チームのニーズで決まります。CloudWatch ダッシュボードは AWS コンソール内で完結し、追加コストなしで基本的なメトリクス可視化が可能です。一方、Managed Grafana は複数のデータソースを 1 つのダッシュボードに統合できる点が決定的な強みです。CloudWatch のメトリクス、Prometheus のコンテナメトリクス、Timestream の IoT データ、Athena のビジネスメトリクスを 1 枚のダッシュボードに並べて表示し、インフラからビジネスまでの全体像を俯瞰できます。実務で効果的なダッシュボード設計として、3 層構造が推奨されます。第 1 層はエグゼクティブ向けのサマリー (SLA 達成率、エラー率、主要 KPI)、第 2 層はチーム向けのサービス別詳細 (レイテンシ分布、スループット、リソース使用率)、第 3 層はトラブルシューティング用の詳細メトリクス (個別インスタンス、ログ相関) です。Grafana のフォルダとチーム機能でダッシュボードを整理し、ロールベースのアクセス制御で各層の閲覧権限を管理します。