AWS Auto Scaling で実現する需要追従型インフラ - スケーリングポリシーの設計と最適化

ターゲット追跡・予測・スケジュールドの 3 種類のポリシーを使い分け、混合インスタンスポリシーでスポットを活用したコスト最適化を実現する手法を紹介します。

約 3 分で読めます最終更新: 2026-05-07

Auto Scaling の概要

Auto Scaling はリソースを需要に応じて自動的にスケーリングするサービスです。トラフィックが増加するとインスタンスを追加し、減少すると削除します。過剰プロビジョニングによるコスト浪費と、不足によるパフォーマンス低下の両方を防止します。ターゲット追跡、ステップ、予測の 3 種類のスケーリングポリシーを提供し、ワークロードの特性に応じて使い分けます。Auto Scaling は EC2 だけでなく、ECS サービス、DynamoDB テーブル、Aurora レプリカ、SageMaker エンドポイントなど幅広いリソースに適用できますが、本記事では最も一般的な EC2 Auto Scaling Group に焦点を当てます。

スケーリングポリシーの設計

ターゲット追跡スケーリングは最も推奨されるポリシーで、CPU 使用率 70% や ALB リクエスト数 1000/分などの目標値を設定するだけで、Auto Scaling が自動的にキャパシティを調整します。内部的にはスケールアウト用とスケールイン用の 2 つの CloudWatch Alarm を自動生成し、メトリクスが目標値から乖離すると段階的にインスタンスを増減します。予測スケーリングは過去 14 日間のトラフィックパターンを ML で分析し、将来の需要を予測してスケジュールベースでキャパシティを事前確保します。毎朝 9 時にトラフィックが急増するパターンでは、8:50 にスケールアウトを開始します。ウォームプールは AMI からの起動とアプリケーションの初期化を事前に完了したインスタンスを待機させ、スケールアウト時に即座にサービスインさせます。ステップスケーリングはメトリクスの逸脱度合いに応じて異なるスケーリング量を設定でき、CPU 70% 超で 1 台追加、90% 超で 3 台追加といった段階的対応に適しています。

予測スケーリングとスケジュールドスケーリング

予測スケーリングは過去 14 日間のメトリクスパターンを機械学習で分析し、将来の需要を予測してスケーリングアクションを事前に実行します。ターゲット追跡ポリシーの反応遅延 (メトリクス収集からインスタンス起動完了まで数分) を補完し、急激なトラフィック増加にも対応できます。スケジュールドスケーリングは、毎日の営業時間開始前やセール開始時刻など、予測可能な需要変動に対して事前にキャパシティを確保します。予測スケーリングとスケジュールドスケーリングを組み合わせ、定常的なパターンは予測で、イベント的な需要はスケジュールでカバーする設計が効果的です。予測スケーリングには forecast only モードがあり、まずは実際のスケーリングを行わず予測精度だけを確認してから本番有効化する段階的導入が可能です。スケーリングの設計と構築を深く理解するには、専門書籍 (Amazon)が役立ちます。

Auto Scaling のコスト最適化

Auto Scaling グループでスポットインスタンスと混合インスタンスポリシーを活用すると、オンデマンド比で最大 90% のコスト削減が可能です。複数のインスタンスタイプを指定し、キャパシティ最適化の配分戦略でスポットの中断リスクを分散します。最小キャパシティをオンデマンドで確保し、超過分をスポットで賄う構成が安定性とコストのバランスに優れています。ウォームプールを設定すると、事前に初期化済みのインスタンスをプールしておき、スケールアウト時の起動時間を短縮できます。CloudWatch のカスタムメトリクス (キューの深さ、アクティブ接続数) をスケーリングポリシーに使用し、CPU 使用率だけに頼らない精度の高いスケーリングを実現します。

設計の落とし穴とアンチパターン

Auto Scaling の設計で頻出する問題を把握しておくことで、本番障害を回避できます。第一に、スケールインが速すぎて進行中のリクエストが中断される問題があります。これは ALB のデレジストレーション遅延 (connection draining) をデフォルトの 300 秒から適切に設定し、インスタンスのライフサイクルフックで graceful shutdown を実装することで対処します。第二に、ヘルスチェックの設計ミスがあります。EC2 ステータスチェックだけでは「OS は正常だがアプリケーションがフリーズ」した状態を検出できないため、ELB ヘルスチェックを有効化し、アプリケーションレベルの /health エンドポイントで判定させます。第三に、スケールアウトとスケールインの閾値を対称に設定すると、メトリクスが閾値付近で振動するフラッピングが発生します。スケールイン閾値はスケールアウト閾値より十分に低く (例: アウト 70%、イン 40%) 設定し、スケールインのクールダウンを長め (300 秒以上) にします。第四に、単一 AZ でのスケーリングは可用性の観点で脆弱です。必ず複数 AZ に分散し、AZ リバランシングを有効化します。

Kubernetes HPA/Karpenter との使い分け

コンテナワークロードでは、EC2 Auto Scaling の代わりに EKS の Horizontal Pod Autoscaler (HPA) + Karpenter (ノードオートスケーラー) が選択肢になります。HPA は Pod レベルの水平スケーリングを行い、Karpenter は Pod のリソース要求に基づいて適切なインスタンスタイプのノードを自動プロビジョニングします。EC2 Auto Scaling は事前にインスタンスタイプの候補リストを定義する必要がありますが、Karpenter は Pod の要件から最適なインスタンスを動的に選択するためインスタンス選定の手間が削減されます。一方、EC2 Auto Scaling は非コンテナワークロード (AMI ベースのアプリケーション、GPU ワークロード) に適しており、ウォームプールや予測スケーリングなど EKS にはない機能を持ちます。Lambda は完全にマネージドでスケーリング設計が不要ですが、実行時間 15 分の制限や VPC 接続時のコールドスタートなどの制約があるため、長時間処理やステートフルなワークロードには EC2 Auto Scaling が適切です。

まとめ

Auto Scaling はターゲット追跡、ステップ、予測の 3 種類のスケーリングポリシーで需要に追従するインフラを構築します。予測スケーリングの forecast only モードで精度を確認してから本番化し、混合インスタンスポリシーでスポットインスタンスを活用してコストを最適化します。デレジストレーション遅延、ELB ヘルスチェック、非対称閾値の設定でフラッピングや中断を防止し、安定した運用を実現します。

Auto Scaling はなぜスケールアウトは速く、スケールインは慎重なのか - 非対称な判断ロジックの設計意図EC2 Auto Scaling がスケールアウトを即座に実行する一方でスケールインに冷却期間を設ける非対称な設計の理由、フラッピング防止の仕組み、ターゲット追跡スケーリングの内部ロジックを解説します。AWS の障害ドメイン設計 - AZ・リージョン・パーティションの 3 層構造が守る可用性の仕組みAWS のインフラが AZ (障害隔離)、リージョン (地理的分離)、パーティション (政治的分離) の 3 層で設計されている理由と、各層の障害がどこまで波及するかを具体的な事例とともに解説します。AWS 障害から学ぶ分散システムの原則 - 過去の大規模障害が変えたアーキテクチャS3 障害 (2017)、Kinesis 障害 (2020)、us-east-1 の特殊性など、AWS が公開した障害レポートを題材に、Shuffle Sharding、Static Stability、Cell-based Architecture といった設計原則を解説します。AWS はなぜそこにリージョンを建てるのか - データセンター立地選定の知られざる判断基準AWS がリージョンの立地を決定する際に考慮する電力供給、地政学リスク、データ主権法制、ネットワーク接続性、自然災害リスクなどの判断基準を、具体的なリージョンの事例とともに解説します。AWS の Availability Zone ID はなぜアカウントごとに異なるのか - AZ マッピングの設計意図us-east-1a がアカウントごとに異なる物理 AZ を指す仕組み、AZ ID (use1-az1) が導入された背景、キャパシティの均等分散という設計意図、クロスアカウントでの AZ 指定の注意点を解説します。バッチコンピューティング基盤 - AWS Batch で実現する大規模並列処理AWS Batch を活用した大規模バッチ処理の構築方法を解説します。ジョブキュー、コンピューティング環境の自動スケーリング、Spot インスタンスによるコスト最適化など、科学計算や大規模データ処理に最適なバッチ基盤の設計を紹介します。放送品質ライブ配信 - AWS Elemental MediaLive と MediaPackage で大規模配信基盤を構築するAWS Elemental MediaLive と MediaPackage を使った放送品質のライブ配信基盤を解説。リアルタイムトランスコード、DRM、広告挿入、マルチ CDN 配信を紹介します。AWS Deadline Cloud でマネージドレンダーファームを構築 - VFX レンダリングのクラウド移行Deadline Cloud によるレンダーファームの構築、ジョブスケジューリング、スポットインスタンスによるコスト最適化を解説します。

Auto Scaling の概要

スケーリングポリシーの設計

予測スケーリングとスケジュールドスケーリング

Auto Scaling のコスト最適化

設計の落とし穴とアンチパターン

Kubernetes HPA/Karpenter との使い分け

まとめ

関連するサービス

関連する記事

同じテーマの記事

内容が近い記事・サービス