Infraestructura adaptable a la demanda con AWS Auto Scaling - Diseño y optimización de políticas de escalado

Presenta cómo utilizar los 3 tipos de políticas (Target Tracking, Predictive y Scheduled) y lograr la optimización de costos con instancias Spot mediante Mixed Instances Policy.

約 7 分で読めます最終更新: 2026-05-07

Descripción general de Auto Scaling

Auto Scaling es un servicio que escala automáticamente los recursos según la demanda. Agrega instancias cuando el tráfico aumenta y las elimina cuando disminuye. Previene tanto el desperdicio de costos por sobreaprovisionamiento como la degradación del rendimiento por insuficiencia. Proporciona 3 tipos de políticas de escalado: Target Tracking, Step y Predictive, que se utilizan según las características de la carga de trabajo. Auto Scaling no solo aplica a EC2, sino también a servicios ECS, tablas DynamoDB, réplicas Aurora y endpoints de SageMaker, aunque este artículo se enfoca en el caso más común: EC2 Auto Scaling Groups.

Diseño de políticas de escalado

Target Tracking Scaling es la política más recomendada, donde basta con configurar un valor objetivo como uso de CPU al 70% o 1000 solicitudes ALB/minuto para que Auto Scaling ajuste automáticamente la capacidad. Internamente genera automáticamente dos alarmas de CloudWatch (una para scale-out, otra para scale-in) y ajusta instancias gradualmente cuando las métricas se desvían del objetivo. Predictive Scaling analiza los patrones de tráfico de los últimos 14 días con ML, predice la demanda futura y reserva capacidad de forma anticipada. En patrones donde el tráfico aumenta bruscamente cada mañana a las 9, inicia el scale-out a las 8:50. Warm Pool mantiene instancias con el inicio desde AMI y la inicialización de la aplicación completados previamente, permitiendo ponerlas en servicio inmediatamente durante el scale-out. Step Scaling permite configurar diferentes cantidades de escalado según el grado de desviación de la métrica, como agregar 1 instancia sobre 70% CPU y 3 instancias sobre 90%, siendo ideal para respuestas graduales.

Predictive Scaling y Scheduled Scaling

Predictive Scaling analiza los patrones de métricas de los últimos 14 días con machine learning, predice la demanda futura y ejecuta acciones de escalado de forma anticipada. Complementa el retraso de reacción de las políticas Target Tracking (varios minutos desde la recopilación de métricas hasta la finalización del inicio de instancias), permitiendo responder a aumentos bruscos de tráfico. Scheduled Scaling reserva capacidad de forma anticipada para variaciones de demanda predecibles como antes del inicio del horario laboral diario o la hora de inicio de una venta. Es efectivo combinar Predictive y Scheduled Scaling, cubriendo los patrones regulares con predicción y la demanda por eventos con programación. Predictive Scaling ofrece un modo forecast-only que permite verificar la precisión de la predicción sin ejecutar escalado real, antes de habilitarlo en producción. Para comprender en profundidad el diseño y construcción de escalado, los libros especializados en Amazon son útiles.

Optimización de costos con Auto Scaling

Utilizando instancias Spot y Mixed Instances Policy en Auto Scaling Groups, se puede lograr una reducción de costos de hasta 90% comparado con On-Demand. Se especifican múltiples tipos de instancia y se distribuye el riesgo de interrupción de Spot con la estrategia de asignación de optimización de capacidad. Una configuración que asegura la capacidad mínima con On-Demand y cubre el exceso con Spot ofrece un buen balance entre estabilidad y costo. Configurar Warm Pool permite mantener instancias pre-inicializadas en un pool, reduciendo el tiempo de inicio durante el scale-out. Usar métricas personalizadas de CloudWatch (profundidad de cola, conexiones activas) en las políticas de escalado logra un escalado más preciso que no depende solo del uso de CPU.

Trampas de diseño y anti-patrones

Comprender los problemas comunes en el diseño de Auto Scaling ayuda a evitar incidentes en producción. Primero, un scale-in demasiado agresivo puede interrumpir solicitudes en curso. Esto se aborda configurando adecuadamente el retraso de desregistro del ALB (connection draining) desde los 300 segundos predeterminados e implementando apagado graceful mediante lifecycle hooks de instancia. Segundo, los errores en el diseño de health checks son frecuentes. Los status checks de EC2 por sí solos no detectan estados donde el OS está sano pero la aplicación está congelada; se debe habilitar el ELB health check con un endpoint de aplicación /health. Tercero, configurar umbrales simétricos de scale-out y scale-in causa flapping cuando las métricas oscilan cerca del umbral. El umbral de scale-in debe ser sustancialmente menor que el de scale-out (ej: out al 70%, in al 40%) y usar un cooldown de scale-in más largo (300 segundos o más). Cuarto, escalar en una sola AZ es frágil para la disponibilidad; siempre distribuya en múltiples AZs y habilite el rebalanceo de AZ.

Elección entre Kubernetes HPA/Karpenter y EC2 Auto Scaling

Para cargas de trabajo en contenedores, EKS Horizontal Pod Autoscaler (HPA) + Karpenter (autoscaler de nodos) es una alternativa a EC2 Auto Scaling. HPA realiza escalado horizontal a nivel de Pod, y Karpenter aprovisiona automáticamente nodos con tipos de instancia apropiados basándose en las solicitudes de recursos de los Pods. EC2 Auto Scaling requiere predefinir una lista de tipos de instancia candidatos, mientras que Karpenter selecciona dinámicamente la instancia óptima según los requisitos del Pod, reduciendo el esfuerzo de selección de instancias. Por otro lado, EC2 Auto Scaling es más adecuado para cargas de trabajo sin contenedores (aplicaciones basadas en AMI, workloads GPU) y ofrece funcionalidades no disponibles en EKS como Warm Pool y Predictive Scaling. Lambda es completamente gestionado sin necesidad de diseño de escalado, pero tiene restricciones como el límite de 15 minutos de ejecución y la latencia de cold start con VPC, por lo que EC2 Auto Scaling es más apropiado para workloads de larga duración o con estado.

Resumen

Auto Scaling construye infraestructura que sigue la demanda con 3 tipos de políticas de escalado: Target Tracking, Step y Predictive. Verifique la precisión con el modo forecast-only de Predictive Scaling antes de habilitarlo en producción, y aproveche las instancias Spot mediante Mixed Instances Policy para optimizar costos. Prevenga el flapping y las interrupciones mediante la configuración del retraso de desregistro, ELB health checks y umbrales asimétricos para operaciones estables.

Por qué Auto Scaling escala rápido hacia afuera y es cauteloso al reducir - Intención de diseño de la lógica de decisión asimétricaExplica la razón del diseño asimétrico de EC2 Auto Scaling que ejecuta el scale-out inmediatamente mientras establece un período de enfriamiento para el scale-in, el mecanismo de prevención de flapping y la lógica interna del Target Tracking Scaling.Diseño de dominios de fallo en AWS - El mecanismo de disponibilidad protegido por la estructura de 3 capas AZ, región y particiónExplicamos por qué la infraestructura de AWS está diseñada en 3 capas: AZ (aislamiento de fallos), región (separación geográfica) y partición (separación política), y hasta dónde se propagan los fallos en cada capa con ejemplos concretos.Principios de sistemas distribuidos aprendidos de las interrupciones de AWS - Arquitecturas transformadas por grandes incidentesUsando como material los informes de incidentes publicados por AWS, como la interrupción de S3 (2017), la interrupción de Kinesis (2020) y la particularidad de us-east-1, explicamos principios de diseño como Shuffle Sharding, Static Stability y Cell-based Architecture.Por qué AWS construye regiones allí - Los criterios desconocidos de selección de ubicación de centros de datosExplicamos los criterios de decisión que AWS considera al determinar la ubicación de regiones, como suministro eléctrico, riesgo geopolítico, legislación de soberanía de datos, conectividad de red y riesgo de desastres naturales, con ejemplos concretos de regiones.Por qué los Availability Zone ID de AWS difieren por cuenta - La intención de diseño detrás del mapeo de AZExplicamos cómo us-east-1a apunta a diferentes AZ físicas por cuenta, por qué se introdujeron los AZ ID (use1-az1), la intención de diseño de distribución uniforme de capacidad y las consideraciones para la especificación de AZ entre cuentas.Infraestructura de computación por lotes - Procesamiento paralelo a gran escala con AWS BatchExplicamos cómo construir procesamiento por lotes a gran escala con AWS Batch. Cubrimos el diseño de colas de trabajos, auto-escalado de entornos de cómputo, optimización de costos con instancias Spot y la construcción de infraestructura de lotes ideal para computación científica y procesamiento de datos a gran escala.Streaming en vivo con calidad broadcast - Construcción de plataforma de distribución a gran escala con AWS Elemental MediaLive y MediaPackageExplicamos cómo construir una plataforma de streaming en vivo con calidad broadcast usando AWS Elemental MediaLive y MediaPackage. Cubrimos transcodificación en tiempo real, DRM, inserción de anuncios y distribución multi-CDN.Construcción de render farm administrado con AWS Deadline Cloud - Migración de renderizado VFX a la nubeExplicamos la construcción de render farms con Deadline Cloud, la programación de trabajos y la optimización de costos mediante instancias Spot.

Descripción general de Auto Scaling

Diseño de políticas de escalado

Predictive Scaling y Scheduled Scaling

Optimización de costos con Auto Scaling

Trampas de diseño y anti-patrones

Elección entre Kubernetes HPA/Karpenter y EC2 Auto Scaling

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares