Por qué Auto Scaling escala rápido hacia afuera y es cauteloso al reducir - Intención de diseño de la lógica de decisión asimétrica

Explica la razón del diseño asimétrico de EC2 Auto Scaling que ejecuta el scale-out inmediatamente mientras establece un período de enfriamiento para el scale-in, el mecanismo de prevención de flapping y la lógica interna del Target Tracking Scaling.

約 7 分で読めます最終更新: 2025-09-25

Asimetría entre scale-out y scale-in

En la configuración predeterminada de EC2 Auto Scaling, el período de enfriamiento del scale-out (adición de instancias) es 0 segundos (ejecución inmediata), mientras que el del scale-in (eliminación de instancias) es 300 segundos (5 minutos). Esta configuración asimétrica tiene una intención de diseño clara. Si el scale-out se retrasa, afecta directamente a los usuarios. Si el tráfico aumenta bruscamente y no se agregan instancias, el tiempo de respuesta se degrada y, en el peor caso, el servicio se cae. Por lo tanto, el scale-out debe ejecutarse lo más rápido posible. Por otro lado, si el scale-in es demasiado rápido, se produce flapping (repetición frecuente de scale-out y scale-in). Se repite un ciclo inútil donde el tráfico disminuye temporalmente, se eliminan instancias, e inmediatamente el tráfico aumenta de nuevo requiriendo agregar instancias. Como el inicio de instancias toma varios minutos, el flapping causa simultáneamente degradación del rendimiento y aumento de costos.

Mecanismo del período de enfriamiento (Cooldown)

El período de enfriamiento es el tiempo durante el cual se suprime la siguiente acción de escalado después de ejecutar una acción. Durante el período de enfriamiento del scale-out, se suprime el scale-out adicional pero se puede ejecutar el scale-in. Inversamente, durante el período de enfriamiento del scale-in, se suprime el scale-in adicional pero se puede ejecutar el scale-out. Este diseño evita la situación de que se necesite scale-out pero no se pueda ejecutar porque está en período de enfriamiento de scale-in. El valor óptimo del período de enfriamiento varía según las características de la carga de trabajo. Si el tiempo desde el inicio de una instancia EC2 hasta pasar el health check del ELB es 3 minutos, el período de enfriamiento del scale-out debe configurarse en 3 minutos o más. Si el período de enfriamiento es demasiado corto, se juzga que aún no es suficiente cuando las nuevas instancias aún no están procesando tráfico, causando un scale-out excesivo. Al usar políticas de Target Tracking Scaling, el período de enfriamiento se gestiona automáticamente, por lo que no es necesaria la configuración manual.

Lógica interna del Target Tracking Scaling

Target Tracking Scaling es la política de escalado más recomendada que ajusta automáticamente el número de instancias para mantener el valor objetivo de una métrica especificada. Por ejemplo, al configurar el objetivo de uso de CPU en 50%, Auto Scaling aumenta o disminuye el número de instancias para mantener el uso de CPU en 50%. Internamente, Target Tracking Scaling opera con un algoritmo similar a un controlador PID (control proporcional-integral-derivativo). Calcula el número de instancias necesarias basándose en la diferencia (desviación) entre el valor actual de la métrica y el valor objetivo. Cuanto mayor es la desviación, más instancias se agregan o eliminan a la vez. Una característica importante del Target Tracking Scaling es que crea internamente alarmas diferentes para scale-out y scale-in. La alarma de scale-out se activa cuando el umbral se supera 3 veces consecutivas en un período de evaluación de 3 minutos, y la alarma de scale-in se activa cuando el umbral se mantiene por debajo 15 veces consecutivas en un período de evaluación de 15 minutos. Este período de evaluación asimétrico es lo que logra el scale-out rápido y el scale-in cauteloso.

Lógica de selección de instancias eliminadas en scale-in

Cuando se ejecuta un scale-in, qué instancia se elimina se determina según la política de terminación predeterminada. La lógica predeterminada tiene 3 etapas. Primero, se selecciona la AZ con más instancias. Esto mantiene el balance del número de instancias entre AZs. Segundo, dentro de esa AZ, se selecciona la instancia que usa la Launch Configuration o Launch Template más antigua. Esto prioriza la eliminación de instancias con configuración antigua, promoviendo la migración a la nueva configuración. Tercero, si hay múltiples instancias con la misma Launch Configuration, se selecciona la instancia más cercana al siguiente período de facturación. Con la introducción de la facturación por segundo de EC2, el significado práctico de este criterio se ha reducido, pero la lógica permanece. También es posible configurar políticas de terminación personalizadas. Se pueden seleccionar políticas como NewestInstance (eliminar la instancia más nueva), OldestInstance (eliminar la instancia más antigua) y ClosestToNextInstanceHour (eliminar la instancia más cercana al siguiente período de facturación).

Predictive Scaling - Predecir el futuro a partir de patrones pasados

Predictive Scaling, introducido en 2021, es una función que analiza los patrones de tráfico de los últimos 14 días con machine learning, predice el tráfico futuro y aprovisiona instancias de antemano. Por ejemplo, si hay un patrón de aumento brusco de tráfico cada mañana a las 9, Predictive Scaling comienza a agregar instancias alrededor de las 8:50 para prepararse para el pico de las 9. Con el escalado reactivo (agregar instancias después de que el tráfico aumenta), el inicio de instancias y el registro en el ELB toman varios minutos, por lo que el rendimiento se degrada al inicio del pico de tráfico. Predictive Scaling llena esta brecha. Se recomienda usar Predictive Scaling en combinación con Target Tracking Scaling. Predictive Scaling aprovisiona de antemano la línea base esperada, y Target Tracking Scaling responde a las variaciones inesperadas, siendo esta la división de roles. La precisión de predicción de Predictive Scaling depende de la regularidad de los patrones de tráfico. Se obtiene alta precisión en cargas de trabajo que repiten el mismo patrón diariamente, pero las predicciones pueden fallar con patrones de tráfico irregulares. Para aprender sistemáticamente los patrones de diseño de escalado, los libros especializados en Amazon son una referencia útil.

Infraestructura adaptable a la demanda con AWS Auto Scaling - Diseño y optimización de políticas de escaladoPresenta cómo utilizar los 3 tipos de políticas (Target Tracking, Predictive y Scheduled) y lograr la optimización de costos con instancias Spot mediante Mixed Instances Policy.Diseño de dominios de fallo en AWS - El mecanismo de disponibilidad protegido por la estructura de 3 capas AZ, región y particiónExplicamos por qué la infraestructura de AWS está diseñada en 3 capas: AZ (aislamiento de fallos), región (separación geográfica) y partición (separación política), y hasta dónde se propagan los fallos en cada capa con ejemplos concretos.Principios de sistemas distribuidos aprendidos de las interrupciones de AWS - Arquitecturas transformadas por grandes incidentesUsando como material los informes de incidentes publicados por AWS, como la interrupción de S3 (2017), la interrupción de Kinesis (2020) y la particularidad de us-east-1, explicamos principios de diseño como Shuffle Sharding, Static Stability y Cell-based Architecture.Por qué AWS construye regiones allí - Los criterios desconocidos de selección de ubicación de centros de datosExplicamos los criterios de decisión que AWS considera al determinar la ubicación de regiones, como suministro eléctrico, riesgo geopolítico, legislación de soberanía de datos, conectividad de red y riesgo de desastres naturales, con ejemplos concretos de regiones.Por qué los Availability Zone ID de AWS difieren por cuenta - La intención de diseño detrás del mapeo de AZExplicamos cómo us-east-1a apunta a diferentes AZ físicas por cuenta, por qué se introdujeron los AZ ID (use1-az1), la intención de diseño de distribución uniforme de capacidad y las consideraciones para la especificación de AZ entre cuentas.Infraestructura de computación por lotes - Procesamiento paralelo a gran escala con AWS BatchExplicamos cómo construir procesamiento por lotes a gran escala con AWS Batch. Cubrimos el diseño de colas de trabajos, auto-escalado de entornos de cómputo, optimización de costos con instancias Spot y la construcción de infraestructura de lotes ideal para computación científica y procesamiento de datos a gran escala.Streaming en vivo con calidad broadcast - Construcción de plataforma de distribución a gran escala con AWS Elemental MediaLive y MediaPackageExplicamos cómo construir una plataforma de streaming en vivo con calidad broadcast usando AWS Elemental MediaLive y MediaPackage. Cubrimos transcodificación en tiempo real, DRM, inserción de anuncios y distribución multi-CDN.Construcción de render farm administrado con AWS Deadline Cloud - Migración de renderizado VFX a la nubeExplicamos la construcción de render farms con Deadline Cloud, la programación de trabajos y la optimización de costos mediante instancias Spot.

Asimetría entre scale-out y scale-in

Mecanismo del período de enfriamiento (Cooldown)

Lógica interna del Target Tracking Scaling

Lógica de selección de instancias eliminadas en scale-in

Predictive Scaling - Predecir el futuro a partir de patrones pasados

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares