Infraestructura de computación por lotes - Procesamiento paralelo a gran escala con AWS Batch

Explicamos cómo construir procesamiento por lotes a gran escala con AWS Batch. Cubrimos el diseño de colas de trabajos, auto-escalado de entornos de cómputo, optimización de costos con instancias Spot y la construcción de infraestructura de lotes ideal para computación científica y procesamiento de datos a gran escala.

約 7 分で読めます最終更新: 2026-05-22

Desafíos del procesamiento por lotes y posicionamiento de AWS Batch

El procesamiento por lotes a gran escala es indispensable en muchos campos como computación científica, análisis de riesgo financiero, transcodificación de medios, entrenamiento de machine learning y análisis genómico. Construir infraestructura de procesamiento por lotes on-premises requiere gestionar clústeres HPC, planificadores de trabajos y aprovisionamiento de capacidad, con altos costos operativos. AWS Batch elimina esta complejidad proporcionando un servicio completamente gestionado que programa y ejecuta trabajos por lotes automáticamente, escalando los recursos de cómputo según la demanda.

Diseño de definiciones de trabajo y entornos de cómputo

Las definiciones de trabajo de AWS Batch describen declarativamente la imagen de contenedor a ejecutar, requisitos de vCPU y memoria, variables de entorno, puntos de montaje y estrategia de reintentos. La ejecución de trabajos basada en contenedores Docker garantiza la reproducibilidad del entorno de ejecución y facilita las pruebas locales. Los entornos de cómputo se configuran con tipos de instancia, capacidad mínima/máxima y estrategia de asignación. El entorno gestionado escala automáticamente las instancias según la cola de trabajos, eliminando la necesidad de gestión manual de capacidad.

Optimización de costos con instancias Spot

La combinación de AWS Batch con instancias EC2 Spot es un medio poderoso para reducir los costos de procesamiento por lotes hasta en un 90%. Las instancias Spot utilizan la capacidad excedente de EC2 a precios significativamente reducidos. AWS Batch soporta nativamente instancias Spot en los entornos de cómputo, con estrategias de asignación como BEST_FIT_PROGRESSIVE que seleccionan automáticamente los tipos de instancia más económicos. Para trabajos tolerantes a interrupciones, los mecanismos de checkpoint y reintento permiten continuar el procesamiento incluso cuando se recuperan instancias Spot.

Dependencias de trabajos y construcción de flujos de trabajo

AWS Batch permite definir dependencias entre trabajos para construir flujos de trabajo complejos. Soporta ejecución secuencial donde un trabajo comienza después de que otro se complete, patrones fan-in donde un trabajo de agregación se ejecuta después de que múltiples trabajos se completen, y patrones fan-out donde un trabajo genera múltiples trabajos paralelos. Los array jobs permiten ejecutar hasta 10,000 trabajos paralelos con una sola definición, ideal para barridos de parámetros y procesamiento de datos particionados. La integración con Step Functions permite orquestar flujos de trabajo más complejos con lógica condicional y manejo de errores.

Contexto técnico y filosofía de diseño de la computación por lotes

La filosofía de diseño de la computación por lotes se basa en la gestión elástica de recursos: asegurar grandes cantidades de recursos de cómputo solo cuando se necesitan y liberarlos inmediatamente al completar el procesamiento. AWS Batch encarna esta filosofía, proporcionando escalado automático que se adapta a la demanda de trabajos sin mantener recursos ociosos. Esta elasticidad es fundamentalmente diferente de la infraestructura HPC tradicional que mantiene clústeres fijos.

Trampas operativas y elección entre servicios relacionados

Organizamos los puntos que se pasan por alto fácilmente al operar AWS Batch. Primero, el diseño de checkpoints para interrupciones de Spot. Los trabajos de larga duración deben escribir periódicamente el progreso intermedio en S3 e implementar lógica para reanudar desde el checkpoint en el reintento; de lo contrario, cada interrupción obliga a reiniciar desde el principio. Segundo, la configuración de maxvCpus del entorno de cómputo. Si es demasiado baja, los trabajos quedan en estado RUNNABLE esperando recursos; si es demasiado alta, la escasez de capacidad Spot causa estancamiento. Se recomienda configurar entre 1.2 y 1.5 veces el paralelismo pico. Tercero, el throttling de pull de imágenes de ECR cuando muchos trabajos inician simultáneamente. Configure endpoints VPC (PrivateLink) para ECR y mantenga las imágenes ligeras mediante builds multi-stage (objetivo por debajo de unos cientos de MB) para reducir el tiempo de inicio. Cuarto, no configurar attemptDurationSeconds. Sin esta configuración, los trabajos colgados esperan hasta el timeout en cada reintento, degradando el throughput general de la cola. Quinto, los límites de tasa de solicitudes de S3 (5,500 GET/segundo por prefijo) al pasar datos intermedios entre trabajos vía S3. Diseñe con prefijos distribuidos para evitar este cuello de botella. La elección entre servicios relacionados es igualmente importante. Lambda es adecuado para procesamiento ligero dentro de 15 minutos de ejecución y 10 GB de memoria, iniciándose instantáneamente vía triggers de eventos. Step Functions sobresale en la orquestación de múltiples servicios con ramificación condicional y manejo de errores, cubriendo control de flujo complejo que el dependsOn de AWS Batch no puede expresar por sí solo. ParallelCluster construye clústeres HPC basados en Slurm, adecuado para migrar aplicaciones MPI existentes o cargas de trabajo dominadas por comunicación inter-nodo estrechamente acoplada (dinámica molecular, simulación meteorológica). AWS Batch es óptimo para la ejecución masivamente paralela de tareas independientes containerizadas (embarrassingly parallel). En la práctica, el patrón típico es EventBridge para triggers, Step Functions para control de flujo de trabajo y AWS Batch para descargar pasos de computación paralela pesada.

Resumen - Elección de plataforma de computación por lotes

AWS Batch es un servicio que ejecuta procesamiento por lotes a gran escala de forma completamente gestionada, proporcionando de manera integral la programación de trabajos, el auto-escalado de recursos de cómputo y la optimización de costos con instancias Spot. Para cargas de trabajo que requieren procesamiento paralelo masivo, AWS Batch ofrece la combinación óptima de simplicidad operativa y eficiencia de costos. Para profundizar en diseño de procesamiento por lotes, los libros relacionados (Amazon) también pueden ser útiles.

Por qué Auto Scaling escala rápido hacia afuera y es cauteloso al reducir - Intención de diseño de la lógica de decisión asimétricaExplica la razón del diseño asimétrico de EC2 Auto Scaling que ejecuta el scale-out inmediatamente mientras establece un período de enfriamiento para el scale-in, el mecanismo de prevención de flapping y la lógica interna del Target Tracking Scaling.Infraestructura adaptable a la demanda con AWS Auto Scaling - Diseño y optimización de políticas de escaladoPresenta cómo utilizar los 3 tipos de políticas (Target Tracking, Predictive y Scheduled) y lograr la optimización de costos con instancias Spot mediante Mixed Instances Policy.Diseño de dominios de fallo en AWS - El mecanismo de disponibilidad protegido por la estructura de 3 capas AZ, región y particiónExplicamos por qué la infraestructura de AWS está diseñada en 3 capas: AZ (aislamiento de fallos), región (separación geográfica) y partición (separación política), y hasta dónde se propagan los fallos en cada capa con ejemplos concretos.Principios de sistemas distribuidos aprendidos de las interrupciones de AWS - Arquitecturas transformadas por grandes incidentesUsando como material los informes de incidentes publicados por AWS, como la interrupción de S3 (2017), la interrupción de Kinesis (2020) y la particularidad de us-east-1, explicamos principios de diseño como Shuffle Sharding, Static Stability y Cell-based Architecture.Por qué AWS construye regiones allí - Los criterios desconocidos de selección de ubicación de centros de datosExplicamos los criterios de decisión que AWS considera al determinar la ubicación de regiones, como suministro eléctrico, riesgo geopolítico, legislación de soberanía de datos, conectividad de red y riesgo de desastres naturales, con ejemplos concretos de regiones.Por qué los Availability Zone ID de AWS difieren por cuenta - La intención de diseño detrás del mapeo de AZExplicamos cómo us-east-1a apunta a diferentes AZ físicas por cuenta, por qué se introdujeron los AZ ID (use1-az1), la intención de diseño de distribución uniforme de capacidad y las consideraciones para la especificación de AZ entre cuentas.Streaming en vivo con calidad broadcast - Construcción de plataforma de distribución a gran escala con AWS Elemental MediaLive y MediaPackageExplicamos cómo construir una plataforma de streaming en vivo con calidad broadcast usando AWS Elemental MediaLive y MediaPackage. Cubrimos transcodificación en tiempo real, DRM, inserción de anuncios y distribución multi-CDN.Construcción de render farm administrado con AWS Deadline Cloud - Migración de renderizado VFX a la nubeExplicamos la construcción de render farms con Deadline Cloud, la programación de trabajos y la optimización de costos mediante instancias Spot.

Desafíos del procesamiento por lotes y posicionamiento de AWS Batch

Diseño de definiciones de trabajo y entornos de cómputo

Optimización de costos con instancias Spot

Dependencias de trabajos y construcción de flujos de trabajo

Contexto técnico y filosofía de diseño de la computación por lotes

Trampas operativas y elección entre servicios relacionados

Resumen - Elección de plataforma de computación por lotes

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares