Amazon EMR Serverless Especializado2022年〜
Un servicio sin servidor para ejecutar trabajos de Spark y Hive sin gestión de clústeres
Qué hace
Amazon EMR Serverless le permite ejecutar trabajos de Apache Spark y Hive sin gestionar clústeres ni servidores. Aprovisiona y escala automáticamente los recursos de cómputo necesarios para sus trabajos. Solo paga por los recursos consumidos durante la ejecución del trabajo, sin costos de inactividad del clúster.
Casos de uso
Se utiliza para trabajos ETL ad-hoc, análisis de datos exploratorio, procesamiento por lotes programado, transformación de datos para lagos de datos, y cualquier carga de trabajo Spark o Hive donde no quiera gestionar la infraestructura del clúster.
Analogía cotidiana
Piense en ello como un servicio de taxi para procesamiento de datos. En lugar de comprar y mantener un autobús (clúster EMR), simplemente llama un taxi (EMR Serverless) cuando necesita ir a algún lugar (ejecutar un trabajo). El taxi aparece, le lleva a su destino y solo paga por el viaje.
¿Qué es EMR Serverless?
Amazon EMR Serverless es una opción sin servidor para EMR que elimina la necesidad de configurar, gestionar y escalar clústeres. Envíe sus trabajos de Spark o Hive y EMR Serverless determina automáticamente los recursos necesarios, los aprovisiona, ejecuta el trabajo y libera los recursos al finalizar. Esto simplifica enormemente la ejecución de cargas de trabajo de big data.
Aplicaciones y trabajos
En EMR Serverless, primero crea una aplicación (Spark o Hive) que define la versión del runtime y la configuración predeterminada. Luego envía trabajos a la aplicación. Cada trabajo especifica el script a ejecutar, los datos de entrada/salida y los requisitos de recursos. La aplicación puede tener capacidad preinicializada para reducir los tiempos de inicio.
Costos y optimización
EMR Serverless cobra por los recursos de cómputo (vCPU y memoria) consumidos durante la ejecución del trabajo, facturados por segundo. No hay costos cuando no se ejecutan trabajos. Para optimizar costos, puede configurar la capacidad máxima por aplicación, usar capacidad preinicializada para trabajos frecuentes, y ajustar la configuración de recursos del trabajo. Para más información, libros en Amazon también son útiles.
Aspectos a tener en cuenta
- Pay-per-use pricing based on execution time and resource usage makes it cost-effective for short batch jobs
- For long-running interactive workloads, EMR on EC2 may be more cost-effective