Procesamiento de big data con Amazon EMR - Entorno de ejecución para Spark y Hive

Ejecuta trabajos Spark y consultas Hive en clústeres EMR, y presentamos la diferenciación con EMR Serverless y la optimización de costos con escalado gestionado.

約 3 分で読めます最終更新: 2025-11-25

Configuración del clúster EMR

Un clúster EMR se compone de un nodo maestro (gestión del clúster, coordinación de trabajos), nodos core (almacenamiento HDFS y procesamiento) y nodos task (solo procesamiento, sin almacenamiento). El nodo maestro ejecuta YARN ResourceManager y HDFS NameNode, coordinando la distribución de trabajos. Los nodos core almacenan datos en HDFS y ejecutan tareas de procesamiento. Los nodos task se agregan para capacidad de procesamiento adicional sin almacenamiento, siendo ideales para instancias Spot. EMR soporta múltiples frameworks como Spark, Hive, Presto, HBase y Flink, que se seleccionan al crear el clúster.

Ejecución de Spark y Hive

Spark en EMR se ejecuta sobre YARN y lee/escribe datos desde S3 mediante el conector EMRFS. EMRFS proporciona consistencia de lectura después de escritura para S3 y soporta cifrado del lado del servidor. Los trabajos Spark se envían con spark-submit o mediante EMR Steps. Hive proporciona una interfaz SQL sobre datos en S3 o HDFS, siendo adecuado para analistas que prefieren SQL sobre programación. El Metastore de Hive se puede externalizar a AWS Glue Data Catalog, compartiendo definiciones de tablas entre EMR, Athena y Redshift Spectrum.

EMR on EKS y escalado gestionado

EMR on EKS ejecuta trabajos Spark en clústeres EKS existentes, compartiendo la infraestructura de Kubernetes con otras cargas de trabajo. Esto es útil cuando la organización ya tiene inversión en EKS y quiere consolidar la gestión. El escalado gestionado de EMR ajusta automáticamente el número de nodos según la carga del trabajo, agregando nodos cuando hay tareas pendientes y eliminándolos cuando se completan. Combinado con instancias Spot para nodos task, se logra una reducción significativa de costos manteniendo el rendimiento.

Optimización de costos de EMR

El costo de EMR se compone del cargo por hora de EMR (aproximadamente 25% sobre el precio de EC2) más el costo de las instancias EC2. Para nodos task se recomienda usar instancias Spot (hasta 90% de descuento). Los clústeres transitorios (se crean para un trabajo y se terminan al completarse) eliminan costos de inactividad. EMR Serverless elimina la gestión de clústeres y cobra solo por los recursos consumidos durante la ejecución del trabajo. Para trabajos esporádicos o impredecibles, Serverless es más económico que mantener un clúster permanente.

Resumen

Amazon EMR proporciona un entorno gestionado para frameworks de big data como Spark y Hive. El escalado gestionado y las instancias Spot optimizan los costos, mientras que la integración con S3 y Glue Data Catalog facilita la construcción de data lakes. Para cargas de trabajo predecibles y de gran escala se recomienda EMR en clúster; para trabajos esporádicos, EMR Serverless ofrece simplicidad y eficiencia de costos.

Uso práctico de Amazon Quick - Casos de uso por departamento y patrones de diseño para automatización de flujos de trabajoPresentamos escenarios de uso concretos para departamentos de ventas, TI y finanzas, así como patrones de diseño para notificaciones, aprobaciones y flujos de trabajo de múltiples etapas con Quick Flows.Visualización de dashboards BI - Plataforma de decisiones basada en datos con Amazon QuickSightExplicamos la construcción de dashboards BI interactivos con Amazon QuickSight y una plataforma de análisis de datos serverless con integración Athena. Presentamos la visualización de alta velocidad con el motor SPICE y métodos prácticos para compartir insights en toda la organización.Construcción de redes blockchain - Aprovechamiento de libros mayores distribuidos con Amazon Managed Blockchain y QLDBExplicamos la construcción de redes blockchain con Amazon Managed Blockchain y el uso de Amazon QLDB como base de datos de libro mayor verificable. Presentamos casos de uso prácticos como gestión de cadena de suministro y transparencia en transacciones financieras.Colaboración de datos con preservación de privacidad con AWS Clean RoomsEjecute análisis conjuntos entre múltiples empresas sin compartir ni copiar datos. Aprenda sobre reglas de agregación para prevenir la identificación individual y Cryptographic Computing para análisis cifrado.Unificación de identidad de clientes - Resolución de entidades de datos de clientes dispersos con AWS Entity ResolutionResolución de entidades (name matching) de datos de clientes con AWS Entity Resolution. Matching basado en ML, matching basado en reglas, protección de privacidad e integración con Clean Rooms.Aprovechamiento de datos de terceros con AWS Data Exchange - Adquisición de datos y gestión de suscripcionesAdquiera productos de datos de terceros a través de Marketplace y construya pipelines de entrega automática a S3. También se presentan técnicas de productización y monetización de datos propios.Construcción de data lake con Amazon S3 y Lake Formation - Patrones de diseño y gobernanzaPatrones de diseño de data lake con S3 como base de almacenamiento y control de acceso granular con Lake Formation. También se explican pipelines ETL y optimización de costos.Gobernanza de data lake - Control de acceso centralizado con AWS Lake FormationConstrucción, control de acceso y gobernanza de data lake con AWS Lake Formation. Gestión granular de permisos a nivel de columna y fila para data lakes basados en S3, e integración con Glue y Athena.

Configuración del clúster EMR

Ejecución de Spark y Hive

EMR on EKS y escalado gestionado

Optimización de costos de EMR

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares