AWS Glue Popular2016年〜
Un servicio ETL sin servidor que automatiza la extracción, transformación y carga de datos
Qué hace
AWS Glue es un servicio sin servidor que automatiza el proceso de extraer datos de diversas fuentes, transformarlos al formato deseado y cargarlos en almacenes de datos de destino. Incluye un catálogo de datos centralizado, generación automática de código ETL, programación de trabajos y crawlers que descubren automáticamente esquemas de datos.
Casos de uso
Se utiliza para construir pipelines ETL para lagos de datos, catalogar datos en S3 y bases de datos, preparar datos para análisis en Athena y Redshift, migración de datos entre almacenes, limpieza y normalización de datos, y cualquier flujo de trabajo de integración de datos.
Analogía cotidiana
Piense en ello como una fábrica de procesamiento de datos automatizada. Las materias primas (datos sin procesar) llegan de diferentes proveedores (fuentes) en diferentes formatos. La fábrica (Glue) los clasifica (cataloga), los procesa (transforma) y los empaqueta (carga) en el formato correcto para los clientes (consumidores de datos).
¿Qué es Glue?
AWS Glue es un servicio de integración de datos sin servidor que facilita descubrir, preparar y combinar datos para análisis, aprendizaje automático y desarrollo de aplicaciones. Elimina la necesidad de aprovisionar y gestionar servidores para trabajos ETL. Glue se encarga de la infraestructura, permitiéndole enfocarse en la lógica de transformación de datos.
Catálogo de datos y crawlers
El Catálogo de Datos de Glue es un repositorio central de metadatos que almacena información sobre sus datos: ubicación, esquema, formato y estadísticas. Los crawlers de Glue escanean automáticamente sus fuentes de datos (S3, RDS, Redshift, etc.) y registran los esquemas descubiertos en el catálogo. Athena, Redshift Spectrum y EMR pueden consultar datos usando el catálogo.
Trabajos ETL y Studio
Los trabajos ETL de Glue transforman datos usando scripts de Apache Spark (Python o Scala). Glue puede generar automáticamente código ETL basado en las transformaciones que defina visualmente en Glue Studio. Studio proporciona un editor visual de arrastrar y soltar para crear pipelines ETL sin escribir código. Los trabajos se ejecutan en infraestructura sin servidor administrada por Glue.
DataBrew y calidad de datos
Glue DataBrew es una herramienta visual de preparación de datos que permite limpiar y normalizar datos sin escribir código. Proporciona más de 250 transformaciones predefinidas. Glue Data Quality permite definir reglas de calidad de datos y monitorear automáticamente la calidad de sus datos a lo largo del tiempo.
Primeros pasos
Para comenzar con Glue, ejecute un crawler para descubrir sus datos en S3 o una base de datos. El crawler registrará los esquemas en el Catálogo de Datos. Luego, cree un trabajo ETL usando Glue Studio (visual) o escribiendo un script Spark. Programe el trabajo para ejecución periódica o actívelo con eventos. Para más información, libros en Amazon también son útiles.
Aspectos a tener en cuenta
- Pricing is based on DPU usage time, so costs increase with large data transformations. Use small datasets for development and testing
- Running crawlers too frequently increases costs. Set appropriate schedules based on data update frequency
- Glue Studio's visual editor enables no-code ETL, but for complex transformation logic, writing PySpark scripts directly is more appropriate