Amazon MWAA Especializado2020年〜
Servicio de orquestación de flujos de trabajo administrado para ejecutar Apache Airflow
Qué hace
Amazon MWAA (Managed Workflows for Apache Airflow) es un servicio totalmente administrado para Apache Airflow. Maneja la ejecución programada de flujos de trabajo definidos como DAGs (Grafos Acíclicos Dirigidos), la gestión de dependencias entre tareas y la monitorización de ejecución. La interfaz web, CLI y API de Airflow están disponibles tal cual.
Casos de uso
Se utiliza para orquestación de pipelines ETL, gestión de pipelines de machine learning, flujos de trabajo de ingesta de datos a data lakes y automatización de procesamiento por lotes que coordina múltiples servicios de AWS.
Analogía cotidiana
Es como un sistema de gestión de producción de fábrica. Define el orden y las dependencias de cada proceso (tarea) y los ejecuta automáticamente según un cronograma. Si un proceso falla, detiene los procesos posteriores y maneja reintentos y notificaciones.
¿Qué es MWAA?
Amazon MWAA es un servicio administrado para Apache Airflow. Airflow es un orquestador de flujos de trabajo de código abierto que define DAGs (flujos de trabajo) en Python, ampliamente utilizado en ingeniería de datos. MWAA maneja la construcción y operación de la infraestructura de Airflow (servidor web, scheduler, workers, DB de metadatos).
DAGs e integración con servicios AWS
Los archivos DAG se colocan en un bucket S3. MWAA carga automáticamente los DAGs y los ejecuta según el cronograma. El paquete de proveedor AWS de Airflow facilita la integración con servicios de AWS - ejecutar trabajos de Glue, lanzar clústeres EMR, invocar Lambda, ejecutar tareas ECS y más. También se pueden añadir paquetes Python personalizados a través de requirements.txt. Para profundizar en el conocimiento práctico de DAGs e integración con servicios AWS, los libros especializados en Amazon son útiles.
Primeros pasos
Cree un entorno en la consola de MWAA y especifique el bucket S3 para almacenar archivos DAG. Seleccione una clase de entorno (mw1.small, mw1.medium, mw1.large) y configure la VPC y subnets. La creación del entorno tarda aproximadamente 25 minutos. Una vez creado, acceda a la interfaz web de Airflow para gestionar DAGs y verificar el estado de ejecución.
Aspectos a tener en cuenta
- Se aplican cargos por hora continuamente para el entorno (la configuración mínima es aproximadamente $0.49/hora). Step Functions es más rentable para uso infrecuente
- Elija Step Functions para flujos de trabajo simples, y MWAA cuando se necesiten DAGs complejos o el ecosistema Airflow