Amazon Managed Service for Apache Flink Especializado2016年〜
Servicio administrado de procesamiento de streams para ejecutar aplicaciones Apache Flink
Qué hace
Amazon Managed Service for Apache Flink es un servicio totalmente administrado para ejecutar aplicaciones Apache Flink. Ingiere datos en tiempo real desde Kinesis Data Streams, MSK (Kafka), S3 y otras fuentes, y realiza transformación, agregación y análisis usando SQL o Java/Python. Admite procesamiento de streams con estado y ventanas basadas en tiempo de evento.
Casos de uso
Se utiliza para análisis de logs en tiempo real, procesamiento de streams de datos de sensores IoT, análisis de clickstream, coincidencia de patrones en tiempo real para detección de fraude y pipelines ETL en tiempo real.
Analogía cotidiana
Es como una línea de inspección de calidad en una cinta transportadora. Los productos (datos) que pasan se inspeccionan (transforman, agregan) en tiempo real sin detenerse, y los artículos defectuosos (datos anómalos) se detectan y clasifican.
¿Qué es Managed Flink?
Amazon Managed Service for Apache Flink es un servicio administrado para procesamiento de streams. Apache Flink es un framework de procesamiento de streams con estado que proporciona ventanas basadas en tiempo de evento, semántica exactly-once y recuperación de fallos basada en checkpoints. Managed Flink maneja la construcción, operación y escalado de clústeres Flink.
Flink SQL y aplicaciones
Con Flink SQL, puede escribir procesamiento de streams en SQL. Exprese SELECT, JOIN, GROUP BY, funciones de ventana y más contra datos de streaming en SQL para realizar agregación y filtrado en tiempo real. Para procesamiento más complejo, use la API de Flink en Java o Python. Cargue su archivo JAR de aplicación en S3 y ejecútelo. Para consejos prácticos sobre el uso de Flink SQL y aplicaciones, los libros relacionados (Amazon) también son un recurso útil.
Primeros pasos
Cree una aplicación en la consola de Managed Flink y seleccione un runtime (SQL, Java, Python). Configure la fuente de entrada (Kinesis Data Streams, MSK) y el destino de salida (S3, Kinesis, OpenSearch). Para Flink SQL, puede desarrollar y probar consultas interactivamente en el notebook Studio.
Aspectos a tener en cuenta
- Se factura por hora por KPU (Kinesis Processing Unit). Como se ejecuta continuamente, Glue es más rentable para procesamiento por lotes
- Para procesamiento de streams simple, Kinesis Data Streams + Lambda es una arquitectura más simple. Flink es más adecuado para procesamiento con estado complejo