Amazon MSK のアイコン

Amazon MSK Popular2018年〜

Servicio Apache Kafka totalmente administrado para procesamiento de datos de streaming en tiempo real

Qué hace

Amazon MSK (Managed Streaming for Apache Kafka) es un servicio totalmente administrado para construir y operar fácilmente Apache Kafka en la nube. AWS maneja todo el aprovisionamiento, configuración, aplicación de parches y respuesta a fallos del clúster Kafka, para que los desarrolladores puedan centrarse en construir aplicaciones de streaming. Es totalmente compatible con Apache Kafka de código abierto, permitiendo que las aplicaciones Kafka existentes migren sin cambios de código.

Casos de uso

Se utiliza para agregación y análisis de logs en tiempo real, recopilación y procesamiento de datos de clickstream, streaming de datos de sensores IoT, arquitecturas dirigidas por eventos entre microservicios, captura de datos de cambio de bases de datos (CDC) y sistemas de detección de fraude en tiempo real - en cualquier lugar donde se necesite procesar grandes volúmenes de datos de streaming con baja latencia.

Analogía cotidiana

Es como una plaza de peaje de autopista. A medida que un flujo masivo de coches (datos) pasa continuamente, la plaza de peaje (broker Kafka) los organiza en los carriles apropiados (topics). Amazon MSK maneja toda la construcción, mantenimiento y expansión de la plaza de peaje, para que pueda centrarse únicamente en diseñar el flujo de tráfico.

¿Qué es Amazon MSK?

Amazon MSK es un servicio administrado para Apache Kafka. Apache Kafka es una plataforma de código abierto ampliamente utilizada para construir pipelines de datos de streaming en tiempo real, pero autogestionarlo requiere un trabajo operativo significativo incluyendo configuración de clústeres, gestión de ZooKeeper, monitorización de brokers y aplicación de parches. MSK delega toda esta carga operativa a AWS y proporciona un SLA de disponibilidad del 99.9%. Como puede usar las APIs nativas de Kafka tal cual, migrar aplicaciones de productores y consumidores existentes es sencillo.

MSK Serverless y MSK Provisioned

Amazon MSK ofrece dos opciones de despliegue. MSK Provisioned es la configuración de clúster tradicional donde se especifican explícitamente los tipos de instancia del broker y la capacidad de almacenamiento. Es adecuado para cargas de trabajo con características predecibles. MSK Serverless automatiza completamente la gestión de capacidad, escalando hacia arriba y abajo según el tráfico. Es fácil de configurar inicialmente e ideal para cargas de trabajo variables o para empezar a pequeña escala. Ambas opciones tienen compatibilidad equivalente con Kafka de código abierto. Para organizar los conceptos y enfoques de MSK Serverless y MSK Provisioned, los libros de referencia en Amazon son útiles.

Seguridad e integración

Amazon MSK proporciona funciones de seguridad multicapa. Admite cifrado de comunicaciones (TLS), cifrado de datos en reposo (AWS KMS), autenticación IAM, autenticación SASL/SCRAM y control de acceso detallado mediante ACLs de Apache Kafka. Colocar el clúster dentro de una VPC también permite el aislamiento a nivel de red. La integración con AWS Glue Schema Registry centraliza la gestión de esquemas, y la integración de datos con Amazon S3, Amazon Redshift, OpenSearch Service y más se puede construir fácilmente usando MSK Connect.

Aspectos a tener en cuenta

  • Comparado con Kinesis Data Streams, MSK es más adecuado cuando se quiere aprovechar el ecosistema Kafka existente (Connect, Streams, ksqlDB) tal cual
  • MSK Serverless tiene límites en el número de particiones, así que considere MSK Provisioned para cargas de trabajo a gran escala
共有するXB!