Streaming de datos en tiempo real - Procesamiento inmediato de datos con Amazon Kinesis

Ingesta y procesa flujos de datos en tiempo real con Kinesis Data Streams y Data Firehose. Presentamos el diseño de shards, el procesamiento con Lambda y la entrega a destinos.

Descripción general de Kinesis

Amazon Kinesis es una familia de servicios para recopilar, procesar y analizar datos de streaming en tiempo real. Kinesis Data Streams ingesta datos a escala con latencia de milisegundos. Kinesis Data Firehose entrega datos de streaming a destinos como S3, Redshift, OpenSearch y Splunk sin necesidad de código. Kinesis Data Analytics procesa streams con SQL o Apache Flink. Juntos permiten construir pipelines de datos en tiempo real completos.

Kinesis Data Streams y diseño de shards

Data Streams es el servicio core de ingesta. Un stream se compone de shards, cada uno con capacidad de 1 MB/s de escritura y 2 MB/s de lectura. El número de shards determina la capacidad total del stream. La partition key distribuye los registros entre shards: registros con la misma key van al mismo shard, garantizando orden dentro de la partición. El modo On-Demand escala automáticamente los shards según el tráfico, eliminando la necesidad de planificación de capacidad. El modo Provisioned permite control manual para cargas predecibles. La retención de datos es configurable de 24 horas a 365 días.

Procesamiento y entrega

Los consumidores procesan registros del stream. Lambda se integra nativamente como consumidor, invocándose automáticamente con batches de registros. KCL (Kinesis Client Library) permite construir aplicaciones consumidoras personalizadas con checkpointing automático. Enhanced Fan-Out proporciona 2 MB/s dedicados por consumidor, eliminando la contención entre múltiples consumidores. Data Firehose simplifica la entrega a destinos sin código: bufferea registros por tiempo o tamaño, opcionalmente transforma con Lambda, comprime y entrega a S3, Redshift, OpenSearch o endpoints HTTP. La transformación en tránsito permite filtrar, enriquecer o convertir formatos antes de la entrega. Para profundizar en streaming de datos, consulte libros relacionados en Amazon.

Precios de Kinesis

Data Streams en modo On-Demand cobra por GB de datos escritos (0.08 dólares/GB) y por hora de stream (0.04 dólares/shard-hora equivalente). En modo Provisioned cobra por shard-hora (0.015 dólares) y por unidad PUT (25KB). Data Firehose cobra por GB de datos ingestados (0.029 dólares/GB para S3). La retención extendida más allá de 24 horas tiene cargos adicionales. Enhanced Fan-Out cobra por consumidor-shard-hora y por GB leído.

Resumen

Amazon Kinesis proporciona ingesta y procesamiento de datos de streaming en tiempo real. Data Streams ofrece ingesta escalable con latencia de milisegundos, Data Firehose simplifica la entrega a destinos sin código, y Data Analytics permite procesamiento con SQL o Flink. Es adecuado para logs en tiempo real, métricas de IoT, clickstream analytics y cualquier caso de uso que requiera procesamiento inmediato de datos continuos.