Diseño de procesamiento de datos en streaming - Construcción de pipelines de datos en tiempo real con Kinesis

Explicamos técnicas de diseño de procesamiento de datos en streaming con Amazon Kinesis, incluyendo la construcción de pipelines en tiempo real, la integración con Lambda y la entrega a S3.

約 4 分で読めます最終更新: 2025-10-13

Demanda de procesamiento de datos en tiempo real y rol de Kinesis

El procesamiento de datos en tiempo real es esencial para análisis de clickstream, monitoreo de IoT, detección de fraude, análisis de logs en tiempo real y feeds de redes sociales. Amazon Kinesis es una familia de servicios para recopilar, procesar y analizar datos en streaming en tiempo real. A diferencia del procesamiento por lotes que opera sobre datos históricos, el streaming procesa datos continuamente a medida que llegan, permitiendo insights y acciones en segundos.

Recopilación de datos con Kinesis Data Streams

Kinesis Data Streams es el servicio central para la ingesta de datos en streaming. Los productores envían registros al stream, que se distribuyen entre shards para procesamiento paralelo. Cada shard soporta 1 MB/segundo de escritura y 2 MB/segundo de lectura. El modo bajo demanda escala automáticamente los shards según el tráfico, eliminando la necesidad de planificación de capacidad. Los datos se retienen de 24 horas (por defecto) hasta 365 días, permitiendo reprocesamiento. Los productores pueden usar el SDK de AWS, Kinesis Producer Library (KPL) para batching eficiente, o Kinesis Agent para streaming de archivos de log.

Procesamiento de streaming serverless con integración de Lambda

Lambda se integra nativamente con Kinesis Data Streams como origen de eventos. Lambda lee automáticamente registros del stream y los procesa en lotes configurables. El paralelismo por shard permite múltiples invocaciones concurrentes por shard para aumentar el throughput. Las ventanas de tumbling agregan registros durante un período configurable antes de invocar Lambda, permitiendo agregaciones en tiempo real. El manejo de errores incluye reintentos automáticos, bisección de lotes (para aislar registros problemáticos) y destinos de fallo para registros que no se pueden procesar. Para profundizar en el procesamiento de datos en streaming, libros especializados (Amazon) son una referencia útil.

Entrega con Data Firehose e integración con S3

Amazon Data Firehose (anteriormente Kinesis Data Firehose) es el servicio más sencillo para entregar datos en streaming a destinos como S3, Redshift, OpenSearch y servicios de terceros. Firehose gestiona automáticamente el buffering, la compresión, el cifrado y la conversión de formato (por ejemplo, JSON a Parquet). La entrega a S3 permite construir data lakes que combinan datos en streaming con datos históricos para análisis con Athena o Redshift Spectrum. La transformación con Lambda permite enriquecer o filtrar datos antes de la entrega.

Precios de Kinesis

Kinesis Data Streams en modo bajo demanda cobra por GB de datos escritos y leídos (0.08 USD/GB escritura, 0.04 USD/GB lectura) más retención extendida. En modo provisionado, cada shard cuesta 0.015 USD/hora. Data Firehose cobra por GB de datos ingeridos (0.029 USD/GB). La capa gratuita no está disponible para Kinesis. Para volúmenes bajos, considere alternativas como SQS + Lambda o EventBridge.

Resumen

Amazon Kinesis proporciona una familia completa de servicios para procesamiento de datos en streaming. Data Streams para ingesta y procesamiento personalizado, Data Firehose para entrega administrada a destinos, y la integración con Lambda para procesamiento serverless. La combinación permite construir pipelines de datos en tiempo real escalables sin gestión de infraestructura.

Uso práctico de Amazon Quick - Casos de uso por departamento y patrones de diseño para automatización de flujos de trabajoPresentamos escenarios de uso concretos para departamentos de ventas, TI y finanzas, así como patrones de diseño para notificaciones, aprobaciones y flujos de trabajo de múltiples etapas con Quick Flows.Visualización de dashboards BI - Plataforma de decisiones basada en datos con Amazon QuickSightExplicamos la construcción de dashboards BI interactivos con Amazon QuickSight y una plataforma de análisis de datos serverless con integración Athena. Presentamos la visualización de alta velocidad con el motor SPICE y métodos prácticos para compartir insights en toda la organización.Construcción de redes blockchain - Aprovechamiento de libros mayores distribuidos con Amazon Managed Blockchain y QLDBExplicamos la construcción de redes blockchain con Amazon Managed Blockchain y el uso de Amazon QLDB como base de datos de libro mayor verificable. Presentamos casos de uso prácticos como gestión de cadena de suministro y transparencia en transacciones financieras.Colaboración de datos con preservación de privacidad con AWS Clean RoomsEjecute análisis conjuntos entre múltiples empresas sin compartir ni copiar datos. Aprenda sobre reglas de agregación para prevenir la identificación individual y Cryptographic Computing para análisis cifrado.Unificación de identidad de clientes - Resolución de entidades de datos de clientes dispersos con AWS Entity ResolutionResolución de entidades (name matching) de datos de clientes con AWS Entity Resolution. Matching basado en ML, matching basado en reglas, protección de privacidad e integración con Clean Rooms.Aprovechamiento de datos de terceros con AWS Data Exchange - Adquisición de datos y gestión de suscripcionesAdquiera productos de datos de terceros a través de Marketplace y construya pipelines de entrega automática a S3. También se presentan técnicas de productización y monetización de datos propios.Construcción de data lake con Amazon S3 y Lake Formation - Patrones de diseño y gobernanzaPatrones de diseño de data lake con S3 como base de almacenamiento y control de acceso granular con Lake Formation. También se explican pipelines ETL y optimización de costos.Gobernanza de data lake - Control de acceso centralizado con AWS Lake FormationConstrucción, control de acceso y gobernanza de data lake con AWS Lake Formation. Gestión granular de permisos a nivel de columna y fila para data lakes basados en S3, e integración con Glue y Athena.

Demanda de procesamiento de datos en tiempo real y rol de Kinesis

Recopilación de datos con Kinesis Data Streams

Procesamiento de streaming serverless con integración de Lambda

Entrega con Data Firehose e integración con S3

Precios de Kinesis

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares