Construcción de un data lake de seguridad con Amazon Security Lake - Análisis integrado en formato OCSF

Explicamos la agregación automática de CloudTrail, VPC Flow Logs y logs de Route 53 con Security Lake, la normalización OCSF y la integración con suscriptores.

Descripción general de Security Lake

Security Lake es un servicio que agrega y normaliza automáticamente datos de seguridad de AWS y de terceros. Anteriormente, para el análisis de seguridad era necesario recopilar y transformar individualmente los logs de CloudTrail, VPC Flow Logs y hallazgos de GuardDuty, pero Security Lake los convierte automáticamente al formato OCSF (Open Cybersecurity Schema Framework) y los agrega en un data lake basado en S3. Los datos se almacenan en formato de tablas Apache Iceberg y se pueden consultar directamente con SQL desde Athena. Mediante la integración con Organizations, una cuenta de administrador delegado puede gestionar centralmente los logs de todas las cuentas miembro, y los datos de un entorno multi-cuenta convergen en un único data lake, lo que lo diferencia fundamentalmente de CloudWatch Logs o la agregación S3 por cuenta individual.

Fuentes de datos y normalización OCSF

Security Lake recopila automáticamente 8 tipos de fuentes de datos nativas de AWS (eventos de gestión de CloudTrail, eventos de datos de CloudTrail, VPC Flow Logs, logs del resolver de Route 53, Security Hub, logs de ejecución de Lambda, logs de auditoría de EKS y logs de WAF). Las fuentes de datos de terceros (CrowdStrike, Palo Alto Networks, Cisco Security, etc.) también se pueden agregar como fuentes personalizadas. OCSF es un framework abierto que convierte eventos de seguridad de diferentes fuentes a un esquema unificado, permitiendo consultar con los mismos nombres de columna y tipos de datos independientemente de la fuente. Mediante la normalización OCSF, por ejemplo, sourceIPAddress de CloudTrail y srcaddr de VPC Flow Logs se mapean como src_endpoint.ip unificado, permitiendo el análisis de correlación cruzada en una sola consulta. El particionamiento se aplica automáticamente por región, ID de cuenta y fecha del evento, reduciendo significativamente el volumen de escaneo de las consultas en Athena.

Suscriptores y análisis

Los suscriptores son consumidores que acceden a los datos del data lake. Los suscriptores de acceso a datos pueden consultar directamente los datos en S3, analizándolos con Athena o Redshift Spectrum. Los suscriptores de acceso por consulta reciben notificaciones SQS cuando llegan nuevos datos, permitiendo construir pipelines de análisis en tiempo real. Se pueden configurar herramientas SIEM como Splunk o Datadog como suscriptores, integrando los datos de Security Lake en las herramientas de operaciones de seguridad existentes. Los suscriptores reciben automáticamente acceso entre cuentas a través de RAM (Resource Access Manager), eliminando la necesidad de configurar políticas IAM individualmente. Para profundizar en la comprensión de Security Lake, puede consultar libros especializados en Amazon.

Mejores prácticas de diseño y errores comunes

Al desplegar Security Lake, se recomienda designar una cuenta AWS dedicada a archivo de logs como administrador delegado, completamente aislada de las cuentas de cargas de trabajo. Configurar una región de agregación de rollup permite consolidar datos de todas las regiones en una sola para consultas centralizadas, pero tenga en cuenta que se aplican cargos por transferencia de datos entre regiones. Un error común es que al habilitar los eventos de datos de CloudTrail (operaciones a nivel de objeto S3), el volumen de ingesta puede ser decenas de veces mayor que los eventos de gestión; es esencial medir el volumen de logs en una cuenta de muestra previamente. Al agregar fuentes personalizadas, no pre-validar el mapeo al esquema OCSF puede causar fallos de análisis y pérdida de datos, por lo que siempre se debe validar con una fuente personalizada de prueba antes del despliegue en producción. La compactación de tablas Iceberg (fusión de archivos pequeños) se ejecuta automáticamente, pero el rendimiento de consultas puede degradarse temporalmente con fuentes de datos de alta frecuencia; se recomienda diseñar la operación evitando las horas pico de análisis.

Comparación con agregación en CloudWatch Logs y ETL personalizado

Los enfoques tradicionales sin Security Lake incluyen agregar logs en CloudWatch Logs con consultas Logs Insights, o construir un data lake personalizado con Kinesis Data Firehose y Glue ETL. CloudWatch Logs es simple de configurar pero carece de esquemas unificados entre fuentes de logs, dificultando las consultas cruzadas, y los costos de almacenamiento para logs con retención prolongada son significativamente mayores que S3. El ETL personalizado ofrece flexibilidad en el diseño del esquema pero implica costos sustanciales de desarrollo y operación para los pipelines de normalización, y sin cumplimiento de estándares abiertos como OCSF, la integración con SIEMs de terceros requiere transformaciones personalizadas. La ventaja de Security Lake radica en que la normalización, particionamiento y gestión de suscriptores se proporcionan de forma gestionada, además el cumplimiento con OCSF evita el vendor lock-in al tiempo que permite una amplia integración con herramientas de seguridad. Sin embargo, Security Lake está diseñado exclusivamente para logs de seguridad; la agregación de logs de aplicaciones y métricas de negocio sigue siendo más adecuada para CloudWatch Logs o ETL personalizado.

Precios de Security Lake

Los precios de Security Lake se componen del volumen de ingesta de datos y el volumen de almacenamiento. La ingesta de datos desde fuentes nativas de AWS cuesta aproximadamente $0.75 por GB, con cargos adicionales de almacenamiento en S3. Al almacenarse en formato Apache Iceberg, las consultas en Athena se basan en el volumen escaneado de S3 (aproximadamente $5 por TB). Se puede configurar el período de retención de datos por región y reducir los costos de almacenamiento mediante la estratificación automática de datos antiguos a Glacier. Al habilitar para toda la organización con Organizations, se recomienda un despliegue gradual comenzando por las cuentas con mayor volumen de logs, verificando los costos durante el proceso. Los eventos de datos de CloudTrail y VPC Flow Logs generan volúmenes muy grandes; al habilitarlos, mida los costos en una cuenta durante una semana, extrapole a estimaciones mensuales y luego despliegue a todas las cuentas para evitar excesos presupuestarios.

Resumen

Security Lake es un servicio de data lake que agrega automáticamente datos de seguridad de AWS en formato OCSF. Centraliza los datos de seguridad de toda la organización con la integración de Organizations y permite análisis transversales con Athena y herramientas SIEM. Los factores clave para un despliegue exitoso incluyen el diseño de aislamiento de la cuenta de administrador delegado, la pre-validación de costos al habilitar eventos de datos y la consideración de los costos de transferencia entre regiones con las regiones de agregación de rollup.