Plataforma de análisis de datos de series temporales con Amazon Timestream - Almacenamiento de datos IoT y optimización de consultas
Ingesta de datos de sensores IoT en Timestream, realizando análisis de series temporales con agregación en tiempo real basada en SQL y consultas programadas. Explicamos la optimización de costos mediante la jerarquización automática entre almacén de memoria y almacén magnético.
Descripción general de Timestream
Amazon Timestream es un servicio de base de datos de series temporales completamente gestionado. Permite ingestar grandes volúmenes de datos con marca de tiempo, como datos de sensores IoT, métricas de aplicaciones y datos de monitoreo de infraestructura, y analizarlos con SQL. Cuando se manejan datos de series temporales en una RDB tradicional, se requiere ingenio en el diseño de particionamiento e índices, y el rendimiento de las consultas tiende a degradarse a medida que aumenta el volumen de datos. Timestream posee un motor de almacenamiento optimizado para datos de series temporales, logrando respuestas de consulta a nivel de milisegundos para datos recientes mientras ingesta billones de eventos por día. A diferencia de almacenes clave-valor como DynamoDB, su fortaleza radica en poder escribir directamente en SQL consultas de agregación por rango de tiempo y funciones de series temporales (media móvil, interpolación, diferencia).
Modelo de datos y jerarquización de almacenes
El modelo de datos de Timestream tiene 3 niveles jerárquicos: base de datos, tabla y registro. Cada registro se compone de dimensiones (atributos de identificación como ID de dispositivo y región), medidas (valores de medición como temperatura y humedad) y marca de tiempo. El almacenamiento tiene una estructura de 2 capas con almacén de memoria y almacén magnético, donde se configura el período de retención del almacén de memoria (1 hora a 8766 horas) por tabla. Los datos que superan el período de retención del almacén de memoria se mueven automáticamente al almacén magnético, sin necesidad de procesamiento de migración de datos del lado de la aplicación. Las consultas buscan de forma transparente tanto en el almacén de memoria como en el magnético, por lo que no es necesario ser consciente de la ubicación de los datos. El almacén de memoria cuesta aproximadamente 0.036 USD por GB/hora y el almacén magnético aproximadamente 0.03 USD por GB/mes, con una gran diferencia de costo, por lo que el diseño del período de retención es clave para la optimización de costos.
Consultas y funciones de series temporales
Timestream proporciona un lenguaje de consulta propio que extiende el SQL estándar con funciones de series temporales. La función CREATE_TIME_SERIES convierte registros en objetos de series temporales, y INTERPOLATE_LINEAR (interpolación lineal) e INTERPOLATE_SPLINE (interpolación spline) permiten completar datos faltantes. También se proporcionan funciones de agregación integradas como media móvil, suma acumulativa, diferencia y percentil. Las consultas programadas son una función que ejecuta consultas periódicamente y escribe los resultados en otra tabla. Puede automatizar el preprocesamiento como agregar datos brutos de intervalos de 1 minuto en promedios por hora y almacenarlos en el almacén magnético, reduciendo significativamente los costos de consulta del dashboard. Se proporciona oficialmente un plugin de integración con Grafana, permitiendo la visualización en tiempo real de datos de Timestream en dashboards de Grafana. Si desea ampliar sus conocimientos sobre análisis de datos IoT, libros relacionados en Amazon también son una referencia útil.
Precios de Timestream
Los precios de Timestream se componen de 3 elementos: escritura, almacenamiento y consultas. La escritura cuesta aproximadamente 0.50 USD por millón de registros. El almacén de memoria cuesta aproximadamente 0.036 USD por GB/hora y el almacén magnético aproximadamente 0.03 USD por GB/mes. Las consultas se cobran a aproximadamente 0.01 USD por GB según el volumen de datos escaneados. Al ejecutar consultas de dashboard contra datos pre-agregados con consultas programadas, se reduce el volumen de escaneo y se optimizan los costos de consulta. Se recomienda un diseño que configure el período de retención del almacén de memoria al mínimo necesario y retenga los datos históricos a bajo costo en el almacén magnético.
Resumen
Amazon Timestream es una base de datos completamente gestionada especializada en datos de series temporales que logra tanto la ingesta masiva de datos de sensores IoT y métricas de aplicaciones como el análisis SQL. Optimiza costos con la jerarquización automática entre almacén de memoria y magnético, y automatiza la pre-agregación con consultas programadas. Se utiliza combinando la visualización en tiempo real mediante la integración con Grafana y el análisis avanzado mediante funciones de series temporales.