Análisis de datos IoT - Estructuración y análisis de datos de dispositivos con AWS IoT Analytics

Explicamos el pipeline de recopilación, preprocesamiento y análisis de datos de dispositivos IoT con AWS IoT Analytics. Presentamos los 4 componentes (canal, pipeline, almacén de datos y conjunto de datos) y la integración con QuickSight.

Desafíos del análisis de datos IoT y el rol de IoT Analytics

Los dispositivos IoT envían continuamente grandes cantidades de datos de telemetría (temperatura, humedad, vibración, ubicación, estado operativo, etc.). Para analizar estos datos, se requiere preprocesamiento como eliminación de ruido, complementación de valores faltantes, conversión de unidades y filtrado de valores atípicos. Aunque es posible una configuración donde IoT Core recibe los datos, Lambda los preprocesa, se almacenan en DynamoDB o S3 y se consultan con Athena, es necesario construir y gestionar la integración de cada componente por cuenta propia. AWS IoT Analytics proporciona el pipeline desde la recopilación hasta el análisis de datos IoT como un servicio gestionado. Se compone de 4 componentes: canal (recepción de datos), pipeline (preprocesamiento), almacén de datos (almacenamiento) y conjunto de datos (resultados de consultas), permitiendo procesar, acumular y analizar automáticamente los datos de IoT Core.

Configuración de los 4 componentes

El canal es el punto de entrada que recibe datos desde las acciones de reglas de IoT Core o la API BatchPutMessage. Los datos brutos recibidos se almacenan tal cual y pueden usarse para reprocesamiento. El pipeline obtiene datos del canal y aplica una serie de actividades (pasos de procesamiento). Las actividades integradas incluyen adición/eliminación de atributos, filtrado (exclusión de datos que no cumplen condiciones), transformaciones matemáticas (conversión de unidades) y adición de metadatos del registro de dispositivos. También puede ejecutar lógica de preprocesamiento personalizada con actividades Lambda. El almacén de datos es el almacenamiento que acumula los datos procesados por el pipeline. Utiliza un bucket de S3 como backend y también admite almacenamiento en formato Parquet. Si se configura un período de retención, los datos antiguos se eliminan automáticamente. El conjunto de datos almacena los resultados de consultas SQL y puede actualizarse periódicamente mediante ejecución programada (cada hora, diariamente, etc.).

Análisis y visualización

Las consultas SQL del conjunto de datos ejecutan análisis como agregación, filtrado y unión sobre los datos del almacén de datos. Por ejemplo, puede definir consultas como "temperatura promedio y máxima de cada dispositivo en las últimas 24 horas" o "lista de dispositivos donde se produjeron valores atípicos (superación de umbrales)" y actualizar los resultados periódicamente mediante ejecución programada. Los resultados del conjunto de datos pueden conectarse directamente a QuickSight para construir dashboards. Visualice en tiempo real el estado operativo de los dispositivos, las tendencias de valores de sensores y las alertas de detección de anomalías. Con la integración de Jupyter Notebook, puede acceder directamente a los datos del almacén de datos desde instancias de notebook de SageMaker para construir y validar modelos de ML. Se puede utilizar para casos de uso de ML como mantenimiento predictivo (predicción de fallos de equipos), detección de anomalías y pronóstico de demanda. También existe la función de ejecutar código de análisis en contenedores como acción del conjunto de datos, permitiendo construir pipelines de inferencia de ML periódicos. Para aprender exhaustivamente los patrones de diseño de análisis IoT, consulte libros técnicos (Amazon).

Precios y diferenciación con Timestream

Los precios de IoT Analytics son: procesamiento de mensajes (pipeline) a 0,20 USD por millón de mensajes, almacenamiento de datos a 0,03 USD por GB/mes, y consultas a 5,00 USD por TB de datos analizados. En cuanto a la diferenciación con Timestream, IoT Analytics es adecuado cuando se necesita un pipeline de preprocesamiento de datos (filtrado, transformación, enriquecimiento). Timestream es adecuado para consultar y agregar rápidamente datos de series temporales ya preprocesados. También es efectiva la combinación de preprocesar datos con el pipeline de IoT Analytics, escribirlos en Timestream y ejecutar consultas en tiempo real en Timestream. Para proyectos IoT pequeños, IoT Analytics por sí solo es suficiente, pero si necesita consultas en tiempo real de grandes cantidades de dispositivos, considere usar Timestream en conjunto.

Resumen - Directrices de uso de IoT Analytics

AWS IoT Analytics es un servicio que realiza la recopilación, preprocesamiento y análisis de datos de dispositivos IoT mediante un pipeline gestionado. Sus principales fortalezas son la configuración serverless de 4 componentes (canal, pipeline, almacén de datos, conjunto de datos), el preprocesamiento personalizado con Lambda y la integración con QuickSight y SageMaker. Si está recopilando datos de dispositivos con IoT Core pero la construcción de la infraestructura de análisis le resulta laboriosa, IoT Analytics es una opción eficiente.