ML sin código con Amazon SageMaker Canvas - Construcción de modelos predictivos con interfaz visual

Una herramienta visual para construir modelos ML sin escribir código. Simplemente suba un CSV y seleccione un objetivo de predicción para construir un modelo, con compartición bidireccional con Studio.

Descripción general de SageMaker Canvas

SageMaker Canvas es una interfaz visual para construir modelos ML y ejecutar predicciones sin escribir código. Mientras que SageMaker Studio es un IDE para científicos de datos, Canvas es una herramienta que permite a analistas de negocio y no ingenieros aprovechar el ML. Puede construir un modelo simplemente subiendo un archivo CSV y seleccionando la columna que desea predecir. Las fuentes de datos incluyen archivos CSV en S3 así como conexiones directas a Redshift, Athena y Snowflake, permitiendo iniciar el análisis desde almacenes de datos existentes sin construir un pipeline ETL.

Construcción de modelos y predicción

Después de importar un conjunto de datos y seleccionar la columna objetivo de predicción, Canvas realiza automáticamente análisis de datos, ingeniería de características, selección de algoritmos y optimización de hiperparámetros. Quick Build produce un modelo con precisión aproximada en 2-15 minutos, mientras que Standard Build produce un modelo de mayor precisión en 2-4 horas. Internamente, Standard Build utiliza AutoML para probar múltiples algoritmos en paralelo (regresión lineal, XGBoost, Deep Learning, etc.) y seleccionar automáticamente el mejor modelo. Puede ejecutar predicciones con nuevos datos usando el modelo construido y descargar resultados como CSV. Además de predicciones por lotes, soporta predicciones de registro individual (análisis What-if), permitiendo cambiar valores de características y observar cambios en las predicciones en tiempo real. Los modelos Ready-to-use permiten usar modelos Bedrock preentrenados directamente desde Canvas, habilitando análisis de sentimiento y resumen de texto instantáneos. Para profundizar en ML sin código, los libros relacionados (Amazon) son una buena referencia.

Compartición de modelos y reentrenamiento automático

Los modelos construidos en Canvas pueden compartirse con SageMaker Studio, donde los científicos de datos pueden realizar ajuste detallado y evaluación usando código Python. A la inversa, los modelos avanzados construidos en Studio pueden importarse a Canvas, permitiendo a analistas de negocio ejecutar predicciones a través de la GUI. Programar el reentrenamiento automático asegura que los modelos se actualicen automáticamente cuando se agregan nuevos datos, previniendo la degradación de la precisión. Canvas soporta tipos de problemas de predicción de series temporales, clasificación, regresión, clasificación de imágenes y clasificación de texto, seleccionando automáticamente el algoritmo apropiado basándose en la columna objetivo.

Casos de uso y patrones de adopción

Canvas se destaca en departamentos que han acumulado datos pero carecen de recursos del equipo de ciencia de datos. En un equipo de marketing que construye un modelo de predicción de abandono de clientes, simplemente suba un CSV de atributos de clientes exportado del CRM (duración del contrato, frecuencia de uso, número de tickets de soporte, etc.) y especifique la "bandera de abandono" como columna objetivo para completar un modelo de predicción de abandono. En predicción de calidad de manufactura, se ingieren datos de sensores de series temporales para predecir la ocurrencia de defectos y mejorar el rendimiento. En pronóstico de demanda minorista, el modo de predicción de series temporales de Canvas pronostica cantidades de venta por SKU para optimización de inventario. El patrón de adopción recomendado es un flujo de tres etapas: primero validar hipótesis con Canvas (confirmar viabilidad del modelo con Quick Build), si la precisión parece prometedora compartir a Studio para ajuste por científicos de datos, y finalmente desplegar como SageMaker Endpoint para producción.

Cuándo usar Canvas vs. SageMaker Studio Notebooks

Canvas y Studio Notebooks se diferencian por usuario objetivo y el equilibrio libertad-versus-automatización. Canvas es una herramienta sin código orientada a la validación más rápida posible, con preprocesamiento de características, selección de algoritmos y optimización de hiperparámetros completamente automatizados. Studio Notebooks proporciona control completo con Python/R, permitiendo preprocesamiento personalizado, implementación de algoritmos propietarios, entrenamiento distribuido y selección de GPU. Las limitaciones de Canvas incluyen la imposibilidad de inyectar algoritmos personalizados, control limitado sobre la lógica de transformación de características y acceso restringido a salidas intermedias del modelo (más allá de la importancia de características). Por lo tanto, las tareas donde la precisión de AutoML es suficiente pertenecen a Canvas, mientras que las tareas que requieren enfoques de investigación novedosos pertenecen a Studio Notebooks. En la práctica, los resultados de Quick Build de Canvas a menudo revelan "precisión insuficiente pero dirección prometedora", momento en que el modelo se transfiere a Studio. La compartición con un clic de Canvas a Studio es una ventaja importante en este flujo de trabajo.

Precios de Canvas

Los cargos de sesión de Canvas se basan en el tiempo de uso del espacio de trabajo, a aproximadamente 1,90 dólares por hora. El entrenamiento de modelos se cobra por separado según el tiempo de entrenamiento y tipo de instancia. Quick Build (2-15 minutos) es adecuado para análisis exploratorio, mientras que Standard Build (2-4 horas) produce modelos de mayor precisión. Si Quick Build alcanza precisión suficiente, puede omitir Standard Build para reducir costos. Cierre sesión durante períodos inactivos para detener los cargos de sesión. Los modelos Ready-to-use (análisis de sentimiento, extracción de texto) pueden usarse sin entrenamiento adicional, eliminando costos de entrenamiento. Como nota de optimización de costos, Canvas mantiene instancias en segundo plano, por lo que si no cierra sesión explícitamente después de la exploración de datos, los cargos de sesión continúan acumulándose.

Resumen

SageMaker Canvas es una herramienta visual para construir modelos ML sin código. Los analistas de negocio pueden realizar análisis de datos y predicciones por su cuenta, y la compartición bidireccional de modelos con Studio permite la colaboración con científicos de datos. Soporta predicción de series temporales, clasificación, regresión y clasificación de imágenes, con reentrenamiento automático para prevenir la degradación de precisión. Los modelos Ready-to-use proporcionan análisis de sentimiento y extracción de texto sin entrenamiento adicional.